以決策樹、深度學習和迭代比例擬合來產生數據,方法根據要求和目的選擇。
1、依分佈產生
對於沒有真實資料但資料分析師了解資料集分佈的情況,分析師可以產生各種分佈的隨機樣本,如常態、指數、卡方、對數常態和均勻分佈。這樣可以模擬不同類型的數據,用於分析和預測。
在這種技術中,合成資料的效用取決於分析師對特定資料環境的了解程度。
2、將真實數據擬合到已知分佈
如果有真實數據,可以透過擬合已知分佈來產生合成數據。蒙特卡羅方法可用於產生數據,前提是已知分佈參數和真實數據的擬合。
雖然蒙特卡羅方法可找到最佳擬合,但實用性可能不足。
可以考慮使用機器學習模型如決策樹來擬合非經典分佈,包括多模態分佈和沒有已知共同特徵的分佈。
使用機器學習擬合分佈可以產生高度相關的合成數據,但過度擬合是一個風險。
對於僅存在部分真實資料的情況,也可以使用混合合成資料產生。在這種情況下,分析師會根據理論分佈產生資料集的一部分,並根據真實資料產生其他部分。
3、使用深度學習
變分自動編碼器(VAE)和生成對抗網路(GAN)等深度生成模型可以產生合成資料。
變分自動編碼器(VAE)是一種無監督方法,編碼器將原始資料集壓縮成更緊湊的結構並將資料傳輸到解碼器。然後解碼器產生一個輸出,它是原始資料集的表示。透過優化輸入和輸出資料之間的相關性來訓練系統。
生成對抗網路(GAN),在GAN模型中,生成器和判別器這兩個網路迭代地訓練模型。生成器採用隨機樣本資料並產生合成資料集。鑑別器根據先前設定的條件將綜合產生的資料與真實資料集進行比較。
在資料合成之後,透過將合成資料與真實資料進行比較來評估合成資料的效用。效用評估過程有兩個階段:
一般比較:比較從兩個資料集測量的分佈和相關係數等參數。
工作負載感知實用程式評估:透過對合成資料進行分析來比較特定用例的輸出準確性。
以上是常見的3種資料產生技術及其應用領域為何?的詳細內容。更多資訊請關注PHP中文網其他相關文章!