翻訳者 | Bugatti
レビュアー | Sun Shujuan
データは機械学習モデルの生命線であると言えます。しかし、この貴重なリソースへのアクセスが制限されたらどうなるでしょうか?多くのプロジェクトや企業が実証し始めているように、このような時代には合成データが、素晴らしいとは言えないにしても、実行可能な選択肢となります。
#合成データとは何ですか? 合成データは、直接測定では取得されない、人工的に生成された情報です。 「フェイク」データ自体は新しい概念でも革命的な概念でもありません。これは本質的に、適切に機能するために利用可能な情報または必要な情報が不足しているモデルのテスト データまたはトレーニング データを生成する方法です。 以前は、データが不足していたため、ランダムに生成されたデータ ポイントのセットを使用するという便利な方法が使用されていました。教育やテストの目的にはこれで十分かもしれませんが、ランダム データは、あらゆる種類の予測モデルをトレーニングする対象となるデータではありません。それが合成データの概念の違いであり、信頼性があります。 合成データは本質的に、ランダム化されたデータを巧みに生成できるユニークな概念です。したがって、このアプローチはテストだけでなく、より複雑なユースケースにも適用できます。 合成データを生成するにはどうすればよいですか? 合成データの生成方法は、より複雑な入力セットを介するという点でランダム データと変わりませんが、合成データは異なる目的を果たすため、固有の要件があります。 合成メソッドは、事前に入力として供給される特定の基準に基づいており、それに限定されます。実際にはランダムではありません。これは、データ ポイントの可能な範囲、分布、頻度を決定する特定の分布と基準を備えた一連のサンプル データに基づいています。大まかに言えば、目標は、実際のデータを複製して、機械学習モデルをトレーニングするのに十分な大きさになる、より大きなデータ セットを作成することです。 このアプローチは、合成データを洗練するための深層学習手法を検討する場合に特に興味深いものになります。アルゴリズムは、合成データを生成および識別する能力において互いを上回ることを目指して、互いに競合することができます。実際、ここでの目的は、超現実的なデータを生成するために人為的な軍備競争に参加することです。 なぜ合成データが必要なのでしょうか? 文明の進歩に必要な貴重な資源を収集できない場合、私たちはそれを作り出す方法を見つけるでしょう。この原則は現在、機械学習と人工知能のデータの世界にも同様に当てはまります。 アルゴリズムをトレーニングする場合、データのサンプル サイズを非常に大きくすることが重要です。そうしないと、アルゴリズムによって特定されるパターンが実際のアプリケーションには単純すぎる可能性があります。これは実際には非常に論理的です。人間の知能が問題を解決するために最も簡単なルートを選択することが多いのと同じように、機械学習や人工知能をトレーニングするときにも同じことがよく起こります。 たとえば、一連の猫の画像から犬を正確に識別できるオブジェクト認識アルゴリズムにこれを適用することを検討してください。データ量が少なすぎる場合、AI は識別しようとしているオブジェクトの本質的な特徴ではないパターンに依存する危険があります。この場合、AI は依然として有効である可能性がありますが、最初に識別したパターンに従っていないデータに遭遇すると機能不全に陥ります。 合成データは AI のトレーニングにどのように使用されますか? それでは、解決策は何でしょうか?私たちは、わずかに異なる動物をたくさん描き、ネットワークに特定のピクセルの位置だけでなく、画像の基礎となる構造を見つけさせました。しかし、100 万匹の犬を手で描くよりも、分類アルゴリズムのトレーニングに使用できる、犬の描画に特化したシステムを構築する方が良いでしょう。機械学習をトレーニングするために合成データをフィードする場合、実際にこれが行われます。 ただし、このアプローチには明らかな欠陥があります。何もないところからデータを生成するだけでは現実世界を表すものではないため、実際のデータに遭遇するとアルゴリズムが失敗する可能性があります。解決策は、データのサブセットを収集し、その中の傾向と範囲を分析して特定し、そのデータを使用して、すべてを収集した場合にデータがどのようになるかを表す可能性が高い大量のランダム データを生成することです。私たち自身。 これも合成データの価値です。データを際限なく収集し、使用前にクリーンアップして処理する必要はもうありません。 データ プライバシーに関する増大する懸念を合成データが解決できるのはなぜですか? 世界は現在、特に欧州連合において、非常に劇的な変化を経験しています。プライバシーと生成されるデータはますます保護されています。機械学習やAIの分野では、データ保護の強化が長年の課題となっている。制限されたデータは、多くの場合、特に B2C ソリューションの場合、アルゴリズムをトレーニングして実行し、エンド ユーザーに価値を提供するためにまさに必要なものです。 プライバシーの問題は、個人がソリューションの使用を決定し、データの使用を承認するときに対処されることがよくあります。ここでの問題は、ユーザーが喜んで個人データを提供できる十分な価値を提供するソリューションを用意するまで、ユーザーに個人データを提供してもらうのが難しいことです。その結果、サプライヤーは鶏が先か卵が先かというジレンマに陥ることがよくあります。合成データがソリューションであり、企業は早期採用者を通じてデータのサブセットにアクセスできるようになります。その後、この情報を基礎として使用して、機械学習と AI のトレーニングに十分なデータを生成できます。このアプローチにより、時間と費用がかかるプライベート データの必要性が大幅に軽減され、実際のユーザー向けにアルゴリズムを開発できるようになります。
医療、銀行、法律などの一部の業界では、合成データは、これまで利用できなかった大量のデータに簡単にアクセスする方法を提供し、新しいより高度なアルゴリズムが直面することが多い課題を解消します。 。
実際のデータの問題は、それが機械学習や AI アルゴリズムのトレーニングを目的として生成されたものではなく、単に私たちの周りで起こっている出来事の副産物であることです。前述したように、これにより収集されたデータの可用性と使いやすさが明らかに制限されるだけでなく、データのパラメーターや結果を損なう可能性のある欠陥 (外れ値) の可能性も制限されます。このため、モデルをトレーニングする際には、カスタマイズおよび制御できる合成データの方が効率的です。
ただし、合成データはトレーニング シナリオには非常に適していますが、それを作成する際には必ず実際のデータの少なくとも一部に依存することになります。したがって、合成データは、依存する元のデータを置き換えることはありません。より現実的には、アルゴリズムのトレーニングに必要な実際のデータの量が大幅に削減されます。このプロセスでは、テストよりもはるかに多くのデータが必要になります。通常、データの 80% がトレーニングに使用され、残りの 20% がテストに使用されます。
最後に、合成データは、正しく行われれば、現実世界からデータを取得するよりも低コストで、必要なデータをより迅速かつ効率的に取得する方法を提供し、煩わしいデータのプライベート問題を軽減します。
原題: Synthetic data: The future of machine learning 、著者: Christian Lawaetz Halvorsen
以上が合成データ: 機械学習の未来の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。