人工知能や機械学習 (AI/ML) をトレーニングするための実データの収集には、時間も費用もかかります。そして、多くの場合、これにはリスクが伴いますが、より一般的な問題は、データが少なすぎたり、偏ったデータが組織を誤った方向に導く可能性があることです。しかし、新しいデータ、いわゆる合成データを 生成できたらどうでしょうか?
ありそうもないように思えますが、Synthesis AI が 468 Capital、Sorenson Ventures、Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital、Kubera Venture Capital などのベンチャー キャピタル企業から 17 ドルを調達する予定なのはまさにこれです。シリーズA資金調達で100万ドル。
これは非常に信頼できる証拠です。同社はこの資金を、実データと合成データの混合分野での研究開発を拡大するために使用する予定だ。
Synthesis AI の CEO、Yashar Behzadi 氏は声明で次のように述べています。「合成データは導入の転換点にあり、私たちの目標はテクノロジーをさらに開発し、コンピューター ビジョン システムのあり方のパラダイム シフトを推進することです」業界は間もなく、仮想世界でコンピューター ビジョン モデルを完全に設計およびトレーニングし、より高度で倫理的な人工知能を実現するでしょう。」
合成データは、現実世界から収集されたものではなく、人間によって作成されます。現在、多くのアプリケーションは、コンピューター ビジョン システムから収集されたデータなどの視覚データに重点を置いています。それでも、アプリケーションのテストや不正行為を検出するためのアルゴリズムの改善など、他のユースケースで合成データを作成できない実際的な理由はありません。これらは、物理レコードの高度に構造化されたデジタル ツインに似ています。
大規模で現実的なデータセットを大規模に提供することで、データサイエンティストやアナリストは理論的にはデータ収集プロセスをスキップして、テストやトレーニングに直接取り組むことができます。
これは、現実世界のデータセットを作成するコストの多くは、生データの収集だけにとどまらないためです。コンピュータービジョンと自動運転車を例に挙げると、自動車メーカーや研究者はさまざまなカメラ、レーダー、ライダーセンサーを車両に取り付けて収集できますが、生データは AI/ML アルゴリズムにとって何の意味も持ちません。同様に困難な課題は、システムがより適切な意思決定を行えるように、コンテキスト情報を使用してデータに手動で ラベルを付けることです。
この課題の背景を見てみましょう。一時停止標識、交差点、駐車中の車、歩行者などがすべてある状態で短距離を定期的に運転していると想像してください。そして、あらゆる潜在的な危険にラベルを付けると仮定して、次のことを想像してください。大変な仕事です。 合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするのに十分な大きさの、完全にラベル付けされたデータ セットを作成できることです。つまり、データ サイエンティストは、大量の新しいアルゴリズムで突然アルゴリズムをテストできます。その場合、世界データのみが実際に取得できるか、取得が困難な状況でのみ取得できます。自動運転車の例を続けると、データ サイエンティストは、手動でデータを収集するためにドライバーを北や山中に派遣することなく、雪に覆われた道路などの過酷な状況で車を運転するように訓練するための合成データを作成できます。 合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするために必要な規模で完全にラベル付けされたデータセットを作成できることです。つまり、データ サイエンティストは実際のデータを取得する前にデータを作成できることになります。データが入手困難なときに、多くの新しい場所でアルゴリズムをテストします。自動運転車の例では、データ サイエンティストは、ドライバーが手動でデータを収集するためにずっと北に行ったり山に入ったりすることなく、雪に覆われた道路などの悪条件で車を運転するように訓練するための合成データを作成できます。 ただし、合成データは、より多くのデータとより多くの AI/ML アルゴリズムを使用しないと作成できないため、鶏が先か卵が先かという問題が発生します。 「シード」データセットから始めて、それを合成作成のベースラインとして使用します。つまり、最初のデータと同等の品質しか得られません。 (無形の) 利点データ ジェネレーターが無限に供給されているように見えても、その恩恵を受けられないデータ サイエンティストや研究者はいますか? 中心的な利点 – 現実世界のデータを手動で収集する必要がなくなること –合成データが AI/ML アプリケーションを高速化できる方法の 1 つにすぎません。 アナリストとデータ サイエンティストはシード データを厳密に管理しており、多様性を取り入れたり、外部のコンサルタントと協力してバイアスを発見して解読したりすることもできるため、より高い基準を維持することができます。たとえば、Synthesis AI は、ドライバーのステータスを監視し、コンピューターで生成された合成データセットにさまざまな顔を慎重に含めて、現実世界のアプリケーションがすべての人にとって確実に機能するようにするシステムを開発しています。プライバシーももう 1 つの潜在的な利点です。企業が自動運転車の実世界データの収集に何百万マイルも費やすと、多くの人が個人的なものと考えるデータ、特に顔のデータを大量に収集することになります。 Google や Apple などの大企業は、自社の地図ソフトウェアでこの種の問題を回避する方法を見つけましたが、そのルートは、アルゴリズムをテストしたい小規模な AI/ML チームには実現できません。
「企業は、人間中心の製品におけるモデルバイアスや消費者のプライバシーに関連する倫理的問題にも取り組んでいます。次世代のコンピュータービジョンの構築には、新たなパラダイムが必要であることは明らかです」と、同社 CEO の Yashar Behzadi 氏は述べています。創設者兼CEOはメディアに語った。 合成データは開始する際にシードに依存しますが、現実の世界ではキャプチャが困難または危険なエッジケースで AI/ML アプリケーションをトレーニングできるように適応および変更できます。自動運転車を開発している企業は、トラックの後ろに隠れた一時停止標識や、道路に飛び出してくる2台の車の間に立つ歩行者など、部分的にしか見えない物体や人を識別できるようになりたいと考えている。
これらの成果を踏まえ、またバイアスを合成データにエンコードするという卵が先か鶏が先かという問題についての懸念があるにもかかわらず、ガートナーは、2024 年までに AI および分析製品の開発に使用されるデータの 60% が生成されると予測しています。合成的に。彼らは、新しいデータの多くは、その基礎となる過去のデータが関連性を失ったり、過去の経験に基づく仮定が崩れたりしたときに、予測モデルの修正に焦点を当てることになるだろうと予測しています。
しかし、some の実世界のデータを収集する必要は常にあるため、普遍的で公平な自己のアバターが完全に時代遅れになるには、まだ長い道のりです。
以上が合成データは AI/ML トレーニングの将来を推進するのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。