合成データは AI/ML トレーニングの将来を推進するのでしょうか?-AI-php.cn

しかし、合成データとは何でしょうか?

ホームページ

テクノロジー周辺機器

合成データは AI/ML トレーニングの将来を推進するのでしょうか?

王林

Apr 14, 2023 am 09:52 AM

ai 合成データ ml

合成数据会推动 AI/ML 训练的未来吗？

人工知能や機械学習 (AI/ML) をトレーニングするための実データの収集には、時間も費用もかかります。そして、多くの場合、これにはリスクが伴いますが、より一般的な問題は、データが少なすぎたり、偏ったデータが組織を誤った方向に導く可能性があることです。しかし、新しいデータ、いわゆる合成データを 生成できたらどうでしょうか?

ありそうもないように思えますが、Synthesis AI が 468 Capital、Sorenson Ventures、Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital、Kubera Venture Capital などのベンチャーキャピタル企業から 17 ドルを調達する予定なのはまさにこれです。シリーズA資金調達で100万ドル。

これは非常に信頼できる証拠です。同社はこの資金を、実データと合成データの混合分野での研究開発を拡大するために使用する予定だ。

Synthesis AI の CEO、Yashar Behzadi 氏は声明で次のように述べています。「合成データは導入の転換点にあり、私たちの目標はテクノロジーをさらに開発し、コンピュータービジョンシステムのあり方のパラダイムシフトを推進することです」業界は間もなく、仮想世界でコンピュータービジョンモデルを完全に設計およびトレーニングし、より高度で倫理的な人工知能を実現するでしょう。」

しかし、合成データとは何でしょうか?

合成データは、現実世界から収集されたものではなく、人間によって作成されます。現在、多くのアプリケーションは、コンピュータービジョンシステムから収集されたデータなどの視覚データに重点を置いています。それでも、アプリケーションのテストや不正行為を検出するためのアルゴリズムの改善など、他のユースケースで合成データを作成できない実際的な理由はありません。これらは、物理レコードの高度に構造化されたデジタルツインに似ています。

大規模で現実的なデータセットを大規模に提供することで、データサイエンティストやアナリストは理論的にはデータ収集プロセスをスキップして、テストやトレーニングに直接取り組むことができます。

これは、現実世界のデータセットを作成するコストの多くは、生データの収集だけにとどまらないためです。コンピュータービジョンと自動運転車を例に挙げると、自動車メーカーや研究者はさまざまなカメラ、レーダー、ライダーセンサーを車両に取り付けて収集できますが、生データは AI/ML アルゴリズムにとって何の意味も持ちません。同様に困難な課題は、システムがより適切な意思決定を行えるように、コンテキスト情報を使用してデータに手動で ラベルを付けることです。

この課題の背景を見てみましょう。一時停止標識、交差点、駐車中の車、歩行者などがすべてある状態で短距離を定期的に運転していると想像してください。そして、あらゆる潜在的な危険にラベルを付けると仮定して、次のことを想像してください。大変な仕事です。

合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするのに十分な大きさの、完全にラベル付けされたデータセットを作成できることです。つまり、データサイエンティストは、大量の新しいアルゴリズムで突然アルゴリズムをテストできます。その場合、世界データのみが実際に取得できるか、取得が困難な状況でのみ取得できます。自動運転車の例を続けると、データサイエンティストは、手動でデータを収集するためにドライバーを北や山中に派遣することなく、雪に覆われた道路などの過酷な状況で車を運転するように訓練するための合成データを作成できます。

合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするために必要な規模で完全にラベル付けされたデータセットを作成できることです。つまり、データサイエンティストは実際のデータを取得する前にデータを作成できることになります。データが入手困難なときに、多くの新しい場所でアルゴリズムをテストします。自動運転車の例では、データサイエンティストは、ドライバーが手動でデータを収集するためにずっと北に行ったり山に入ったりすることなく、雪に覆われた道路などの悪条件で車を運転するように訓練するための合成データを作成できます。

ただし、合成データは、より多くのデータとより多くの AI/ML アルゴリズムを使用しないと作成できないため、鶏が先か卵が先かという問題が発生します。「シード」データセットから始めて、それを合成作成のベースラインとして使用します。つまり、最初のデータと同等の品質しか得られません。

(無形の) 利点

データジェネレーターが無限に供給されているように見えても、その恩恵を受けられないデータサイエンティストや研究者はいますか? 中心的な利点 – 現実世界のデータを手動で収集する必要がなくなること –合成データが AI/ML アプリケーションを高速化できる方法の 1 つにすぎません。

アナリストとデータサイエンティストはシードデータを厳密に管理しており、多様性を取り入れたり、外部のコンサルタントと協力してバイアスを発見して解読したりすることもできるため、より高い基準を維持することができます。たとえば、Synthesis AI は、ドライバーのステータスを監視し、コンピューターで生成された合成データセットにさまざまな顔を慎重に含めて、現実世界のアプリケーションがすべての人にとって確実に機能するようにするシステムを開発しています。

プライバシーももう 1 つの潜在的な利点です。企業が自動運転車の実世界データの収集に何百万マイルも費やすと、多くの人が個人的なものと考えるデータ、特に顔のデータを大量に収集することになります。 Google や Apple などの大企業は、自社の地図ソフトウェアでこの種の問題を回避する方法を見つけましたが、そのルートは、アルゴリズムをテストしたい小規模な AI/ML チームには実現できません。

「企業は、人間中心の製品におけるモデルバイアスや消費者のプライバシーに関連する倫理的問題にも取り組んでいます。次世代のコンピュータービジョンの構築には、新たなパラダイムが必要であることは明らかです」と、同社 CEO の Yashar Behzadi 氏は述べています。創設者兼CEOはメディアに語った。合成データは開始する際にシードに依存しますが、現実の世界ではキャプチャが困難または危険なエッジケースで AI/ML アプリケーションをトレーニングできるように適応および変更できます。自動運転車を開発している企業は、トラックの後ろに隠れた一時停止標識や、道路に飛び出してくる2台の車の間に立つ歩行者など、部分的にしか見えない物体や人を識別できるようになりたいと考えている。

これらの成果を踏まえ、またバイアスを合成データにエンコードするという卵が先か鶏が先かという問題についての懸念があるにもかかわらず、ガートナーは、2024 年までに AI および分析製品の開発に使用されるデータの 60% が生成されると予測しています。合成的に。彼らは、新しいデータの多くは、その基礎となる過去のデータが関連性を失ったり、過去の経験に基づく仮定が崩れたりしたときに、予測モデルの修正に焦点を当てることになるだろうと予測しています。

しかし、some の実世界のデータを収集する必要は常にあるため、普遍的で公平な自己のアバターが完全に時代遅れになるには、まだ長い道のりです。

以上が合成データは AI/ML トレーニングの将来を推進するのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1666

CakePHP チュートリアル

1425

Laravel チュートリアル

1328

PHP チュートリアル

1273

C# チュートリアル

1253

Related knowledge

CでChronoライブラリを使用する方法は？ Apr 28, 2025 pm 10:18 PM

CでChronoライブラリを使用すると、時間と時間の間隔をより正確に制御できます。このライブラリの魅力を探りましょう。 CのChronoライブラリは、時間と時間の間隔に対処するための最新の方法を提供する標準ライブラリの一部です。 Time.HとCtimeに苦しんでいるプログラマーにとって、Chronoは間違いなく恩恵です。コードの読みやすさと保守性を向上させるだけでなく、より高い精度と柔軟性も提供します。基本から始めましょう。 Chronoライブラリには、主に次の重要なコンポーネントが含まれています。STD:: Chrono :: System_Clock：現在の時間を取得するために使用されるシステムクロックを表します。 STD :: Chron

CでDMA操作を理解する方法は？ Apr 28, 2025 pm 10:09 PM

CのDMAとは、直接メモリアクセステクノロジーであるDirectMemoryAccessを指し、ハードウェアデバイスがCPU介入なしでメモリに直接データを送信できるようにします。 1）DMA操作は、ハードウェアデバイスとドライバーに大きく依存しており、実装方法はシステムごとに異なります。 2）メモリへの直接アクセスは、セキュリティリスクをもたらす可能性があり、コードの正確性とセキュリティを確保する必要があります。 3）DMAはパフォーマンスを改善できますが、不適切な使用はシステムのパフォーマンスの低下につながる可能性があります。実践と学習を通じて、DMAを使用するスキルを習得し、高速データ送信やリアルタイム信号処理などのシナリオでその効果を最大化できます。

CでハイDPIディスプレイを処理する方法は？ Apr 28, 2025 pm 09:57 PM

CでのハイDPIディスプレイの取り扱いは、次の手順で達成できます。1）DPIを理解してスケーリングし、オペレーティングシステムAPIを使用してDPI情報を取得し、グラフィックスの出力を調整します。 2）クロスプラットフォームの互換性を処理し、SDLやQTなどのクロスプラットフォームグラフィックライブラリを使用します。 3）パフォーマンスの最適化を実行し、キャッシュ、ハードウェアアクセラレーション、および詳細レベルの動的調整によりパフォーマンスを改善します。 4）ぼやけたテキストやインターフェイス要素などの一般的な問題を解決し、DPIスケーリングを正しく適用することで解決します。

Cのリアルタイムオペレーティングシステムプログラミングとは何ですか？ Apr 28, 2025 pm 10:15 PM

Cは、リアルタイムオペレーティングシステム（RTOS）プログラミングでうまく機能し、効率的な実行効率と正確な時間管理を提供します。 1）Cハードウェアリソースの直接的な動作と効率的なメモリ管理を通じて、RTOのニーズを満たします。 2）オブジェクト指向の機能を使用して、Cは柔軟なタスクスケジューリングシステムを設計できます。 3）Cは効率的な割り込み処理をサポートしますが、リアルタイムを確保するには、動的メモリの割り当てと例外処理を避ける必要があります。 4）テンプレートプログラミングとインライン関数は、パフォーマンスの最適化に役立ちます。 5）実際のアプリケーションでは、Cを使用して効率的なロギングシステムを実装できます。

フィールドをMySQLテーブルに追加および削除する手順 Apr 29, 2025 pm 04:15 PM

MySQLでは、AlterTabletable_nameaddcolumnnew_columnvarchar（255）afterexisting_columnを使用してフィールドを追加し、andtabletable_namedopcolumncolumn_to_dropを使用してフィールドを削除します。フィールドを追加するときは、クエリのパフォーマンスとデータ構造を最適化する場所を指定する必要があります。フィールドを削除する前に、操作が不可逆的であることを確認する必要があります。オンラインDDL、バックアップデータ、テスト環境、および低負荷期間を使用したテーブル構造の変更は、パフォーマンスの最適化とベストプラクティスです。

Cのスレッドパフォーマンスを測定する方法は？ Apr 28, 2025 pm 10:21 PM

Cのスレッドパフォーマンスの測定は、標準ライブラリのタイミングツール、パフォーマンス分析ツール、およびカスタムタイマーを使用できます。 1.ライブラリを使用して、実行時間を測定します。 2。パフォーマンス分析にはGPROFを使用します。手順には、コンピレーション中に-pgオプションを追加し、プログラムを実行してGmon.outファイルを生成し、パフォーマンスレポートの生成が含まれます。 3. ValgrindのCallGrindモジュールを使用して、より詳細な分析を実行します。手順には、プログラムを実行してCallGrind.outファイルを生成し、Kcachegrindを使用して結果を表示することが含まれます。 4.カスタムタイマーは、特定のコードセグメントの実行時間を柔軟に測定できます。これらの方法は、スレッドのパフォーマンスを完全に理解し、コードを最適化するのに役立ちます。

定量的交換ランキング2025デジタル通貨のトップ10の推奨事項定量取引アプリ Apr 30, 2025 pm 07:24 PM

交換に組み込まれた量子化ツールには、1。Binance：Binance先物の定量的モジュール、低い取り扱い手数料を提供し、AIアシストトランザクションをサポートします。 2。OKX（OUYI）：マルチアカウント管理とインテリジェントな注文ルーティングをサポートし、制度レベルのリスク制御を提供します。独立した定量的戦略プラットフォームには、3。3Commas：ドラッグアンドドロップ戦略ジェネレーター、マルチプラットフォームヘッジアービトラージに適しています。 4。Quadency：カスタマイズされたリスクしきい値をサポートするプロフェッショナルレベルのアルゴリズム戦略ライブラリ。 5。Pionex：組み込み16のプリセット戦略、低い取引手数料。垂直ドメインツールには、6。cryptohopper：クラウドベースの定量的プラットフォーム、150の技術指標をサポートします。 7。BITSGAP：