目次
しかし、合成データとは何でしょうか?
ホームページ テクノロジー周辺機器 AI 合成データは AI/ML トレーニングの将来を推進するのでしょうか?

合成データは AI/ML トレーニングの将来を推進するのでしょうか?

Apr 14, 2023 am 09:52 AM
ai 合成データ ml

合成数据会推动 AI/ML 训练的未来吗?

人工知能や機械学習 (AI/ML) をトレーニングするための実データの収集には、時間も費用もかかります。そして、多くの場合、これにはリスクが伴いますが、より一般的な問題は、データが少なすぎたり、偏ったデータが組織を誤った方向に導く可能性があることです。しかし、新しいデータ、いわゆる合成データを 生成できたらどうでしょうか?

ありそうもないように思えますが、Synthesis AI が 468 Capital、Sorenson Ventures、Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital、Kubera Venture Capital などのベンチャー キャピタル企業から 17 ドルを調達する予定なのはまさにこれです。シリーズA資金調達で100万ドル。

これは非常に信頼できる証拠です。同社はこの資金を、実データと合成データの混合分野での研究開発を拡大するために使用する予定だ。

Synthesis AI の CEO、Yashar Behzadi 氏は声明で次のように述べています。「合成データは導入の転換点にあり、私たちの目標はテクノロジーをさらに開発し、コンピューター ビジョン システムのあり方のパラダイム シフトを推進することです」業界は間もなく、仮想世界でコンピューター ビジョン モデルを完全に設計およびトレーニングし、より高度で倫理的な人工知能を実現するでしょう。」

しかし、合成データとは何でしょうか?

合成データは、現実世界から収集されたものではなく、人間によって作成されます。現在、多くのアプリケーションは、コンピューター ビジョン システムから収集されたデータなどの視覚データに重点​​を置いています。それでも、アプリケーションのテストや不正行為を検出するためのアルゴリズムの改善など、他のユースケースで合成データを作成できない実際的な理由はありません。これらは、物理レコードの高度に構造化されたデジタル ツインに似ています。

大規模で現実的なデータセットを大規模に提供することで、データサイエンティストやアナリストは理論的にはデータ収集プロセスをスキップして、テストやトレーニングに直接取り組むことができます。

これは、現実世界のデータセットを作成するコストの多くは、生データの収集だけにとどまらないためです。コンピュータービジョンと自動運転車を例に挙げると、自動車メーカーや研究者はさまざまなカメラ、レーダー、ライダーセンサーを車両に取り付けて収集できますが、生データは AI/ML アルゴリズムにとって何の意味も持ちません。同様に困難な課題は、システムがより適切な意思決定を行えるように、コンテキスト情報を使用してデータに手動で ラベルを付けることです。

この課題の背景を見てみましょう。一時停止標識、交差点、駐車中の車、歩行者などがすべてある状態で短距離を定期的に運転していると想像してください。そして、あらゆる潜在的な危険にラベルを付けると仮定して、次のことを想像してください。大変な仕事です。

合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするのに十分な大きさの、完全にラベル付けされたデータ セットを作成できることです。つまり、データ サイエンティストは、大量の新しいアルゴリズムで突然アルゴリズムをテストできます。その場合、世界データのみが実際に取得できるか、取得が困難な状況でのみ取得できます。自動運転車の例を続けると、データ サイエンティストは、手動でデータを収集するためにドライバーを北や山中に派遣することなく、雪に覆われた道路などの過酷な状況で車を運転するように訓練するための合成データを作成できます。

合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするために必要な規模で完全にラベル付けされたデータセットを作成できることです。つまり、データ サイエンティストは実際のデータを取得する前にデータを作成できることになります。データが入手困難なときに、多くの新しい場所でアルゴリズムをテストします。自動運転車の例では、データ サイエンティストは、ドライバーが手動でデータを収集するためにずっと北に行ったり山に入ったりすることなく、雪に覆われた道路などの悪条件で車を運転するように訓練するための合成データを作成できます。

ただし、合成データは、より多くのデータとより多くの AI/ML アルゴリズムを使用しないと作成できないため、鶏が先か卵が先かという問題が発生します。 「シード」データセットから始めて、それを合成作成のベースラインとして使用します。つまり、最初のデータと同等の品質しか得られません。

(無形の) 利点

データ ジェネレーターが無限に供給されているように見えても、その恩恵を受けられないデータ サイエンティストや研究者はいますか? 中心的な利点 – 現実世界のデータを手動で収集する必要がなくなること –合成データが AI/ML アプリケーションを高速化できる方法の 1 つにすぎません。

アナリストとデータ サイエンティストはシード データを厳密に管理しており、多様性を取り入れたり、外部のコンサルタントと協力してバイアスを発見して解読したりすることもできるため、より高い基準を維持することができます。たとえば、Synthesis AI は、ドライバーのステータスを監視し、コンピューターで生成された合成データセットにさまざまな顔を慎重に含めて、現実世界のアプリケーションがすべての人にとって確実に機能するようにするシステムを開発しています。

プライバシーももう 1 つの潜在的な利点です。企業が自動運転車の実世界データの収集に何百万マイルも費やすと、多くの人が個人的なものと考えるデータ、特に顔のデータを大量に収集することになります。 Google や Apple などの大企業は、自社の地図ソフトウェアでこの種の問題を回避する方法を見つけましたが、そのルートは、アルゴリズムをテストしたい小規模な AI/ML チームには実現できません。

「企業は、人間中心の製品におけるモデルバイアスや消費者のプライバシーに関連する倫理的問題にも取り組んでいます。次世代のコンピュータービジョンの構築には、新たなパラダイムが必要であることは明らかです」と、同社 CEO の Yashar Behzadi 氏は述べています。創設者兼CEOはメディアに語った。 合成データは開始する際にシードに依存しますが、現実の世界ではキャプチャが困難または危険なエッジケースで AI/ML アプリケーションをトレーニングできるように適応および変更できます。自動運転車を開発している企業は、トラックの後ろに隠れた一時停止標識や、道路に飛び出してくる2台の車の間に立つ歩行者など、部分的にしか見えない物体や人を識別できるようになりたいと考えている。

これらの成果を踏まえ、またバイアスを合成データにエンコードするという卵が先か鶏が先かという問題についての懸念があるにもかかわらず、ガートナーは、2024 年までに AI および分析製品の開発に使用されるデータの 60% が生成されると予測しています。合成的に。彼らは、新しいデータの多くは、その基礎となる過去のデータが関連性を失ったり、過去の経験に基づく仮定が崩れたりしたときに、予測モデルの修正に焦点を当てることになるだろうと予測しています。

しかし、some の実世界のデータを収集する必要は常にあるため、普遍的で公平な自己のアバターが完全に時代遅れになるには、まだ長い道のりです。

以上が合成データは AI/ML トレーニングの将来を推進するのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? Apr 07, 2025 pm 09:39 PM

vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse()が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

インストール後にMySQLの使用方法 インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調​​整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

MySQLを解決する方法は開始できません MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? Apr 07, 2025 pm 09:36 PM

概要:Vue.js文字列配列をオブジェクト配列に変換するための次の方法があります。基本方法:定期的なフォーマットデータに合わせてマップ関数を使用します。高度なゲームプレイ:正規表現を使用すると、複雑な形式を処理できますが、慎重に記述して考慮する必要があります。パフォーマンスの最適化:大量のデータを考慮すると、非同期操作または効率的なデータ処理ライブラリを使用できます。ベストプラクティス:コードスタイルをクリアし、意味のある変数名とコメントを使用して、コードを簡潔に保ちます。

Vue Axiosのタイムアウトを設定する方法 Vue Axiosのタイムアウトを設定する方法 Apr 07, 2025 pm 10:03 PM

Vue axiosのタイムアウトを設定するために、Axiosインスタンスを作成してタイムアウトオプションを指定できます。グローバル設定:Vue.Prototype。$ axios = axios.create({Timeout:5000});単一のリクエストで:this。$ axios.get( '/api/users'、{timeout:10000})。

MySQLインストール後にデータベースのパフォーマンスを最適化する方法 MySQLインストール後にデータベースのパフォーマンスを最適化する方法 Apr 08, 2025 am 11:36 AM

MySQLパフォーマンスの最適化は、インストール構成、インデックス作成、クエリの最適化、監視、チューニングの3つの側面から開始する必要があります。 1。インストール後、INNODB_BUFFER_POOL_SIZEパラメーターやclose query_cache_sizeなど、サーバーの構成に従ってmy.cnfファイルを調整する必要があります。 2。過度のインデックスを回避するための適切なインデックスを作成し、説明コマンドを使用して実行計画を分析するなど、クエリステートメントを最適化します。 3. MySQL独自の監視ツール(ShowProcessList、ShowStatus)を使用して、データベースの健康を監視し、定期的にデータベースをバックアップして整理します。これらの手順を継続的に最適化することによってのみ、MySQLデータベースのパフォーマンスを改善できます。

リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

See all articles