合成データは AI/ML トレーニングの将来を推進するのでしょうか?
人工知能や機械学習 (AI/ML) をトレーニングするための実データの収集には、時間も費用もかかります。そして、多くの場合、これにはリスクが伴いますが、より一般的な問題は、データが少なすぎたり、偏ったデータが組織を誤った方向に導く可能性があることです。しかし、新しいデータ、いわゆる合成データを 生成できたらどうでしょうか?
ありそうもないように思えますが、Synthesis AI が 468 Capital、Sorenson Ventures、Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital、Kubera Venture Capital などのベンチャー キャピタル企業から 17 ドルを調達する予定なのはまさにこれです。シリーズA資金調達で100万ドル。
これは非常に信頼できる証拠です。同社はこの資金を、実データと合成データの混合分野での研究開発を拡大するために使用する予定だ。
Synthesis AI の CEO、Yashar Behzadi 氏は声明で次のように述べています。「合成データは導入の転換点にあり、私たちの目標はテクノロジーをさらに開発し、コンピューター ビジョン システムのあり方のパラダイム シフトを推進することです」業界は間もなく、仮想世界でコンピューター ビジョン モデルを完全に設計およびトレーニングし、より高度で倫理的な人工知能を実現するでしょう。」
しかし、合成データとは何でしょうか?
合成データは、現実世界から収集されたものではなく、人間によって作成されます。現在、多くのアプリケーションは、コンピューター ビジョン システムから収集されたデータなどの視覚データに重点を置いています。それでも、アプリケーションのテストや不正行為を検出するためのアルゴリズムの改善など、他のユースケースで合成データを作成できない実際的な理由はありません。これらは、物理レコードの高度に構造化されたデジタル ツインに似ています。
大規模で現実的なデータセットを大規模に提供することで、データサイエンティストやアナリストは理論的にはデータ収集プロセスをスキップして、テストやトレーニングに直接取り組むことができます。
これは、現実世界のデータセットを作成するコストの多くは、生データの収集だけにとどまらないためです。コンピュータービジョンと自動運転車を例に挙げると、自動車メーカーや研究者はさまざまなカメラ、レーダー、ライダーセンサーを車両に取り付けて収集できますが、生データは AI/ML アルゴリズムにとって何の意味も持ちません。同様に困難な課題は、システムがより適切な意思決定を行えるように、コンテキスト情報を使用してデータに手動で ラベルを付けることです。
この課題の背景を見てみましょう。一時停止標識、交差点、駐車中の車、歩行者などがすべてある状態で短距離を定期的に運転していると想像してください。そして、あらゆる潜在的な危険にラベルを付けると仮定して、次のことを想像してください。大変な仕事です。 合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするのに十分な大きさの、完全にラベル付けされたデータ セットを作成できることです。つまり、データ サイエンティストは、大量の新しいアルゴリズムで突然アルゴリズムをテストできます。その場合、世界データのみが実際に取得できるか、取得が困難な状況でのみ取得できます。自動運転車の例を続けると、データ サイエンティストは、手動でデータを収集するためにドライバーを北や山中に派遣することなく、雪に覆われた道路などの過酷な状況で車を運転するように訓練するための合成データを作成できます。 合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするために必要な規模で完全にラベル付けされたデータセットを作成できることです。つまり、データ サイエンティストは実際のデータを取得する前にデータを作成できることになります。データが入手困難なときに、多くの新しい場所でアルゴリズムをテストします。自動運転車の例では、データ サイエンティストは、ドライバーが手動でデータを収集するためにずっと北に行ったり山に入ったりすることなく、雪に覆われた道路などの悪条件で車を運転するように訓練するための合成データを作成できます。 ただし、合成データは、より多くのデータとより多くの AI/ML アルゴリズムを使用しないと作成できないため、鶏が先か卵が先かという問題が発生します。 「シード」データセットから始めて、それを合成作成のベースラインとして使用します。つまり、最初のデータと同等の品質しか得られません。 (無形の) 利点データ ジェネレーターが無限に供給されているように見えても、その恩恵を受けられないデータ サイエンティストや研究者はいますか? 中心的な利点 – 現実世界のデータを手動で収集する必要がなくなること –合成データが AI/ML アプリケーションを高速化できる方法の 1 つにすぎません。 アナリストとデータ サイエンティストはシード データを厳密に管理しており、多様性を取り入れたり、外部のコンサルタントと協力してバイアスを発見して解読したりすることもできるため、より高い基準を維持することができます。たとえば、Synthesis AI は、ドライバーのステータスを監視し、コンピューターで生成された合成データセットにさまざまな顔を慎重に含めて、現実世界のアプリケーションがすべての人にとって確実に機能するようにするシステムを開発しています。プライバシーももう 1 つの潜在的な利点です。企業が自動運転車の実世界データの収集に何百万マイルも費やすと、多くの人が個人的なものと考えるデータ、特に顔のデータを大量に収集することになります。 Google や Apple などの大企業は、自社の地図ソフトウェアでこの種の問題を回避する方法を見つけましたが、そのルートは、アルゴリズムをテストしたい小規模な AI/ML チームには実現できません。
「企業は、人間中心の製品におけるモデルバイアスや消費者のプライバシーに関連する倫理的問題にも取り組んでいます。次世代のコンピュータービジョンの構築には、新たなパラダイムが必要であることは明らかです」と、同社 CEO の Yashar Behzadi 氏は述べています。創設者兼CEOはメディアに語った。 合成データは開始する際にシードに依存しますが、現実の世界ではキャプチャが困難または危険なエッジケースで AI/ML アプリケーションをトレーニングできるように適応および変更できます。自動運転車を開発している企業は、トラックの後ろに隠れた一時停止標識や、道路に飛び出してくる2台の車の間に立つ歩行者など、部分的にしか見えない物体や人を識別できるようになりたいと考えている。
これらの成果を踏まえ、またバイアスを合成データにエンコードするという卵が先か鶏が先かという問題についての懸念があるにもかかわらず、ガートナーは、2024 年までに AI および分析製品の開発に使用されるデータの 60% が生成されると予測しています。合成的に。彼らは、新しいデータの多くは、その基礎となる過去のデータが関連性を失ったり、過去の経験に基づく仮定が崩れたりしたときに、予測モデルの修正に焦点を当てることになるだろうと予測しています。
しかし、some の実世界のデータを収集する必要は常にあるため、普遍的で公平な自己のアバターが完全に時代遅れになるには、まだ長い道のりです。
以上が合成データは AI/ML トレーニングの将来を推進するのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse()が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

概要:Vue.js文字列配列をオブジェクト配列に変換するための次の方法があります。基本方法:定期的なフォーマットデータに合わせてマップ関数を使用します。高度なゲームプレイ:正規表現を使用すると、複雑な形式を処理できますが、慎重に記述して考慮する必要があります。パフォーマンスの最適化:大量のデータを考慮すると、非同期操作または効率的なデータ処理ライブラリを使用できます。ベストプラクティス:コードスタイルをクリアし、意味のある変数名とコメントを使用して、コードを簡潔に保ちます。

Vue axiosのタイムアウトを設定するために、Axiosインスタンスを作成してタイムアウトオプションを指定できます。グローバル設定:Vue.Prototype。$ axios = axios.create({Timeout:5000});単一のリクエストで:this。$ axios.get( '/api/users'、{timeout:10000})。

MySQLパフォーマンスの最適化は、インストール構成、インデックス作成、クエリの最適化、監視、チューニングの3つの側面から開始する必要があります。 1。インストール後、INNODB_BUFFER_POOL_SIZEパラメーターやclose query_cache_sizeなど、サーバーの構成に従ってmy.cnfファイルを調整する必要があります。 2。過度のインデックスを回避するための適切なインデックスを作成し、説明コマンドを使用して実行計画を分析するなど、クエリステートメントを最適化します。 3. MySQL独自の監視ツール(ShowProcessList、ShowStatus)を使用して、データベースの健康を監視し、定期的にデータベースをバックアップして整理します。これらの手順を継続的に最適化することによってのみ、MySQLデータベースのパフォーマンスを改善できます。

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です
