データはマシンの生命線です。それがなければ、AI に関連するものを構築することはできません。今週発表された Appen の AI および機械学習の現状レポートによると、多くの組織が AI および機械学習の取り組みを維持するための良質でクリーンなデータの取得に依然として苦労しています。
Appen の人工知能に関する調査によると、人工知能の 4 つの段階 (データ調達、データ準備、モデルのトレーニングと展開、人間によるモデルの評価) のうち、データ調達が最も多くのリソースとコストを消費します。 . 最も長く、最も挑戦的なもの。 504 人のビジネスリーダーとテクノロジー専門家。
Harris が実施した Appen の調査によると、組織の AI 予算の平均でデータ調達に 34% が消費され、データの準備とモデルのテストと展開がそれぞれ 24%、モデルの評価が 15% を占めています。この世論調査は、米国、英国、アイルランド、ドイツの IT 意思決定者、ビジネス リーダーやマネージャー、テクノロジー実践者を対象に実施されました。
時間の観点から見ると、データの調達には組織の時間の約 26% が費やされ、データの準備とモデルのテスト、導入、モデルの評価はそれぞれ 24% と 23% を占めます。最後に、技術者の 42% は、モデルの評価 (41%)、モデルのテストと展開 (38%)、データの準備 (34%) と比較して、データ調達が AI ライフサイクルの最も困難な段階であると考えています。
テクノロジーの専門家によると、データの調達は人工知能が直面する最大の課題です。しかし、ビジネス リーダーは物事の見方が異なります...
課題にもかかわらず、組織はそれをうまく機能させています。 Appen 氏によると、回答者の 5 分の 4 (81%) が、AI への取り組みをサポートするのに十分なデータを持っていると確信していると回答しました。おそらくこの成功の鍵は、大多数 (88%) が Appen などの外部 AI トレーニング データ プロバイダーを使用してデータを増強していることです。
ただし、データの正確性には疑問があります。 Appen 氏は、80% 以上のデータ精度を報告した回答者はわずか 20% であることを発見しました。データの精度が 90% 以上であると答えたのはわずか 6% (約 10 人に 1 人) でした。言い換えれば、80% 以上の組織では、5 件に 1 件のデータにエラーが含まれているということになります。
それを念頭に置くと、Appen の調査によると、回答者のほぼ半数 (46%) がデータの正確性は重要であるが、「しかしそれは修正できる」と同意していることは、おそらく驚くべきことではありません。データの精度はそれほど大きなニーズではないと答えた人はわずか 2% でしたが、51% がデータの精度が重要なニーズであることに同意しました。
Appen の CTO Wilson Pang のデータ品質の重要性に関する見解は、データ品質は重要ではないと考える顧客の 48% と一致しているようです。
「データの精度は、AI および ML モデルの成功にとって非常に重要です。質の高いデータにより、モデルの出力が向上し、一貫した処理と意思決定が可能になるからです」とパン氏はレポートで述べています。 「良い結果を達成するには、データセットが正確で、包括的で、スケーラブルでなければなりません。」
#Appen の回答者の 90% 以上が、事前にラベル付けされたデータを使用していると回答しましたディープ ラーニングとデータ中心の AI の台頭により、AI の成功の動機は、優れたデータ サイエンスと機械学習モデリングから、優れたデータ収集、管理、マークへと移行しました。これは、今日の転移学習技術に特に当てはまります。AI 実践者は、事前にトレーニングされた大規模な言語またはコンピューター ビジョン モデルの上にステップを踏み、独自のデータを使用して小さな層のセットを再トレーニングします。 より優れたデータは、AI モデルに不必要なバイアスが入り込むのを防ぎ、多くの場合、AI の望ましくない結果を防ぐのにも役立ちます。これは特に大規模な言語モデルに当てはまります、と Appen の AI 担当シニア ディレクターの Ilia Shifrin 氏は述べています。 「多言語ウェブ クローラー データでトレーニングされた大規模言語モデル (LLM) の台頭により、企業は新たな課題に直面している」とシフリン氏はレポートで述べています。 「これらのモデルは、トレーニング コーパスに多量の有害な言語や、人種、性別、宗教の偏見が含まれているために、悪い動作を示すことがよくあります。」 Web データのバイアスは、いくつかの厄介な問題を引き起こします。回避策 (トレーニング計画の変更、トレーニング データとモデルの出力のフィルタリング、人間のフィードバックとテストからの学習) は必要ですが、「人間中心の」LLM ベンチマークとモデルの評価方法の適切な標準を確立するには、さらなる研究が必要だとシフリン氏は述べています。 Appen 氏によると、データ管理は依然として AI が直面する最大の障害です。調査によると、AI サイクルに参加している人の 41% が、データ管理が最大のボトルネックであると考えていることがわかりました。データの欠如は 4 番目にランクされ、30% が AI の成功に対する最大の障害として挙げています。 しかし、良いニュースもいくつかあります。組織がデータの管理と準備に費やす時間は減少傾向にあります。アッペン氏によると、昨年の報告書では53%だったのに対し、今年は47%強となった。データの精度レベルは、一部の組織が望むほど高くない可能性があります
「回答者の大多数は外部データ プロバイダーを使用しており、データの調達と準備をアウトソーシングすることで、データ サイエンティストはコストを節約していると推測できます。適切な管理、データのクリーニングとラベル付けに必要な時間」とデータラベル付け会社は述べた。
ただし、データのエラー率が比較的高いことから判断すると、おそらく組織はデータの調達および準備プロセス (内部または外部を問わず) を縮小すべきではありません。 AI プロセスの構築と維持に関しては、競合する多くのニーズが存在します。Appen が特定したもう 1 つの上位のニーズは、資格のあるデータ専門家の雇用です。ただし、データ管理が大幅に進歩するまで、組織はデータ品質の重要性を推進し続けるようチームに圧力をかけ続ける必要があります。
この調査では、93% の組織が倫理的 AI が AI プロジェクトの「基盤」であるべきであることに強くまたはある程度同意していることも判明しました。 AppenのCEOマーク・ブレーヤン氏は、良いスタートだったが、やるべきことはまだあると語った。 「問題は、多くの人が貧弱なデータセットで優れたAIを構築しようとするという課題に直面しており、それが目標達成に大きな障害となっているということだ」とブレイアン氏はプレスリリースで述べた。
Appen のレポートによると、AI に使用される組織のデータセットの大部分は依然として社内でカスタム収集されたデータであり、データの 38% から 42% を占めています。合成データは驚くほど好調で、組織のデータの 24% ~ 38% を占めましたが、事前にラベル付けされたデータ (通常はデータ サービス プロバイダーから提供される) がデータの 23% ~ 31% を占めました。
合成データは特に機密性の高い AI プロジェクトにおけるバイアスの発生を減らす可能性があり、Appen の回答者の 97% が「包括的なトレーニング データセットを開発する際に」合成データを使用していると回答しています。
レポートのその他の興味深い調査結果は次のとおりです:
以上が調査によると、データソースは依然として AI の主なボトルネックとなっているの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。