今週発表された Appen の「人工知能と機械学習の現状」レポートによると、各政府機関は依然として人工知能と機械学習プログラムを維持するための良質でクリーンなデータの取得に苦労しています。
504 人のビジネス リーダーとテクノロジー専門家を対象とした Appen の調査によると、人工知能の 4 つの段階のうち、データ ソース、データ準備、モデルのトレーニングと導入、人間主導のモデル評価フェーズ - データ ソースは最も多くのリソースを消費し、最も時間がかかり、最も困難です。
Appen の調査によると、データ ソースは組織の AI 予算の平均 34% を消費しており、データの準備、モデルのテスト、展開がそれぞれ 24%、モデルの評価が 15% を占めています。この調査は Harris Poll によって実施され、米国、英国、アイルランド、ドイツの IT 意思決定者、ビジネス リーダーおよびマネージャー、テクノロジー実務者が参加しました。
時間の観点から見ると、データ ソースは時間の約 26% を消費し、データの準備時間は 24%、モデルのテスト、展開、およびモデルの評価時間はそれぞれ 23% です。最後に、技術者の 42% は、データ調達が AI ライフサイクルの中で最も困難な段階であると考えています。他の段階は、モデルの評価 (41%)、モデルのテストと展開 (38%)、データの準備 (34%) です。 )。
課題にもかかわらず、組織はそれを機能させるために懸命に取り組んでいます。 Appen 氏によると、回答者の 5 分の 4 (81%) が、AI への取り組みをサポートするのに十分なデータを持っていると回答しました。成功の鍵は次のとおりかもしれません。大多数 (88%) の企業が、Appen などの外部 AI トレーニング データ プロバイダーを使用してデータを増強しています。
ただし、データの正確性には依然として疑問が残ります。 Appen 氏は、80% 以上のデータ精度を報告した回答者はわずか 20% であることを発見しました。データが 90% 以上正確であると答えたのはわずか 6% (約 20 人に 1 人) でした。
これを念頭に置くと、Appen の調査によると、回答者のほぼ半数 (46%) がデータの正確性が重要であると考えています。データの正確性が大きなニーズではないと考えているのはわずか 2% ですが、51% はそれが重要なニーズであると考えています。
Appen の最高技術責任者である Wilson Pang 氏は、データ品質の重要性について異なる見解を持っており、彼の顧客の 48% はデータ品質が重要であると信じていません。
「質の高いデータはより優れたモデル出力と一貫した処理と意思決定を生み出すため、AI および ML モデルの成功にはデータの精度が非常に重要です。」とレポートは述べています。
ディープ ラーニングとデータ中心の人工知能の台頭により、AI の成功の動機は、優れたデータ サイエンスと機械学習モデルの移行から優れたデータ収集へと移行しました。 、管理とラベル付け。これは、今日の転移学習技術に特に当てはまります。人工知能の実践者は、事前にトレーニングされた大規模な言語モデルやコンピューター ビジョン モデルを放棄し、その一部を独自のデータで再トレーニングします。
より良いデータは、AI モデルに不必要なバイアスが浸透するのを防ぎ、AI が引き起こす可能性のある悪い結果を防ぐのにも役立ちます。これは特に大規模な言語モデルに当てはまります。
レポートには次のように記載されています:「多言語の Web スクレイピング データでトレーニングされた大規模言語モデル (LLM) の台頭により、企業は新たな課題に直面しています。トレーニング コーパスは有害な言語、人種、性別、宗教などで満たされているため、企業は新たな課題に直面しています。」
ネットワーク データのバイアスは厄介な問題を引き起こしますが、回避策はいくつかあります (トレーニング計画の変更、トレーニング データとモデルの出力のフィルタリング、人間のフィードバックとテストから学ぶ)ただし、「人間中心の LLM」ベンチマークとモデル評価方法の優れた標準を作成するには、さらなる研究が必要です。
アッペン氏は、データ管理は依然として人工知能が直面している最大の障害であると述べた。調査によると、41% の人が人工知能サイクルにおける最大のボトルネックはデータ管理であると考えていることがわかりました。 4 位はデータ不足で、回答者の 30% がこれが AI の成功に対する最大の障害であると述べています。
しかし、良いニュースもいくつかあります。企業がデータの管理と準備に費やす時間が減少しています。アッペン氏によると、昨年の報告書では53%だったのに対し、今年は47%強となった。
「回答者の大多数が外部のデータ プロバイダーを使用しているため、データの調達と準備をアウトソーシングすることで、データ サイエンティストはデータの適切な管理、クリーニング、ラベル付けに必要な時間を節約していると推測できます。」と会社は言いました。
ただし、データのエラー率が比較的高いことから判断すると、おそらく組織はデータ ソースと準備プロセス (内部または外部を問わず) を縮小すべきではありません。 AI プロセスの構築と維持に関しては、多くの競合するニーズが存在します。Appen が特定したもう 1 つの上位のニーズは、資格のあるデータ専門家を雇用する必要性でした。ただし、データ管理に大きな進歩が見られるまで、組織はデータ品質の重要性を推進し続けるようチームに圧力をかけ続ける必要があります。
この調査では、93% の組織が AI 倫理が AI プロジェクトの「基礎」であるべきであることに強く、またはある程度同意していることも判明しました。 AppenのCEOマーク・ブレーヤン氏は、良いスタートだったが、やるべきことはまだたくさんあると語った。 「問題は、多くの人が貧弱なデータセットで優れた AI を構築しようとする課題に直面しており、そのことが目標達成に大きな障害となっているということです」と Brayan 氏はプレスリリースで述べました。企業内でカスタム収集されたデータは依然として AI に使用される主要なデータセットであり、データの 38% ~ 42% を占めます。合成データは組織のデータの 24% ~ 38% を占め、驚くほど優れたパフォーマンスを示しました。一方、事前にラベル付けされたデータ (通常はデータ サービス プロバイダーからの) はデータの 23% ~ 31% を占めていました。
特に、合成データには機密性の高い AI プロジェクトにおけるバイアスの発生を減らす可能性があり、Appen の調査参加者の 97% が「包括的なトレーニング データセットの開発」に合成データを使用していると回答しています。
レポートのその他の興味深い調査結果は次のとおりです。
組織の 77% が毎月または四半期ごとにモデルを再トレーニングしています。( AI 時代: 人工知能は 1 回限りのソリューションではありません。アプリケーションのニーズに応じて改善し続け、常に更新する必要があります。)以上がデータソースは依然として人工知能の主なボトルネックであるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。