データソースは依然として人工知能の主なボトルネックである
今週発表された Appen の「人工知能と機械学習の現状」レポートによると、各政府機関は依然として人工知能と機械学習プログラムを維持するための良質でクリーンなデータの取得に苦労しています。
504 人のビジネス リーダーとテクノロジー専門家を対象とした Appen の調査によると、人工知能の 4 つの段階のうち、データ ソース、データ準備、モデルのトレーニングと導入、人間主導のモデル評価フェーズ - データ ソースは最も多くのリソースを消費し、最も時間がかかり、最も困難です。
Appen の調査によると、データ ソースは組織の AI 予算の平均 34% を消費しており、データの準備、モデルのテスト、展開がそれぞれ 24%、モデルの評価が 15% を占めています。この調査は Harris Poll によって実施され、米国、英国、アイルランド、ドイツの IT 意思決定者、ビジネス リーダーおよびマネージャー、テクノロジー実務者が参加しました。
時間の観点から見ると、データ ソースは時間の約 26% を消費し、データの準備時間は 24%、モデルのテスト、展開、およびモデルの評価時間はそれぞれ 23% です。最後に、技術者の 42% は、データ調達が AI ライフサイクルの中で最も困難な段階であると考えています。他の段階は、モデルの評価 (41%)、モデルのテストと展開 (38%)、データの準備 (34%) です。 )。
課題にもかかわらず、組織はそれを機能させるために懸命に取り組んでいます。 Appen 氏によると、回答者の 5 分の 4 (81%) が、AI への取り組みをサポートするのに十分なデータを持っていると回答しました。成功の鍵は次のとおりかもしれません。大多数 (88%) の企業が、Appen などの外部 AI トレーニング データ プロバイダーを使用してデータを増強しています。
ただし、データの正確性には依然として疑問が残ります。 Appen 氏は、80% 以上のデータ精度を報告した回答者はわずか 20% であることを発見しました。データが 90% 以上正確であると答えたのはわずか 6% (約 20 人に 1 人) でした。
これを念頭に置くと、Appen の調査によると、回答者のほぼ半数 (46%) がデータの正確性が重要であると考えています。データの正確性が大きなニーズではないと考えているのはわずか 2% ですが、51% はそれが重要なニーズであると考えています。
Appen の最高技術責任者である Wilson Pang 氏は、データ品質の重要性について異なる見解を持っており、彼の顧客の 48% はデータ品質が重要であると信じていません。
「質の高いデータはより優れたモデル出力と一貫した処理と意思決定を生み出すため、AI および ML モデルの成功にはデータの精度が非常に重要です。」とレポートは述べています。
ディープ ラーニングとデータ中心の人工知能の台頭により、AI の成功の動機は、優れたデータ サイエンスと機械学習モデルの移行から優れたデータ収集へと移行しました。 、管理とラベル付け。これは、今日の転移学習技術に特に当てはまります。人工知能の実践者は、事前にトレーニングされた大規模な言語モデルやコンピューター ビジョン モデルを放棄し、その一部を独自のデータで再トレーニングします。
より良いデータは、AI モデルに不必要なバイアスが浸透するのを防ぎ、AI が引き起こす可能性のある悪い結果を防ぐのにも役立ちます。これは特に大規模な言語モデルに当てはまります。
レポートには次のように記載されています:「多言語の Web スクレイピング データでトレーニングされた大規模言語モデル (LLM) の台頭により、企業は新たな課題に直面しています。トレーニング コーパスは有害な言語、人種、性別、宗教などで満たされているため、企業は新たな課題に直面しています。」
ネットワーク データのバイアスは厄介な問題を引き起こしますが、回避策はいくつかあります (トレーニング計画の変更、トレーニング データとモデルの出力のフィルタリング、人間のフィードバックとテストから学ぶ)ただし、「人間中心の LLM」ベンチマークとモデル評価方法の優れた標準を作成するには、さらなる研究が必要です。
アッペン氏は、データ管理は依然として人工知能が直面している最大の障害であると述べた。調査によると、41% の人が人工知能サイクルにおける最大のボトルネックはデータ管理であると考えていることがわかりました。 4 位はデータ不足で、回答者の 30% がこれが AI の成功に対する最大の障害であると述べています。
しかし、良いニュースもいくつかあります。企業がデータの管理と準備に費やす時間が減少しています。アッペン氏によると、昨年の報告書では53%だったのに対し、今年は47%強となった。
「回答者の大多数が外部のデータ プロバイダーを使用しているため、データの調達と準備をアウトソーシングすることで、データ サイエンティストはデータの適切な管理、クリーニング、ラベル付けに必要な時間を節約していると推測できます。」と会社は言いました。
ただし、データのエラー率が比較的高いことから判断すると、おそらく組織はデータ ソースと準備プロセス (内部または外部を問わず) を縮小すべきではありません。 AI プロセスの構築と維持に関しては、多くの競合するニーズが存在します。Appen が特定したもう 1 つの上位のニーズは、資格のあるデータ専門家を雇用する必要性でした。ただし、データ管理に大きな進歩が見られるまで、組織はデータ品質の重要性を推進し続けるようチームに圧力をかけ続ける必要があります。
この調査では、93% の組織が AI 倫理が AI プロジェクトの「基礎」であるべきであることに強く、またはある程度同意していることも判明しました。 AppenのCEOマーク・ブレーヤン氏は、良いスタートだったが、やるべきことはまだたくさんあると語った。 「問題は、多くの人が貧弱なデータセットで優れた AI を構築しようとする課題に直面しており、そのことが目標達成に大きな障害となっているということです」と Brayan 氏はプレスリリースで述べました。企業内でカスタム収集されたデータは依然として AI に使用される主要なデータセットであり、データの 38% ~ 42% を占めます。合成データは組織のデータの 24% ~ 38% を占め、驚くほど優れたパフォーマンスを示しました。一方、事前にラベル付けされたデータ (通常はデータ サービス プロバイダーからの) はデータの 23% ~ 31% を占めていました。
特に、合成データには機密性の高い AI プロジェクトにおけるバイアスの発生を減らす可能性があり、Appen の調査参加者の 97% が「包括的なトレーニング データセットの開発」に合成データを使用していると回答しています。
レポートのその他の興味深い調査結果は次のとおりです。
- アメリカ企業の 55% が、競合他社よりも優れていると主張しています。一方、ヨーロッパではこの割合は 44% です; (AI 時代の最前線からの解釈: ヨーロッパ人はアメリカ人よりもわずかに控えめです。)
- 組織の 42% は、人工知能が「 # 「広く普及」が展開され、「2021 年の人工知能の現状報告書」では、この割合は 51% となっています (AI 時代の最前線からの解釈: 人工知能アプリケーションはますます普及しています。)
- 7% の組織が AI 予算が 500 万米ドルを超えていると報告しました (昨年は 9%)。 (AI時代の最前線からの解釈:人工知能が徐々に成熟してコストが削減されていることが原因である可能性がある一方で、人工知能がもはや「贅沢品」ではなく、徐々に高級品になりつつあることも示しています)企業にとって「必須」です。)
以上がデータソースは依然として人工知能の主なボトルネックであるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元(当サイト注:月額49.9元に相当)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相当)です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

検索強化生成およびセマンティック メモリを AI コーディング アシスタントに組み込むことで、開発者の生産性、効率、精度を向上させます。 JanakiramMSV 著者の EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG から翻訳。基本的な AI プログラミング アシスタントは当然役に立ちますが、ソフトウェア言語とソフトウェア作成の最も一般的なパターンに関する一般的な理解に依存しているため、最も適切で正しいコードの提案を提供できないことがよくあります。これらのコーディング アシスタントによって生成されたコードは、彼らが解決する責任を負っている問題の解決には適していますが、多くの場合、個々のチームのコーディング標準、規約、スタイルには準拠していません。これにより、コードがアプリケーションに受け入れられるように修正または調整する必要がある提案が得られることがよくあります。

AIGC について詳しくは、51CTOAI.x コミュニティ https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou を参照してください。これらの質問は、インターネット上のどこでも見られる従来の質問バンクとは異なります。既成概念にとらわれずに考える必要があります。大規模言語モデル (LLM) は、データ サイエンス、生成人工知能 (GenAI)、および人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は大量のデータから学習することでテキストを生成できます。

大規模言語モデル (LLM) は巨大なテキスト データベースでトレーニングされ、そこで大量の現実世界の知識を取得します。この知識はパラメータに組み込まれており、必要なときに使用できます。これらのモデルの知識は、トレーニングの終了時に「具体化」されます。事前トレーニングの終了時に、モデルは実際に学習を停止します。モデルを調整または微調整して、この知識を活用し、ユーザーの質問により自然に応答する方法を学びます。ただし、モデルの知識だけでは不十分な場合があり、モデルは RAG を通じて外部コンテンツにアクセスできますが、微調整を通じてモデルを新しいドメインに適応させることが有益であると考えられます。この微調整は、ヒューマン アノテーターまたは他の LLM 作成物からの入力を使用して実行され、モデルは追加の実世界の知識に遭遇し、それを統合します。

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性を実証しています。 「S」で始まる関連研究

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

エディター | Radish Skin 2021 年の強力な AlphaFold2 のリリース以来、科学者はタンパク質構造予測モデルを使用して、細胞内のさまざまなタンパク質構造をマッピングし、薬剤を発見し、既知のあらゆるタンパク質相互作用の「宇宙地図」を描いてきました。ちょうど今、Google DeepMind が AlphaFold3 モデルをリリースしました。このモデルは、タンパク質、核酸、小分子、イオン、修飾残基を含む複合体の結合構造予測を実行できます。 AlphaFold3 の精度は、これまでの多くの専用ツール (タンパク質-リガンド相互作用、タンパク質-核酸相互作用、抗体-抗原予測) と比較して大幅に向上しました。これは、単一の統合された深層学習フレームワーク内で、次のことを達成できることを示しています。
