AI プロジェクトのニーズをより適切に満たすためにデータ品質を向上させる方法
翻訳者 | Cui Hao
査読者 | Sun Shujuan
冒頭章
今日の社会では、人工知能の開発がグローバル企業や政府の焦点となっています。 。しかし、人工知能に密接に関係する別の問題、つまりデータ品質の低下は無視されてきました。
人工知能アルゴリズムは、最適な結果を生み出すために信頼できるデータに依存しています。データが偏っていたり、不完全であったり、不適切であったり、さらには不正確だったりすると、壊滅的な結果が生じる可能性があります。
患者の病気を特定する人工知能システムは、データ品質が悪い結果を招く良い例です。データが不十分な場合、これらのシステムは誤った診断や不正確な予測を生成し、誤診や治療の遅れにつながる可能性があります。たとえば、ケンブリッジ大学が新型コロナウイルス感染症の診断に使用された 400 以上のツールを調査したところ、AI が生成したレポートは、欠陥のあるデータセットが使用されていたため、まったく使用できないことが判明しました。
言い換えれば、データが十分に優れていなければ、AI への取り組みは現実世界に壊滅的な影響を与えることになります。
「十分な」データとは何を意味しますか?
「十分な」データとは何かについて、常に大きな議論が行われてきました。十分なデータが存在しないという人もいます。 「良すぎる」データは分析の麻痺につながる可能性があると言う人もいます(訳者:過学習について言及する必要があります)。一方、HBRは、悪い情報は機械学習ツールが機能しなくなる可能性があると率直に指摘しています。
WinPure では、十分なデータとは「完全、正確、有効で、リスクの高いビジネス プロセスで自信を持って使用できます。データのレベルは個人の目標とビジネス状況によって異なります。」
# と定義されています。 ##ほとんどの企業は、それを認めたくなくても、データの品質とガバナンスに苦労しています。この拷問によりプロジェクトの緊張は高まり続け、彼らは圧倒され、競争上の優位性を維持するために人工知能計画を導入するという多大なプレッシャーにさらされていることが想像できます。残念なことに、ダーティデータのような問題は、プロジェクトが失敗するまで役員室で議論される可能性は低いです。 不良データは人工知能システムにどのような影響を与えるのでしょうか? データ品質の問題は、アルゴリズムがトレーニング データに基づいて学習するプロセスの開始時に発生します。たとえば、AI アルゴリズムにフィルタリングされていないソーシャル メディア データが入力されると、Microsoft の AI ボットが示すように、虐待、人種差別的なコメント、女性蔑視の発言が抽出されます。最近では、AI が肌の色が黒い人を検出できないことも、トレーニング データの問題が原因であると指摘されています。 これはデータ品質とどのように関係しますか? データ ガバナンスの欠如、データ品質に対する意識の低さ、データのサイロ化されたビューが、データ品質の低下の主な原因です。 ######何をするか? 企業は、データ品質に問題があると認識すると、採用に関してパニックになります。問題をできるだけ早く解決しようと、やみくもにコンサルタント、エンジニア、アナリストを雇ってデータの診断とクリーニングを行うことによって。残念ながら、数百万ドルを費やしたにもかかわらず、数か月が経過しても問題は解決しなかったようです。データ品質の問題に対して、場当たり的なアプローチを採用しても、解決することはほとんどありません。 本当の変化は草の根から始まります。 AI/ML プロジェクトを正しい方向に進めたい場合は、次の 3 つの重要な手順を実行してください。 データ品質の問題を認識し認識するまず、データ リテラシーの文化を構築することでデータ品質を評価します。 Bill Schmarzo 氏はこれについて力強い意見を述べており、デザイン思考を使用して、誰もが組織のデータ目標と課題を理解し、それに貢献できる文化を作り出すことを推奨しています。 今日のビジネス環境では、データとデータ品質はもはや IT チームやデータ チームだけの責任ではありません。ビジネス ユーザーは、ダーティ データの問題や、一貫性のないデータや重複したデータなどの問題を認識する必要があります。 したがって、まず、データ品質トレーニングを組織的な取り組みとして価値あるものにし、チームが不適切なデータ属性を特定できるようにすることから始めましょう。 以下のチェックリストを使用して、データ品質を追跡できます。 データ健全性チェックリストデータを取得、保存、管理するにはどうすればよいですか?
- 中央データベースに接続されているデータ ソースの数はどれくらいですか?また、データはどの程度分散されていますか?
- データはどの程度適切に管理していますか?データガバナンス標準を実装していますか?データのどのくらいが構造化データ、半構造化データ、または非構造化データですか?
- 自動化されたデータ管理と比較して、手動でデータを修正するのにどれくらいかかりますか?データにアクセスして処理する際、チームはどのように連携していますか? IT ユーザーとビジネス ユーザーの間で頻繁に内部衝突が発生していますか?
- データ品質のステータスはどうですか?データはタイムリーで、完全で、正確で、独自であり、標準化されたルールに従っていますか?
- 品質指標を満たす計画を作成する
戦略では、データの収集、ラベル付け、処理、および AI/ML プロジェクトとのデータの照合に取り組む必要があります。たとえば、AI 採用プログラムが技術職の男性候補者のみを選択する場合、プログラムのトレーニング データは明らかに偏っており、不完全であり (女性候補者に関する十分なデータが収集されていない)、不正確になります。したがって、このデータは AI プロジェクトの真の目的には役立ちません。
データ品質の要件は、データのクリーニングや修復といった日常業務を超えて広がります。したがって、プロジェクトを開始する前に、データの整合性とガバナンスの基準を設定する必要があります。プロジェクトが失敗に陥るのを防ぎます。
適切な質問をし、説明責任を設定します
「十分なデータまたはデータ品質のレベル」に関する普遍的な基準はありません。むしろ、それはすべて、企業の情報管理システム、データ ガバナンス ガイドライン、チームとビジネスの目標に関する知識、その他多くの要因に依存します。
しかし、プロジェクトを開始する前に、チームに尋ねるべきいくつかの質問があります:
- 情報源は何ですか?データ収集方法は何ですか?
- データ収集プロセスに影響を及ぼし、前向きな結果を脅かす可能性がある問題は何ですか?
- データはどのような情報を伝えますか?データ品質基準を満たしていますか (つまり、情報は正確で、完全に信頼でき、一定しています)?
- 指定された担当者は、データの品質と低品質の重要性を認識していますか?
- 役割と責任は定義されていますか?たとえば、定期的なデータ クリーニング スケジュールを維持する必要があるのは誰でしょうか?マスターレコードの作成責任者は誰ですか?
- データは目的に適合していますか?
適切な質問をし、適切な役割を割り当て、データ品質基準を実装し、チームが問題が発生する前に対処できるように支援します。
概要
データ品質は、単にタイプミスやエラーを修正するだけではありません。これにより、AI システムが差別的、誤解を招く、または不正確でないことが保証されます。 AI プロジェクトを開始する前に、データの欠陥に対処してデータ品質の課題に対処する必要があります。さらに、組織全体のデータ リテラシー プログラムを開始して、各チームを全体的な目標に結び付けます。
翻訳者紹介
Cui Hao は、51CTO コミュニティ編集者兼シニア アーキテクトであり、ソフトウェア開発とアーキテクチャに 18 年の経験と、分散アーキテクチャに 10 年の経験があります。
原題: Is Your Data Good Enough for Your Machine Learning/AI Plans? 、著者: Farah Kim
以上がAI プロジェクトのニーズをより適切に満たすためにデータ品質を向上させる方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元(当サイト注:月額49.9元に相当)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相当)です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

検索強化生成およびセマンティック メモリを AI コーディング アシスタントに組み込むことで、開発者の生産性、効率、精度を向上させます。 JanakiramMSV 著者の EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG から翻訳。基本的な AI プログラミング アシスタントは当然役に立ちますが、ソフトウェア言語とソフトウェア作成の最も一般的なパターンに関する一般的な理解に依存しているため、最も適切で正しいコードの提案を提供できないことがよくあります。これらのコーディング アシスタントによって生成されたコードは、彼らが解決する責任を負っている問題の解決には適していますが、多くの場合、個々のチームのコーディング標準、規約、スタイルには準拠していません。これにより、コードがアプリケーションに受け入れられるように修正または調整する必要がある提案が得られることがよくあります。

大規模言語モデル (LLM) は巨大なテキスト データベースでトレーニングされ、そこで大量の現実世界の知識を取得します。この知識はパラメータに組み込まれており、必要なときに使用できます。これらのモデルの知識は、トレーニングの終了時に「具体化」されます。事前トレーニングの終了時に、モデルは実際に学習を停止します。モデルを調整または微調整して、この知識を活用し、ユーザーの質問により自然に応答する方法を学びます。ただし、モデルの知識だけでは不十分な場合があり、モデルは RAG を通じて外部コンテンツにアクセスできますが、微調整を通じてモデルを新しいドメインに適応させることが有益であると考えられます。この微調整は、ヒューマン アノテーターまたは他の LLM 作成物からの入力を使用して実行され、モデルは追加の実世界の知識に遭遇し、それを統合します。

AIGC について詳しくは、51CTOAI.x コミュニティ https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou を参照してください。これらの質問は、インターネット上のどこでも見られる従来の質問バンクとは異なります。既成概念にとらわれずに考える必要があります。大規模言語モデル (LLM) は、データ サイエンス、生成人工知能 (GenAI)、および人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は大量のデータから学習することでテキストを生成できます。

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

先週、社内の辞任と社外からの批判が相次ぐ中、OpenAIは内外のトラブルに見舞われた。 - 未亡人姉妹への侵害が世界中で白熱した議論を巻き起こした - 「覇権条項」に署名した従業員が次々と暴露 - ネットユーザーがウルトラマンの「」をリストアップ噂の払拭: Vox が入手した漏洩情報と文書によると、アルトマンを含む OpenAI の上級幹部はこれらの株式回収条項をよく認識しており、承認しました。さらに、OpenAI には、AI セキュリティという深刻かつ緊急の課題が直面しています。最近、最も著名な従業員2名を含むセキュリティ関連従業員5名が退職し、「Super Alignment」チームが解散したことで、OpenAIのセキュリティ問題が再び注目を集めている。フォーチュン誌は OpenA を報じた。

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性を実証しています。 「S」で始まる関連研究
