翻訳者 | Cui Hao
査読者 | Sun Shujuan
今日の社会では、人工知能の開発がグローバル企業や政府の焦点となっています。 。しかし、人工知能に密接に関係する別の問題、つまりデータ品質の低下は無視されてきました。
人工知能アルゴリズムは、最適な結果を生み出すために信頼できるデータに依存しています。データが偏っていたり、不完全であったり、不適切であったり、さらには不正確だったりすると、壊滅的な結果が生じる可能性があります。
患者の病気を特定する人工知能システムは、データ品質が悪い結果を招く良い例です。データが不十分な場合、これらのシステムは誤った診断や不正確な予測を生成し、誤診や治療の遅れにつながる可能性があります。たとえば、ケンブリッジ大学が新型コロナウイルス感染症の診断に使用された 400 以上のツールを調査したところ、AI が生成したレポートは、欠陥のあるデータセットが使用されていたため、まったく使用できないことが判明しました。
言い換えれば、データが十分に優れていなければ、AI への取り組みは現実世界に壊滅的な影響を与えることになります。
「十分な」データとは何かについて、常に大きな議論が行われてきました。十分なデータが存在しないという人もいます。 「良すぎる」データは分析の麻痺につながる可能性があると言う人もいます(訳者:過学習について言及する必要があります)。一方、HBRは、悪い情報は機械学習ツールが機能しなくなる可能性があると率直に指摘しています。
WinPure では、十分なデータとは「完全、正確、有効で、リスクの高いビジネス プロセスで自信を持って使用できます。データのレベルは個人の目標とビジネス状況によって異なります。」
# と定義されています。 ##ほとんどの企業は、それを認めたくなくても、データの品質とガバナンスに苦労しています。この拷問によりプロジェクトの緊張は高まり続け、彼らは圧倒され、競争上の優位性を維持するために人工知能計画を導入するという多大なプレッシャーにさらされていることが想像できます。残念なことに、ダーティデータのような問題は、プロジェクトが失敗するまで役員室で議論される可能性は低いです。 不良データは人工知能システムにどのような影響を与えるのでしょうか? データ品質の問題は、アルゴリズムがトレーニング データに基づいて学習するプロセスの開始時に発生します。たとえば、AI アルゴリズムにフィルタリングされていないソーシャル メディア データが入力されると、Microsoft の AI ボットが示すように、虐待、人種差別的なコメント、女性蔑視の発言が抽出されます。最近では、AI が肌の色が黒い人を検出できないことも、トレーニング データの問題が原因であると指摘されています。 これはデータ品質とどのように関係しますか? データ ガバナンスの欠如、データ品質に対する意識の低さ、データのサイロ化されたビューが、データ品質の低下の主な原因です。 ######何をするか? 企業は、データ品質に問題があると認識すると、採用に関してパニックになります。問題をできるだけ早く解決しようと、やみくもにコンサルタント、エンジニア、アナリストを雇ってデータの診断とクリーニングを行うことによって。残念ながら、数百万ドルを費やしたにもかかわらず、数か月が経過しても問題は解決しなかったようです。データ品質の問題に対して、場当たり的なアプローチを採用しても、解決することはほとんどありません。 本当の変化は草の根から始まります。 AI/ML プロジェクトを正しい方向に進めたい場合は、次の 3 つの重要な手順を実行してください。 データ品質の問題を認識し認識するまず、データ リテラシーの文化を構築することでデータ品質を評価します。 Bill Schmarzo 氏はこれについて力強い意見を述べており、デザイン思考を使用して、誰もが組織のデータ目標と課題を理解し、それに貢献できる文化を作り出すことを推奨しています。 今日のビジネス環境では、データとデータ品質はもはや IT チームやデータ チームだけの責任ではありません。ビジネス ユーザーは、ダーティ データの問題や、一貫性のないデータや重複したデータなどの問題を認識する必要があります。 したがって、まず、データ品質トレーニングを組織的な取り組みとして価値あるものにし、チームが不適切なデータ属性を特定できるようにすることから始めましょう。 以下のチェックリストを使用して、データ品質を追跡できます。 データ健全性チェックリスト戦略では、データの収集、ラベル付け、処理、および AI/ML プロジェクトとのデータの照合に取り組む必要があります。たとえば、AI 採用プログラムが技術職の男性候補者のみを選択する場合、プログラムのトレーニング データは明らかに偏っており、不完全であり (女性候補者に関する十分なデータが収集されていない)、不正確になります。したがって、このデータは AI プロジェクトの真の目的には役立ちません。
データ品質の要件は、データのクリーニングや修復といった日常業務を超えて広がります。したがって、プロジェクトを開始する前に、データの整合性とガバナンスの基準を設定する必要があります。プロジェクトが失敗に陥るのを防ぎます。
「十分なデータまたはデータ品質のレベル」に関する普遍的な基準はありません。むしろ、それはすべて、企業の情報管理システム、データ ガバナンス ガイドライン、チームとビジネスの目標に関する知識、その他多くの要因に依存します。
しかし、プロジェクトを開始する前に、チームに尋ねるべきいくつかの質問があります:
適切な質問をし、適切な役割を割り当て、データ品質基準を実装し、チームが問題が発生する前に対処できるように支援します。
データ品質は、単にタイプミスやエラーを修正するだけではありません。これにより、AI システムが差別的、誤解を招く、または不正確でないことが保証されます。 AI プロジェクトを開始する前に、データの欠陥に対処してデータ品質の課題に対処する必要があります。さらに、組織全体のデータ リテラシー プログラムを開始して、各チームを全体的な目標に結び付けます。
Cui Hao は、51CTO コミュニティ編集者兼シニア アーキテクトであり、ソフトウェア開発とアーキテクチャに 18 年の経験と、分散アーキテクチャに 10 年の経験があります。
原題: Is Your Data Good Enough for Your Machine Learning/AI Plans? 、著者: Farah Kim
以上がAI プロジェクトのニーズをより適切に満たすためにデータ品質を向上させる方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。