ホームページ > テクノロジー周辺機器 > AI > AI プロジェクトのニーズをより適切に満たすためにデータ品質を向上させる方法

AI プロジェクトのニーズをより適切に満たすためにデータ品質を向上させる方法

王林
リリース: 2023-04-16 08:13:02
転載
822 人が閲覧しました

翻訳者 | Cui Hao

査読者 | Sun Shujuan

冒頭章

今日の社会では、人工知能の開発がグローバル企業や政府の焦点となっています。 。しかし、人工知能に密接に関係する別の問題、つまりデータ品質の低下は無視されてきました。

人工知能アルゴリズムは、最適な結果を生み出すために信頼できるデータに依存しています。データが偏っていたり、不完全であったり、不適切であったり、さらには不正確だったりすると、壊滅的な結果が生じる可能性があります。

患者の病気を特定する人工知能システムは、データ品質が悪い結果を招く良い例です。データが不十分な場合、これらのシステムは誤った診断や不正確な予測を生成し、誤診や治療の遅れにつながる可能性があります。たとえば、ケンブリッジ大学が新型コロナウイルス感染症の診断に使用された 400 以上のツールを調査したところ、AI が生成したレポートは、欠陥のあるデータセットが使用されていたため、まったく使用できないことが判明しました。

言い換えれば、データが十分に優れていなければ、AI への取り組みは現実世界に壊滅的な影響を与えることになります。

「十分な」データとは何を意味しますか?

「十分な」データとは何かについて、常に大きな議論が行われてきました。十分なデータが存在しないという人もいます。 「良すぎる」データは分析の麻痺につながる可能性があると言う人もいます(訳者:過学習について言及する必要があります)。一方、HBRは、悪い情報は機械学習ツールが機能しなくなる可能性があると率直に指摘しています。

WinPure では、十分なデータとは「完全、正確、有効で、リスクの高いビジネス プロセスで自信を持って使用できます。データのレベルは個人の目標とビジネス状況によって異なります。」

# と定義されています。 ##ほとんどの企業は、それを認めたくなくても、データの品質とガバナンスに苦労しています。この拷問によりプロジェクトの緊張は高まり続け、彼らは圧倒され、競争上の優位性を維持するために人工知能計画を導入するという多大なプレッシャーにさらされていることが想像できます。残念なことに、ダーティデータのような問題は、プロジェクトが失敗するまで役員室で議論される可能性は低いです。

不良データは人工知能システムにどのような影響を与えるのでしょうか?

データ品質の問題は、アルゴリズムがトレーニング データに基づいて学習するプロセスの開始時に発生します。たとえば、AI アルゴリズムにフィルタリングされていないソーシャル メディア データが入力されると、Microsoft の AI ボットが示すように、虐待、人種差別的なコメント、女性蔑視の発言が抽出されます。最近では、AI が肌の色が黒い人を検出できないことも、トレーニング データの問題が原因であると指摘されています。

これはデータ品質とどのように関係しますか?

データ ガバナンスの欠如、データ品質に対する意識の低さ、データのサイロ化されたビューが、データ品質の低下の主な原因です。 ######何をするか?

企業は、データ品質に問題があると認識すると、採用に関してパニックになります。問題をできるだけ早く解決しようと、やみくもにコンサルタント、エンジニア、アナリストを雇ってデータの診断とクリーニングを行うことによって。残念ながら、数百万ドルを費やしたにもかかわらず、数か月が経過しても問題は解決しなかったようです。データ品質の問題に対して、場当たり的なアプローチを採用しても、解決することはほとんどありません。

本当の変化は草の根から始まります。

AI/ML プロジェクトを正しい方向に進めたい場合は、次の 3 つの重要な手順を実行してください。

データ品質の問題を認識し認識する

まず、データ リテラシーの文化を構築することでデータ品質を評価します。 Bill Schmarzo 氏はこれについて力強い意見を述べており、デザイン思考を使用して、誰もが組織のデータ目標と課題を理解し、それに貢献できる文化を作り出すことを推奨しています。

今日のビジネス環境では、データとデータ品質はもはや IT チームやデータ チームだけの責任ではありません。ビジネス ユーザーは、ダーティ データの問題や、一貫性のないデータや重複したデータなどの問題を認識する必要があります。

したがって、まず、データ品質トレーニングを組織的な取り組みとして価値あるものにし、チームが不適切なデータ属性を特定できるようにすることから始めましょう。

以下のチェックリストを使用して、データ品質を追跡できます。

データ健全性チェックリスト

データを取得、保存、管理するにはどうすればよいですか?

    中央データベースに接続されているデータ ソースの数はどれくらいですか?また、データはどの程度分散されていますか?
  • データはどの程度適切に管理していますか?データガバナンス標準を実装していますか?データのどのくらいが構造化データ、半構造化データ、または非構造化データですか?
  • 自動化されたデータ管理と比較して、手動でデータを修正するのにどれくらいかかりますか?データにアクセスして処理する際、チームはどのように連携していますか? IT ユーザーとビジネス ユーザーの間で頻繁に内部衝突が発生していますか?
  • データ品質のステータスはどうですか?データはタイムリーで、完全で、正確で、独自であり、標準化されたルールに従っていますか?
  • 品質指標を満たす計画を作成する
企業はデータ品質に関して間違いを犯すことがよくあります。たとえば、データ アナリストは、計画や戦略的な作業に集中するのではなく、日常的なデータ クリーニング タスクを完了するために雇用されています。一部の企業では、データ管理ツールを使用して、計画なしにデータのクレンジング、重複排除、統合、およびパージを行っています。残念ながら、ツールと人材を単独で問題を解決することはできません。データ品質の側面を満たす戦略は、問題の根本的な解決策です。

AI プロジェクトのニーズをより適切に満たすためにデータ品質を向上させる方法

戦略では、データの収集、ラベル付け、処理、および AI/ML プロジェクトとのデータの照合に取り組む必要があります。たとえば、AI 採用プログラムが技術職の男性候補者のみを選択する場合、プログラムのトレーニング データは明らかに偏っており、不完全であり (女性候補者に関する十分なデータが収集されていない)、不正確になります。したがって、このデータは AI プロジェクトの真の目的には役立ちません。

データ品質の要件は、データのクリーニングや修復といった日常業務を超えて広がります。したがって、プロジェクトを開始する前に、データの整合性とガバナンスの基準を設定する必要があります。プロジェクトが失敗に陥るのを防ぎます。

適切な質問をし、説明責任を設定します

「十分なデータまたはデータ品質のレベル」に関する普遍的な基準はありません。むしろ、それはすべて、企業の情報管理システム、データ ガバナンス ガイドライン、チームとビジネスの目標に関する知識、その他多くの要因に依存します。

しかし、プロジェクトを開始する前に、チームに尋ねるべきいくつかの質問があります:

  • 情報源は何ですか?データ収集方法は何ですか?
  • データ収集プロセスに影響を及ぼし、前向きな結果を脅かす可能性がある問題は何ですか?
  • データはどのような情報を伝えますか?データ品質基準を満たしていますか (つまり、情報は正確で、完全に信頼でき、一定しています)?
  • 指定された担当者は、データの品質と低品質の重要性を認識していますか?
  • 役割と責任は定義されていますか?たとえば、定期的なデータ クリーニング スケジュールを維持する必要があるのは誰でしょうか?マスターレコードの作成責任者は誰ですか?
  • データは目的に適合していますか?

適切な質問をし、適切な役割を割り当て、データ品質基準を実装し、チームが問題が発生する前に対処できるように支援します。

概要

データ品質は、単にタイプミスやエラーを修正するだけではありません。これにより、AI システムが差別的、誤解を招く、または不正確でないことが保証されます。 AI プロジェクトを開始する前に、データの欠陥に対処してデータ品質の課題に対処する必要があります。さらに、組織全体のデータ リテラシー プログラムを開始して、各チームを全体的な目標に結び付けます。

翻訳者紹介

Cui Hao は、51CTO コミュニティ編集者兼シニア アーキテクトであり、ソフトウェア開発とアーキテクチャに 18 年の経験と、分散アーキテクチャに 10 年の経験があります。

原題: Is Your Data Good Enough for Your Machine Learning/AI Plans? 、著者: Farah Kim

以上がAI プロジェクトのニーズをより適切に満たすためにデータ品質を向上させる方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート