翻訳者|Bugatti
レビュアー|Sun Shujuan
データは人工知能 (AI) の中核であるため、AI と機械学習 (ML) は違います。システムが学習するには十分な良質のデータが必要であることに驚きました。一般に、AI または ML システムを適切にトレーニングするには、特に教師あり学習方法の場合、大量の高品質のデータが必要です。必要なデータの量は、実装されている AI のモデル、使用されるアルゴリズム、および内部データやサードパーティ データなどのその他の要因によって異なります。たとえば、ニューラル ネットワークのトレーニングには大量のデータが必要ですが、デシジョン ツリーやベイジアン分類器では高品質の結果を得るためにそれほど多くのデータは必要ありません。
つまり、データは多ければ多いほど良いと思うかもしれませんね?もう一度考えてみてください。大量のデータ (エクサバイトのデータであっても) を保有する組織は、より多くのデータを保有しても問題が期待どおりに解決されないことを認識しています。実際、データが増えると、さらに多くの疑問が生じます。所有するデータが増えれば増えるほど、より多くのデータをクリーニングして準備する必要があり、より多くのデータにラベルを付けて管理する必要があり、より多くのデータをセキュリティで保護し、バイアスを軽減し、その他の措置を講じる必要があります。データ量が増加し始めると、小さなプロジェクトがすぐに大規模なプロジェクトに変わる可能性があります。実際、大量のデータによってプロジェクトが中断されることがよくあります。
ビジネス上の問題を特定することと、その問題を解決するためにデータを整理することの間に欠けているステップは、どのデータが必要で、実際にどれだけ必要なのかを判断することであることは明らかです。十分なデータが必要ですが、多すぎてもいけません。それ以上でも以下でもなく、ちょうどいいのです。残念ながら、組織はデータを理解せずに AI プロジェクトに着手することがよくあります。組織は、データがどこにあるのか、データがすでにどのくらいの量あるのか、データがどのような状態にあるのか、データのどの特性が最も重要なのか、データの内部および外部での使用、データ アクセスの課題、要件など、多くの質問に答える必要があります。既存のデータやその他の重要な要素や質問を強化するため。これらの質問に答えなければ、AI プロジェクトは失敗したり、データの海に沈んでしまったりする可能性があります。
必要なデータの量を理解するには、まずデータがシステム内のどこにあるかを理解する必要があります。 AIプロジェクトの位置づけの構造。データから得られる価値の増加を理解するのに役立つ視覚的な方法の 1 つは、情報、知識、理解、知恵を通じてデータ基盤がどのように変革されるかを示す「DIKUW ピラミッド」 (「DIKW ピラミッド」とも呼ばれます) です。より大きな価値。
強固なデータ基盤があれば、情報の次の層でより深い洞察を得ることができ、そのデータに関する基本的な質問に答えるのに役立ちます。情報の洞察を得るためにデータ間の基本的な接続を作成したら、その情報のパターンを見つけて、情報の部分がどのように結合しているかを理解して、より深い洞察を得ることができます。組織は、ナレッジレイヤーを構築し、これらのパターンが発生する理由を理解することで、より多くの価値を得ることができ、根底にあるパターンの理解に役立ちます。最後に、情報に関する決定の原因と結果を深く理解することで、知能レベルで情報から最大限の価値を引き出すことができます。
最近の AI の波は、機械学習が情報層の上にあるパターンを識別するための洞察を提供するため、知識層に最も重点を置いています。残念ながら、パターンを見つけるだけでは推論を行うのに十分ではないため、機械学習は理解層でボトルネックに遭遇します。機械学習はありますが、パターンが発生する理由を理解するための機械推論はありません。チャットボットと対話するたびに、この制限が発生します。機械学習ベースの自然言語処理 (NLP) は、人間の音声を理解して意図を推測することに非常に優れていますが、理解して推論しようとすると限界に遭遇します。たとえば、音声アシスタントに「明日レインコートを着たいかどうか」と尋ねても、音声アシスタントは天気について尋ねていることを理解できません。音声アシスタントは実際の雨が何であるかを理解できないため、この洞察を機械に提供するのは人間にかかっています。
#2. 失敗を避けるためにデータを常に意識する ビッグデータは、大量のデータの処理方法を私たちに教えてくれました。データがどのように保存されるかだけでなく、そのすべてのデータがどのように処理、操作、分析されるかについても同様です。機械学習は、組織が収集するさまざまな種類の非構造化データ、半構造化データ、または構造化データを処理することで、さらに多くの価値を付加します。実際、この最近の AI の波は、実際にはビッグデータ主導型の分析の波です。 しかし、まさにこの理由から、一部の組織は AI に関して大きな打撃を受けています。データ中心の観点から AI プロジェクトを実行するのではなく、機能面に重点を置いています。 AI プロジェクトを推進し、致命的なミスを回避するには、組織は AI と機械学習だけでなく、ビッグデータのいくつかの「V」についてもよく理解する必要があります。データの量だけでなく、データの性質も重要です。ビッグデータの V には次のようなものがあります:ビッグ データ プロジェクトを管理してきた数十年の経験により、AI で成功している組織は主にビッグ データで成功しています。 AI プロジェクトの失敗を経験した組織は、多くの場合、アプリケーション開発の考え方で AI の問題に取り組みます。
AI プロジェクトは正しく開始されたものの、必要なデータの不足、理解の欠如そして、実際の問題を解決することが欠けていると、AI プロジェクトが潰れてしまいます。組織は必要なデータとデータ品質を真に理解せずに前進を続けており、それが大きな課題を生み出しています。
組織がこのようなデータの間違いを犯す理由の 1 つは、アジャイルまたはアプリケーション開発手法を使用する以外に、AI プロジェクトに対する実際のアプローチを持っていないことです。しかし、成功している組織は、データ中心のアプローチの使用には、プロジェクト アプローチの最初の段階としてデータの理解が含まれていることを認識しています。 20 年以上前から存在する CRISP-DM アプローチでは、ビジネス ニーズが特定された後の次のステップとしてデータの理解が指定されています。 CRISP-DM をベースにし、アジャイル手法と組み合わせた AI (CPMAI) アプローチでは、第 2 フェーズでデータを理解する必要があります。 AI プロジェクトは結局のところデータ プロジェクトであるため、他の成功するアプローチでも、プロジェクトの早い段階でデータを理解する必要があります。データを理解せずにプログラムに取り組む場合、データに基づいて成功するプログラムをどのように構築すればよいでしょうか?これは間違いなく避けたい致命的な間違いです。
元のリンク: https://www.forbes.com/sites/cognitiveworld/2022/08/20/are-you-making-these-deadly-missing-with-your -ai-projects/?sh=352955946b54
以上がAI プロジェクトでこのような致命的な間違いを犯したことがありますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。