世界はデータで満たされています。人々やコンピューターによって生成された画像、ビデオ、スプレッドシート、音声、テキストがインターネットに溢れ、私たちを情報の海に溺れさせます。
伝統的に、人間はより多くの情報に基づいた意思決定を行うためにデータを分析し、データ パターンの変化を制御するためにシステムを調整しようとしています。しかし、入ってくる情報の量が増えると、それを理解する能力が低下し、次のような課題が残ります:
このすべてのデータを使用して、手動ではなく自動化された方法で意味を導き出すにはどうすればよいでしょうか?
ここで機械学習が登場します。この記事では次の内容を紹介します:
これらの予測は、「トレーニング データ」と呼ばれる一連のデータからパターンを学習する機械によって行われ、人々の生活を改善するためのさらなる技術開発を推進することができます。
機械学習とは、明示的にプログラムすることなく、コンピューターが例や経験から自動的に学習し、人間の意思決定を模倣できるようにする概念です。
機械学習は、アルゴリズムと統計手法を使用してデータから学習し、パターンや隠れた洞察を導き出す人工知能の分野です。
ここで、機械学習の詳細をさらに詳しく見てみましょう。
機械学習には何万ものアルゴリズムがあり、学習スタイルや解決する問題の性質に応じてグループ化できます。ただし、すべての機械学習アルゴリズムには、次の重要なコンポーネントが含まれています。
上記は、機械学習アルゴリズムの 4 つのコンポーネントの詳細な分類です。
説明: このシステムは履歴データを収集し、整理して、わかりやすい方法で表示します。
主な焦点は、調査結果から推論や予測を引き出すのではなく、企業内ですでに何が起こっているかを把握することです。記述的分析では、予測分析や処方分析に必要な複雑な計算ではなく、算術、平均、パーセンテージなどの単純な数学的および統計的ツールを使用します。
記述分析は主に履歴データを分析して推測するのに対し、予測分析は起こり得る将来の状況を予測して理解することに重点を置きます。
過去のデータを見て過去のデータのパターンと傾向を分析すると、将来何が起こるかを予測できます。
処方的分析はどのように行動すべきかを教えてくれますが、記述的分析は過去に何が起こったのかを教えてくれます。予測分析は、過去から学ぶことで将来何が起こるかを教えてくれます。しかし、何が起こっているのかを理解したら、何をすべきでしょうか?
これは規範的な分析です。これは、システムが過去の知識を使用して、人が実行できる行動について複数の推奨事項を作成するのに役立ちます。規範的分析はシナリオをシミュレートし、望ましい結果を達成するための道筋を提供します。
ML アルゴリズムの学習は、3 つの主要な部分に分けることができます。
機械学習モデルは、データからパターンを学習し、この知識を適用して予測を行うように設計されています。問題は、モデルがどのように予測を行うのかということです。
プロセスは非常に基本的なものです。入力データ (ラベル付きまたはラベルなし) からパターンを見つけ、それを適用して結果を導き出します。
機械学習モデルは、行った予測をグラウンド トゥルースと比較するように設計されています。目標は、学習が正しい方向に進んでいるかどうかを理解することです。これによりモデルの精度が決まり、モデルのトレーニングを改善する方法が示唆されます。
モデルの最終的な目標は、予測を改善することです。これは、既知の結果と対応するモデル推定値との差を減らすことを意味します。
モデルは、重みを継続的に更新することでトレーニング データ サンプルにさらに適応する必要があります。このアルゴリズムはループ内で動作し、モデルの精度に関して最大値が得られるまで、結果を評価および最適化し、重みを更新します。
機械学習には主に4つの種類があります。
教師あり学習では、その名前が示すように、機械は指導の下で学習します。
これは、ラベル付きデータのセットをコンピューターに供給することで行われ、コンピューターが入力が何で、出力が何であるべきかを理解できるようになります。ここでは、人間がガイドとして機能し、機械がパターンを学習するラベル付きトレーニング データ (入出力ペア) をモデルに提供します。
入力と出力の関係を以前のデータセットから学習すると、マシンは新しいデータの出力値を簡単に予測できます。
教師あり学習はどこで使用できますか?
答えは、入力データで何を探すべきか、そして出力として何を求めるかがわかっているときです。
教師あり学習の問題の主なタイプには、回帰問題と分類問題が含まれます。
教師なし学習は、教師あり学習とは正反対の働きをします。
ラベルのないデータを使用します。マシンはデータを理解し、隠れたパターンを見つけて、それに応じて予測を行う必要があります。
ここでは、人間が何を探すべきかを指定することなく、機械がデータから隠されたパターンを独自に導き出した後、新しい発見を私たちに提供します。
教師なし学習の問題の主なタイプには、クラスタリングと相関ルール分析が含まれます。
強化学習には、アクションを実行することによって環境内での動作を学習するエージェントが含まれます。
これらのアクションの結果に基づいて、エージェントはフィードバックを提供し、今後の方向性を調整します。すべての良いアクションに対して、エージェントは肯定的なフィードバックを受け取り、すべての悪いアクションに対して、エージェントは否定的なフィードバックまたは罰を受けます。
強化学習は、ラベル付きデータなしで学習します。ラベル付けされたデータがないため、エージェントは自身の経験に基づいてのみ学習できます。
半教師あり学習とは、教師あり学習と教師なし学習の間の状態です。
これは、各学習からプラスの側面を取り入れています。つまり、分類をガイドするために小さなラベル付きデータセットを使用し、大きなラベルなしデータセットから教師なし特徴抽出を実行します。
半教師あり学習を使用する主な利点は、モデルをトレーニングするのに十分なラベル付きデータがない場合、または人間が何を調べればよいのかわからないために単にデータにラベルを付けることができない場合に、問題を解決できることです。その中で。
機械学習は、Google や Youtube 検索エンジンなどのビジネスを含む、最近のほぼすべてのテクノロジー企業の中核となっています。
以下に、あなたがよく知っているであろう機械学習の実際の応用例をいくつかまとめました。
車両は、地球上でさまざまな状況に遭遇します。道路、こんな状況。
自動運転車が人間よりも優れたパフォーマンスを発揮するには、変化する道路状況や他の車両の動作を学習して適応する必要があります。
自動運転車は、センサーやカメラから周囲に関するデータを収集し、それを解釈して、それに応じて反応します。教師あり学習を使用して周囲の物体を識別し、教師なし学習を使用して他の車両のパターンを識別し、最終的に強化アルゴリズムの助けを借りてそれに応じたアクションを実行します。
画像分析は、画像からさまざまな情報を抽出するために使用されます。
製造上の欠陥のチェック、スマートシティの自動車交通の分析、Google レンズなどのビジュアル検索エンジンなどの分野に応用されています。
主なアイデアは、深層学習技術を使用して画像から特徴を抽出し、これらの特徴を物体検出に適用することです。
最近では、企業がカスタマー サポートや販売を提供するために AI チャットボットを使用することが非常に一般的になっています。 AI チャットボットは、24 時間年中無休のサポートを提供することで、企業が顧客からの大量の問い合わせを処理できるように支援します。これにより、サポート コストが削減され、追加の収益と顧客の満足が得られます。
AI ロボティクスは、自然言語処理 (NLP) を使用してテキストを処理し、クエリのキーワードを抽出し、それに応じて応答します。
事実は、医療画像データは最も豊富な情報源であると同時に、最も複雑な情報源の 1 つであるということです。
何千もの医療画像を手動で分析するのは面倒な作業であり、病理学者にとってもっと効率的に使用できるはずの貴重な時間を無駄にしています。
しかし、節約されたのは時間だけではありません。結節などのアーチファクトや小さな特徴は肉眼では見えない可能性があり、病気の診断の遅れや不正確な予測につながります。このため、画像から特徴を抽出するために使用できる、ニューラル ネットワークを含む深層学習技術を使用する可能性が非常に高いのです。
電子商取引分野の拡大に伴い、オンライン取引の数が増加し、利用可能な支払い方法が多様化していることがわかります。残念ながら、この状況を利用する人もいます。今日の世界の詐欺師は高度なスキルを持っており、新しいテクノロジーを非常に迅速に導入できます。
だからこそ、データ パターンを分析し、正確な予測を行い、偽のログイン試行やフィッシング攻撃などのオンライン サイバーセキュリティの脅威に対応できるシステムが必要なのです。
たとえば、詐欺防止システムは、過去に購入した場所やオンラインに滞在していた時間に基づいて、その購入が正当なものであるかどうかを検出できます。同様に、誰かがオンラインまたは電話であなたになりすまそうとしているかどうかを検出できます。
推奨アルゴリズムのこの相関関係は、過去のデータの研究に基づいており、ユーザーの好みや興味などのいくつかの要因に依存します。
JD.com や Douyin などの企業は、レコメンデーション システムを使用して、関連するコンテンツや製品を厳選し、ユーザー/購入者に表示します。
ほとんどの場合、機械学習アルゴリズムのパフォーマンス低下の原因は過適合と過適合によるものです。
機械学習モデルのトレーニングという文脈でこれらの用語を詳しく見てみましょう。
モデルには柔軟性がほとんどないため、新しいデータ ポイントを予測できません。言い換えれば、与えられた例に焦点を当てすぎて、全体像を見ることができていないのです。
過適合と過適合の原因は何ですか?
より一般的な状況には、トレーニングに使用されるデータがクリーンではなく、多くのノイズやガベージ値が含まれている場合、またはデータのサイズが小さすぎる場合などがあります。ただし、より具体的な理由がいくつかあります。
これらを見てみましょう。
アンダーフィッティングは次の理由で発生する可能性があります:
過学習は次の場合に発生する可能性があります:
データの品質は、不正確なデータまたは欠損値によって引き起こされるデータ内のノイズにより影響を受ける可能性があります。トレーニング データ内の比較的小さなエラーであっても、システム出力に大規模なエラーが発生する可能性があります。
アルゴリズムのパフォーマンスが低い場合は、通常、データの量が不足している、データの歪みが多い、ノイズが多い、またはデータを説明するための特徴が不十分であるなどのデータ品質の問題が原因です。
したがって、機械学習モデルをトレーニングする前に、高品質のデータを取得するためにデータ クリーニングが必要になることがよくあります。
以上が機械学習とは何かを 1 つの記事で理解するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。