目次
#② パラメータ推定" >#② パラメータ推定
3. 因果データの融合" >3. 因果データの融合
#5. 質疑応答" >#5. 質疑応答
#Q1: GBCT 補正と二重差分法 (した)? " >#Q1: GBCT 補正と二重差分法 (した)?
Q2: GBCT は、観測されていない交絡変数に対してより優れたパフォーマンスを発揮します。より直観的な説明はありますか? " >Q2: GBCT は、観測されていない交絡変数に対してより優れたパフォーマンスを発揮します。より直観的な説明はありますか?
Q3: GBCT と Double Machine Learning (DML) を比較したことがありますか? " >Q3: GBCT と Double Machine Learning (DML) を比較したことがありますか?
ホームページ テクノロジー周辺機器 AI 因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

Apr 11, 2023 pm 07:43 PM
機械学習 因果推論

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

はじめに: この共有のタイトルは、「因果推論でデータをより有効に活用するには?」です。 」 」では、因果関係に関する出版論文に関連したチームの最近の研究を主に紹介します。本レポートでは、より多くのデータを活用して因果推論を行う方法を、履歴管理データを活用して明示的に混乱バイアスを軽減する方法と、複数ソースデータの融合による因果推論の2つの側面から紹介します。

#全文目次:

  • #因果推論の背景
  • 修正因果ツリー GBCT
  • 因果データ融合
  • Ant のビジネス アプリケーションの場合
1. 因果推論の背景

機械学習の一般的な予測問題たとえば、喫煙者の肺がんの確率の予測、画像の分類、その他の予測問題などでは、通常、独立した同一の分布が想定されます。因果関係の問題は、データの背後にあるメカニズムに関係します。「喫煙は肺がんの原因になりますか?」などのよくある質問も同様の質問です。

因果効果推定の問題では、非常に重要な 2 つのタイプのデータがあります。1 つのタイプは観測データで、もう 1 つのタイプはランダム化によって生成された実験データです。管理された実験です。

    #観測データは、私たちの実際の生活や製品の中で蓄積されたデータです。たとえば、喫煙データは喫煙を好む人がいることを示していますが、観察データは喫煙者に関するものであり、最終的には喫煙者の中にはがんになる人もいます。機械学習の予測問題は、条件付き確率 P (肺がんになる | 喫煙)、つまり、喫煙条件が与えられた場合に、喫煙者が肺がんになる確率を推定することです。上記の観察データでは、喫煙の分布は実際にはランダムではありません。喫煙に対する好みは人それぞれ異なり、環境にも影響されます。
  • #因果関係の質問に答える最良の方法は、ランダム化比較実験を実施することです。実験データは、ランダム化対照実験を通じて取得されます。ランダム化比較試験では、治療への割り当てはランダムです。 「喫煙が肺がんの原因となるかどうか」という結論を得るために実験を行う必要があるとします。まず、十分な数の人々を見つけ、そのうちの半数には喫煙を強制し、残りの半数には禁煙を強制し、肺がんの発生確率を観察する必要があります。 2つのグループに分けられるがん。倫理やポリシーなどの要因により、一部のシナリオではランダム化比較試験は不可能ですが、検索プロモーションにおける A/B テストなど、一部の分野ではランダム化比較試験を引き続き実施できます。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?#因果推定問題 E(Y|do(X)) 問題と従来の予測または分類問題 E(Y|X) の主な違いは、Judy Pearl によって提案された介入シンボル do が与えられた条件で現れることです。介入して X 変数を特定の値に強制します。本報告書における因果関係の推定とは、主に観測データから因果関係を推定することを指します。

#因果推論でデータをより効果的に活用するにはどうすればよいでしょうか?本レポートでは、このようなトピックについて、2つのチームが発表した最近の論文を例に紹介します。

  • 最初の仕事は、過去の比較データをより有効に活用する方法です。例えば、ある時点でマーケティング促進イベントが開催される場合、その時点より前の時間を「介入前」と呼び、この時点より後の時間を「介入後」と呼びます。次の決定を下す際に役立てるため、介入する前に介入の実際の効果を知りたいと考えています。このマーケティング キャンペーンを開始する前に、ユーザーの過去のパフォーマンス データが存在します。最初のタスクは、介入の効果をより適切に評価するためのデータ修正作業を支援するために、「介入前」のデータを有効に活用する方法を紹介することです。
  • #2 番目の作品では、主にマルチソースの異種データをより効果的に活用する方法を紹介します。このような問題は機械学習に関係することが多く、一般的な問題にはドメイン適応、転移学習などが含まれます。本日のレポートでは、因果関係の観点からマルチソースの異種データの活用について考えます。つまり、複数のデータソースがあると仮定して、因果効果をより適切に推定する方法について考えます。

#2. 修正原因と結果ツリー GBCT

1. 従来の原因と結果ツリー

ツリー アルゴリズムは主に 2 つのモジュールで構成されます:

  • 分割基準: 分割基準に従って 1 つのノードを 2 つの子ノードに分割します
  • パラメータ推定: スプリットの完了後、たとえば最終的にスプリットが停止されたとき、パラメータ推定方法に従って、新しいサンプルまたはグループの因果効果がリーフ ノード上で予測されます。

従来の因果ツリー アルゴリズムの中には、因果効果の不均一性に基づいて分割されているものがあります。データ分布における因果関係の不均一性。

従来の因果ツリーの分割基準は次のとおりです。

  • 隆起ツリーの分割基準は、左右の子ノードの因果効果差、差の尺度にはユークリッド距離や KL 発散などの距離尺度が使用されます。
  • #因果ツリー分割基準は直感的に使用できます。因果効果の二乗を最大化すると説明されます。この分割基準は、リーフ ノードの因果効果の分散を最大化することと同等であることが数学的に証明できます。
一般的なパラメータ推定方法は、因果関係の推定値として、分割リーフ ノード上の対照グループの平均結果から実験グループの平均結果を直接差し引くことです。効果と値ランダム化比較実験の場合、治療の配分メカニズムはランダムであり、そこから計算された平均差が因果効果となります。ランダム割り当てメカニズムにより、実験グループと対照グループのデータ分布が同じになることが保証されます。これは均一性と呼ばれます。

因果ツリーでは、子ノードが分割されて得られますが、分割されて得られた左の子ノードと右の子ノードの分布が均一になることは保証できるでしょうか?

2. 補正因果ツリー GBCT

従来の因果ツリーと隆起ツリーでは、左側を保証できません分割後、子ノードと右側の子ノードの分布は均一になります。したがって、前のセクションで説明した従来の推定 因果推論でデータをより有効に活用するにはどうすればよいでしょうか?# にはバイアスがかかっています。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

私たちの研究は、実験グループ (治療グループ) に対する平均因果効果 CATT を推定することに焦点を当てています。 CATT は次のように定義されます:

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

##さらに、従来の因果効果推定は 2 つの部分に分割できます:

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

選択バイアス/交絡バイアスは次のように定義できます:

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

##直観的な意味は、実験グループの治療 = 0 の場合の推定値から、対照グループの治療 = 0 の場合の推定値を引いたものです。従来の因果関係ツリーでは、上記のバイアスは特徴づけられておらず、選択バイアスが推定値に影響を及ぼし、最終的な推定値にバイアスがかかる可能性があります。

私たちのアイデアは、製品またはプラットフォームに蓄積された過去の比較データを使用して、選択のバイアスを明示的に削減することです。具体的な操作は 2 つの仮定に基づいています:

  • 仮定 1: 介入前の治療 = 0 の状態での実験グループと対照グループの結果パフォーマンスを観察できます。 。金融商品におけるクレジットカード商品の限度額増額操作を例にとると、限度額増額前のユーザーの普段の利用実績、つまり限度額を増額しない実験群と対照群の成果パフォーマンスを観察することができます(治療)。 =0) が利用可能;
  • 仮定 2: 結果の y が介入前後で一定の連続性を満たすと仮定します。直感的に理解できることは、ユーザーまたはグループの行動の変化は介入の前後でそれほど急激ではないということです。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?具体的なアプローチ:

① 分割基準

  • 分割基準の最初の部分は従来の因果関係ツリーに似ており、過去のデータの結果を当てはめることによって経験の損失を軽減します。。たとえば、金額には言及せずに、機能を通じてユーザーの行動に合わせるなどです。
  • #分割基準の 2 番目の部分は、混同エントロピーを使用することです。平均二乗誤差と比較して、混同エントロピーは高次の情報を捉えることができます。式:

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

直観的な意味は次のとおりです。実験グループでは、対照グループのモデルを使用します。推定; 対照群では、推定に実験群のモデルを使用します; 実験群と対照群の分布が可能な限り同じになるように、2 つの部分の推定値を可能な限り近づけます。混乱エントロピーの使用は、私たちの研究の主な貢献の 1 つです。

  • 最終的な損失は、上記 2 つの部分の加重合計です。損失の主な用途は、介入前のデータ (経験損失の部分は介入後のデータを使用して引き続き適合されます)、つまり、介入前のデータであることに注意してください。介入は補助的な矯正に使用されます。

#② パラメータ推定

  • パラメータ推定は事後介入 (t≥τ) を使用します。 ) 因果関係を推定するためのデータ。主に介入前のデータを用いて木構造を得る修正学習を行い、介入後のデータを葉ノードの因果関係推定に用いますが、介入前のデータは明示的な修正に用いられるため、介入後のデータは介入は計算に使用されます。推定はより正確になります。
  • (PPT の右側) は右の図に示されており、黄色の線は実験グループを表し、青のグループは対照グループを表します。 。ビジネスの戦略によっては、実験グループと対照グループの割り当てが非ランダムになる場合があり、この 2 つの配分には大きな差が生じます。 GBCT 補正後は、葉ノードへの介入前の実験群と対照群のデータ分布は基本的に一致しており、ある意味、擬似的なランダム化比較実験と同様の効果が得られます。因果効果 (線の下の黄面積から青線の下の面積を差し引いた面積) を推定するために使用される方が、より正確になります。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

#従来のツリー モデルの統合には、バギングやブースティングなどの方法が含まれます。隆起フォレストと因果フォレストの統合方法はバギング法であり、隆起フォレストの統合は直接加算ですが、因果フォレストの統合は損失関数を解く必要があります。

# GBCT で設計された明示的補正モジュールにより、GBCT はブースティング手法を使用した積分をサポートします。基本的な考え方はブースティングと似ています。最初のツリーが修正された後、2 番目のツリーが修正され、3 番目のツリーが修正されます...

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

実験は 2 つの部分で行われました:

① シミュレーション実験。

グラウンド トゥルースを含むシミュレーション実験で、GBCT 法が期待される結果を達成できるかどうかをテストします。シミュレーション実験のデータ生成は 2 つの部分に分かれています (表の最初の列 Φ は選択バイアスを表します。Φ 値が大きいほど、対応する選択バイアスが強くなります。表内の値は MAE です。MAE 値が小さいほど、 、方法が優れているほど) :

  • 最初の部分は、交絡変数が観察されたことです。交絡変数がすべて観察されたら、GBCT 手法が従来の手法よりも堅牢であるかどうかをテストします。表のデータから、選択バイアスが大きいほど、従来の手法 (メタ学習器、因果フォレストなど) のパフォーマンスが低下すると結論付けることができます。
  • #2 番目の部分は、観測されていない交絡変数の存在です。この時点で、多くの従来の方法の有効性は大幅に悪化します。 GBCT の場合、観測されていない交絡変数の存在下でもパフォーマンスは比較的安定しており、他の方法よりも一貫して優れたパフォーマンスを示します。
  • #表の最後の 2 つの列 (GBCT-ND、GBCT-B) はアブレーション実験、つまり、いくつかのモジュールが削除された GBCT の弱体化バージョンです。これは私たちの提案をさらに説明しています。どのモジュールも役に立ちます。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?②実際のクレジット カードの限度額引き上げデータ

。ランダム化比較実験が実施され、ランダム化比較実験に基づいて偏ったデータが構築されました。 GBCT 手法は、さまざまな設定にわたって一貫して従来の手法より優れたパフォーマンスを示し、特に偏ったデータに対しては従来の手法よりも大幅に優れたパフォーマンスを発揮します。

3. 因果データの融合

2 番目のタスクは因果データの融合、つまり因果効果をより適切に推定する方法です。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

#主なシンボル: 複数のデータ ソース、Y は結果、A は治療、X は懸念事項の関連性 変数、 Z は X を除く各データ ソース (ドメイン) の他の共変量、S はどのドメインに属するかを示すために使用されるドメインの指標、μ は潜在的な結果の期待値です。結果を次の式に分解します。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

##ターゲット関数 δ は、各ドメインに対する因果関係を推定するために使用されます。 、迷惑関数には、主効果、傾向スコア、ドメイン傾向スコア、効果の分散などが含まれます。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

メタ学習器などの一部の従来の手法は、データの起源が同じであることを前提としています。つまり、分布は一貫しています。一部の従来のデータ融合手法は、ドメイン間の集団の異質性を処理できますが、ドメイン間の介入結果や因果関係の異質性を明示的に捉えることはできません。私たちの研究は、介入結果におけるドメイン間の異質性や因果関係におけるドメイン間の異質性など、ドメイン間のより複雑な異質性への対処に焦点を当てています。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?#WMDL アルゴリズムのフレームワーク図を上の図に示します。主なモジュールは次のとおりです:

    #傾向スコア
  • ##結果モデル
  • #因果情報認識重み付けモジュール
  • 3 つのモジュールを組み合わせて最終推定値を取得します。 WMDL アルゴリズムの 3 つのハイライトは次のとおりです。

#クロスドメイン異質性のさまざまな程度を特徴付ける方法

  • #より多くの情報を使用するための重み付けモジュールを設計する方法
  • 二重に堅牢な推定値を取得する方法
  • この研究では、実験グループの結果と対照グループの結果を推定し、差を付けることはしませんでした。結果を推定するのではなく、因果関係を直接推定する、つまり直接学習です。直接学習の利点は、実験グループと対照グループの高周波ノイズ信号を回避できることです。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

左の部分では、因果関係が複数のドメイン間で同じであると仮定していますが、結果は不均一である可能性があります。右側は、各ドメイン間の因果効果が異なる、つまり、異なるドメイン間では、その共変量が同じであっても、その因果効果も異なると仮定しています。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

式は分解式に基づいて導出され、結果 Y から主効果を引いたものを治療で割ったものが I(X) と推定され、得られる最適解は δ(X) となります。 因果推論でデータをより有効に活用するにはどうすればよいでしょうか? の分子は、後で説明する因果情報を認識した重み付けモジュールであり、これは私たちの研究の主な貢献です; 分母は、二重ロバスト手法の傾向スコアに似ていますが、この研究では両方のドメイン情報が含まれる点が異なります。が考慮されます。異なるドメイン間の因果関係が異なる場合には、そのドメインの指標情報も考慮されます。

この作業には 3 つの利点があります:

① さまざまな設計を通じて、介入結果の不均一性を処理できるだけでなく、因果関係間の不均質性;

② 二重の堅牢性の特性を持っています。論文では、ドメインの傾向スコア モデルまたは主効果モデルの推定値に偏りがない限り、最終的な推定値にも偏りがないことが証明されています (実際の状況はもう少し複雑です。詳細については論文を参照してください)。 ;

#③ この作業では、主にセミパラメトリック モデルのフレームワークを設計しました。モデルの各モジュールは任意の機械学習モデルを使用でき、モデル全体をニューラル ネットワークに設計してエンドツーエンドの学習を実現することもできます。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

#Weighting のモジュールは、統計学の効率限界理論に基づいています。これには主に 2 つの側面の情報が含まれています:

因果推論でデータをより有効に活用するにはどうすればよいでしょうか? は、ドメイン間の分布の違いをバランスよく変換するためのモジュールです。 因果推論でデータをより有効に活用するにはどうすればよいでしょうか?# は因果情報モジュールです。左側の 3 つの図は、ソース ドメインとターゲット ドメインの分布の差が大きい場合、ターゲット ドメインに近いサンプルが優先されます。

② 分母の傾向スコア関数の設計により、実験グループと対照グループの重複するサンプルに比較重みが与えられます。大きな重み;

#③ V を使用して、データ内のノイズを特徴付けます。ノイズは分母にあるため、ノイズが少ないサンプルの重みは大きくなります。

上記の 3 つの部分を巧みに組み合わせることで、異なるドメイン間の分布の違いと異なる因果情報のパフォーマンスを、統一されたドメインにマッピングできます。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

同種因果効果か異種因果効果に関係なく、WMDL (加重マルチドメイン直接学習) 手法の方が良い結果が得られます。 。右の写真は加重モジュールによるアブレーション実験であり、加重モジュールの有効性を示しています。要約すると、WMDL メソッドは他のメソッドよりも一貫して優れたパフォーマンスを示し、推定された分散は比較的小さいです。

4. Ant のビジネス アプリケーション

金融信用リスク管理シナリオでは、割当量の増加や価格引き下げなどの介入手法により、残高やリスクの変化などの期待される効果が達成されることが期待されます。いくつかの実際のシナリオでは、GBCT の矯正作業は、額リフト前の期間の履歴パフォーマンス (額リフトを行わない実験グループと対照グループの状態を取得できます) を使用し、履歴情報を通じて明示的な矯正を実行します。そのため、介入後の推定値がより正確になります。介入前の行動が揃うように GBCT が子ノードに分割されると、介入後の因果効果の推定が容易になります。 (修正後) 図中、赤色が額上げ群、青色が額上げなし群、中央の灰色の部分が推定因果効果である。 GBCT は、より適切なインテリジェントな意思決定を行い、クレジット商品のバランスとリスクを管理するのに役立ちます。

#5. 質疑応答

#Q1: GBCT 補正と二重差分法 (した)?

A1: GBCT 補正の主なアイデアは、履歴比較情報を使用して選択バイアスを明示的に低減することです。GBCT 法と DID 二重差分法には類似点と相違点があります。 :

  • 類似点は、両方とも履歴情報を使用することです。
  • ##違いは、2 つの履歴情報の処理方法にあります。 DID は、履歴データにおける実験グループと対照グループの間に一定の一定のギャップ (ギャップ) があると仮定し、予測時にそのギャップ (ギャップ) を差し引きます。選択バイアスのため、実験グループとコントロール グループの割り当てはランダムではありませんが、GBCT はバイアス補正を通じて過去の実験グループとコントロール グループを揃えます。

Q2: GBCT は、観測されていない交絡変数に対してより優れたパフォーマンスを発揮します。より直観的な説明はありますか?

A2: すべての交絡変数が観察された場合、無視可能性の仮定はある程度満たされますが、選択バイアスは明示的に減少しませんが、実験はまた、従来の方法でグループとコントロール グループの整合性を達成することは可能であり、実験では GBCT のパフォーマンスがわずかに優れており、明示的な補正により結果がより安定していることが示されています。

観測されていない交絡変数がいくつかあると仮定します。この種のシナリオは、実際には非常に一般的です。観測されていない交絡変数は、履歴管理データにも存在します。変数:割り当てが引き上げられる前の家族状況や収入の変化は観察できない可能性がありますが、ユーザーの経済行動は過去のデータに反映されています。私たちは、過去のパフォーマンス情報による混同エントロピーなどの方法を通じて選択バイアスを明示的に削減し、ツリーが分割されたときに交絡変数間の異質性を分割された子ノードに特徴付けることができるようにしたいと考えています。子ノードの中で、観測されていない交絡変数は比較的近いため確率が高く、推定される因果効果は比較的正確になります。

Q3: GBCT と Double Machine Learning (DML) を比較したことがありますか?

#A3: 比較が行われました。ダブル機械学習はセミパラメトリック手法です。この記事での作業はツリーベースのメソッドに重点を置いているため、選択される基本学習器はツリーまたはフォレスト関連のメソッドです。表内の DML-RF は、ランダム フォレストの Double Machine Learning バージョンです。

#DML と比較して、GBCT は主に履歴比較データの使用方法を考慮します。比較方法では、履歴結果が共変量として直接処理されますが、この処理方法では明らかに情報が有効に活用されていません。

#Q4: ビジネスで遭遇する可能性のある同様の問題は、オフラインでの選択バイアスが存在する可能性があることです。ただし、オンラインのバイアスはオフラインのバイアスとは多少異なる場合があります。現時点では、オフラインで効果評価を行う場合、オフラインの効果をあまり正確に推定する方法がない可能性があります。

#A4: この問題は金融の現場において非常に本質的な問題です。検索プロモーションでは、オフラインとオンラインの違いは、オンライン学習や A/B テストを通じて部分的に克服できます。金融シナリオでは、政策の影響によりオンラインで実験を行うのは容易ではなく、また、パフォーマンスの観察期間も通常より長くなり、例えばクレジット商品の場合、ユーザーのフィードバックを観察するには少なくとも1か月かかります。したがって、この問題を完全に解決することは実際には非常に困難です。

当社では通常、オフライン評価時の検証にさまざまな期間 (OOT) のテスト データを使用し、そのパフォーマンスの堅牢性を観察するというアプローチを採用しています。テストのパフォーマンスが比較的安定している場合、オンラインのパフォーマンスも良好であると信じる理由が比較的多くなります。

以上が因果推論でデータをより有効に活用するにはどうすればよいでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

この記事では、SHAP: 機械学習のモデルの説明について説明します。 この記事では、SHAP: 機械学習のモデルの説明について説明します。 Jun 01, 2024 am 10:58 AM

機械学習とデータ サイエンスの分野では、モデルの解釈可能性が常に研究者や実務家に焦点を当ててきました。深層学習やアンサンブル手法などの複雑なモデルが広く適用されるようになったことで、モデルの意思決定プロセスを理解することが特に重要になってきました。 Explainable AI|XAI は、モデルの透明性を高めることで、機械学習モデルに対する信頼と自信を構築するのに役立ちます。モデルの透明性の向上は、複数の複雑なモデルの普及や、モデルを説明するための意思決定プロセスなどの方法によって実現できます。これらの方法には、特徴重要度分析、モデル予測間隔推定、ローカル解釈可能性アルゴリズムなどが含まれます。特徴重要度分析では、入力特徴に対するモデルの影響度を評価することで、モデルの意思決定プロセスを説明できます。モデルの予測間隔の推定

透明!主要な機械学習モデルの原理を徹底的に分析! 透明!主要な機械学習モデルの原理を徹底的に分析! Apr 12, 2024 pm 05:55 PM

平たく言えば、機械学習モデルは、入力データを予測された出力にマッピングする数学関数です。より具体的には、機械学習モデルは、予測出力と真のラベルの間の誤差を最小限に抑えるために、トレーニング データから学習することによってモデル パラメーターを調整する数学関数です。機械学習には、ロジスティック回帰モデル、デシジョン ツリー モデル、サポート ベクター マシン モデルなど、多くのモデルがあります。各モデルには、適用可能なデータ タイプと問題タイプがあります。同時に、異なるモデル間には多くの共通点があったり、モデル進化の隠れた道が存在したりすることがあります。コネクショニストのパーセプトロンを例にとると、パーセプトロンの隠れ層の数を増やすことで、それをディープ ニューラル ネットワークに変換できます。パーセプトロンにカーネル関数を追加すると、SVM に変換できます。これです

学習曲線を通じて過学習と過小学習を特定する 学習曲線を通じて過学習と過小学習を特定する Apr 29, 2024 pm 06:50 PM

この記事では、学習曲線を通じて機械学習モデルの過学習と過小学習を効果的に特定する方法を紹介します。過小適合と過適合 1. 過適合 モデルがデータからノイズを学習するためにデータ上で過学習されている場合、そのモデルは過適合していると言われます。過学習モデルはすべての例を完璧に学習するため、未確認の新しい例を誤って分類してしまいます。過適合モデルの場合、完璧/ほぼ完璧なトレーニング セット スコアとひどい検証セット/テスト スコアが得られます。若干修正: 「過学習の原因: 複雑なモデルを使用して単純な問題を解決し、データからノイズを抽出します。トレーニング セットとしての小さなデータ セットはすべてのデータを正しく表現できない可能性があるため、2. 過学習の Heru。」

宇宙探査と人類居住工学における人工知能の進化 宇宙探査と人類居住工学における人工知能の進化 Apr 29, 2024 pm 03:25 PM

1950 年代に人工知能 (AI) が誕生しました。そのとき、研究者たちは、機械が思考などの人間と同じようなタスクを実行できることを発見しました。その後、1960 年代に米国国防総省は人工知能に資金を提供し、さらなる開発のために研究所を設立しました。研究者たちは、宇宙探査や極限環境での生存など、多くの分野で人工知能の応用を見出しています。宇宙探査は、地球を超えた宇宙全体を対象とする宇宙の研究です。宇宙は地球とは条件が異なるため、極限環境に分類されます。宇宙で生き残るためには、多くの要素を考慮し、予防策を講じる必要があります。科学者や研究者は、宇宙を探索し、あらゆるものの現状を理解することが、宇宙の仕組みを理解し、潜在的な環境危機に備えるのに役立つと信じています。

C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 Jun 03, 2024 pm 01:25 PM

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマート ポインター、最新のスレッド ライブラリ、SIMD 命令、サードパーティ ライブラリの使用、コーディング スタイル ガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

説明可能な AI: 複雑な AI/ML モデルの説明 説明可能な AI: 複雑な AI/ML モデルの説明 Jun 03, 2024 pm 10:08 PM

翻訳者 | Li Rui によるレビュー | 今日、人工知能 (AI) および機械学習 (ML) モデルはますます複雑になっており、これらのモデルによって生成される出力はブラックボックスになっており、関係者に説明することができません。 Explainable AI (XAI) は、利害関係者がこれらのモデルがどのように機能するかを理解できるようにし、これらのモデルが実際に意思決定を行う方法を確実に理解できるようにし、AI システムの透明性、信頼性、およびこの問題を解決するための説明責任を確保することで、この問題を解決することを目指しています。この記事では、さまざまな説明可能な人工知能 (XAI) 手法を検討して、その基礎となる原理を説明します。説明可能な AI が重要であるいくつかの理由 信頼と透明性: AI システムが広く受け入れられ、信頼されるためには、ユーザーは意思決定がどのように行われるかを理解する必要があります

機械学習における Golang テクノロジーの今後の動向の展望 機械学習における Golang テクノロジーの今後の動向の展望 May 08, 2024 am 10:15 AM

機械学習の分野における Go 言語の応用可能性は次のとおりです。 同時実行性: 並列プログラミングをサポートし、機械学習タスクにおける計算量の多い操作に適しています。効率: ガベージ コレクターと言語機能により、大規模なデータ セットを処理する場合でもコードの効率が保証されます。使いやすさ: 構文が簡潔なので、機械学習アプリケーションの学習と作成が簡単です。

フラッシュ アテンションは安定していますか?メタとハーバードは、モデルの重みの偏差が桁違いに変動していることを発見しました フラッシュ アテンションは安定していますか?メタとハーバードは、モデルの重みの偏差が桁違いに変動していることを発見しました May 30, 2024 pm 01:24 PM

MetaFAIR はハーバード大学と協力して、大規模な機械学習の実行時に生成されるデータの偏りを最適化するための新しい研究フレームワークを提供しました。大規模な言語モデルのトレーニングには数か月かかることが多く、数百、さらには数千の GPU を使用することが知られています。 LLaMA270B モデルを例にとると、そのトレーニングには合計 1,720,320 GPU 時間が必要です。大規模なモデルのトレーニングには、これらのワークロードの規模と複雑さにより、特有のシステム上の課題が生じます。最近、多くの機関が、SOTA 生成 AI モデルをトレーニングする際のトレーニング プロセスの不安定性を報告しています。これらは通常、損失スパイクの形で現れます。たとえば、Google の PaLM モデルでは、トレーニング プロセス中に最大 20 回の損失スパイクが発生しました。数値的なバイアスがこのトレーニングの不正確さの根本原因です。

See all articles