ML はどのようにして科学的発見を行うのでしょうか?オックスフォード大学の 268 ページの博士論文は、科学的機械学習の意味を詳しく説明しています
機械学習 (ML) は科学の実践方法に根本的な変化を引き起こし、多くの人がデータからの学習を研究の焦点に据えています。私たちが研究したい科学的疑問の複雑さが増し、今日の科学実験によって生成されるデータの量が増加するにつれて、ML は従来のワークフローの自動化、高速化、強化に役立っています。この革命の最前線にあるのは、科学的機械学習 (SciML) と呼ばれる分野です。 SciML の中心的な目標は、既存の科学的理解をより緊密に ML と統合し、事前の知識に基づいた強力な ML アルゴリズムを生成することです。
文書アドレス: https://ora.ox.ac.uk/objects/uuid:b790477c-771f- 4926-99c6-d2f9d248cb23
科学原則を ML に組み込む方法は多数あり、SciML が世界の最大の課題のいくつかを解決するという期待が高まっています。科学。しかし、この分野は成長を続けており、依然として多くの疑問が生じています。大きな疑問は、SciML 手法をより複雑な現実世界の問題に拡張できるかどうかです。 SciML 研究の多くは概念実証の段階にあり、縮小された単純な問題に対してテクノロジーがテストされています。ただし、より複雑な問題に対する拡張性を理解することは、広く適用するために重要です。この質問がこの記事の中心的な質問です。
#第一に、月科学と地球物理学の学習方法における 3 つの複雑な現実世界のドメイン固有のケーススタディ向けに、さまざまな物理知識マシンが設計されています。そしてそのパフォーマンスとスケーラビリティを評価します。次に、大領域および高周波解を含む微分方程式を解くための、一般的な汎用 SciML 手法である物理情報に基づいたニューラル ネットワークのスケーラビリティが評価され、改善されます。これらの研究からの共通の観察結果が議論され、重要な利点と潜在的な制限が特定され、スケーラブルな SciML 技術を設計することの重要性が強調されます。
はじめに
機械学習 (ML) は科学分野に革命を引き起こしました。伝統的に、科学研究は理論と実験を中心に展開します。つまり、手作りで明確に定義された理論を提案し、実験データを使用してそれを継続的に改良し、それを分析して新しい予測を立てます。しかし現在、多くの人がデータから学ぶことを研究の焦点にしています。ここでは、世界のモデルは ML アルゴリズムを介してデータから学習され、既存の理論は必要ありません。この変化はさまざまな理由で発生します。
#まず第一に、ML 分野は過去 10 年間で急激な成長を遂げており、この急増の主な原動力は、多くの場合、ディープラーニングのブレークスルーによるものと考えられます。学習[Goodfellow 他、2016]。より深いネットワーク設計やより優れたトレーニング アルゴリズムの使用、さらに強力なコンピューティング アーキテクチャの利用などの重要な発見により、幅広い問題に対する深層学習技術のパフォーマンスが急速に向上しました [Dally et al., 2021】 。最新の ML アルゴリズムは、自動運転車 [Schwarting et al., 2018] から世界クラスの囲碁プレイヤーを倒す [Silver et al., 2018] に至るまで、信じられないほど複雑なタスクを学習して解決できるようになりました。
#これらの進歩により、今日の科学実験ではより多くのデータが生成され、ますます複雑な現象が研究されています [Baker et al., 2019 、Hey et al., 2020] ]。このすべてのデータを分析して理論化することは、人間や従来のワークフローでは急速に不可能になりつつあり、まもなく科学実験は、収集できるデータではなく、すでに持っているデータから洞察を抽出する能力によって制限される可能性があります。他、2019]。 ML が提供できる強力なツールを考慮すると、多くの研究者が従来のワークフローの自動化、高速化、強化を支援するために ML に注目しています。過去 10 年間にわたり、新しい ML アルゴリズムとデータの可用性の組み合わせにより、いくつかの大きな科学的進歩がもたらされました。たとえば、ML は、これまでよりも正確にタンパク質構造を予測したり [Jumper et al., 2021]、神経活動から音声を合成したり [anummanchipalli et al., 2019]、量子多体システムのシミュレーションを改善したりするために使用されています [Carleo]とトロイヤー、2017]。実際、最新の ML アルゴリズムは現在、科学のほぼすべての側面に適用されており、この時代を定義する研究課題の 1 つは「問題 X を解決し、それに ML を適用する」となり、その後に興味深い、刺激的な結果が得られます。
しかし、これらの進歩にもかかわらず、ML、特に深層学習アルゴリズムのさまざまな欠点が ML 分野で顕在化しています。たとえば、ディープ ニューラル ネットワークは、非常に複雑な現象を学習する能力があるにもかかわらず、世界をどのように表現し推論するのかが理解されていない「ブラック ボックス」と見なされることがよくあります。この解釈不可能性は、特にネットワーク予測の実証を必要とする安全性が重要なアプリケーションにとって、重大な問題です [Gilpin et al., 2019, Castelvecchi, 2016]。さらに、特定のタスクに適した深層学習アルゴリズムを設計する方法についての理論的なガイダンスはほとんどありません。ディープ ニューラル ネットワーク アーキテクチャの選択は主に経験に基づいていますが、メタ学習とニューラル アーキテクチャ検索の分野では、より自動化されたアプローチが提供され始めています [Elsken et al., 2019, Hospedales et al., 2021]。最後に、ディープ ニューラル ネットワークは表現力が非常に高いですが、トレーニング データによって制限され、トレーニング分布外ではパフォーマンスが低下することがよくあります。新しいタスクでうまく機能する世界の一般化可能なモデルを学習することは、より一般的な人工知能 (AI) システムの重要な機能であり、ML の分野における重要な未解決の課題です [Bengio et al., 2021]。
研究者は、科学的問題で ML を使用するときにこれらの制限に遭遇し始めます [Ourmazd、2020、Forde および Paganini、2019]。ディープ ニューラル ネットワークの一般化能力が低いことを考えると、重要な問題は、ディープ ニューラル ネットワークが実際に科学的原理を「学習」するかどうかです。優れた科学理論には、実験データの外で斬新で正確な予測を行うことが期待されますが、ディープ ニューラル ネットワークはトレーニング データの外で正確な予測を行うことが困難です。たとえネットワークが信頼性の高い予測を行うことができたとしても、ネットワークが解釈できないことを考えると、ネットワークから有意義な科学的洞察を抽出することは困難になる可能性があります。
#もう 1 つの大きな問題は、現在の機械学習ワークフローの多くが従来の科学モデルを学習済みモデルに完全に置き換えていることです。これは便利なこともありますが、これらの純粋にデータ駆動型の方法では、これまでの科学的知識の多くが「捨てられ」ます。
#重要な点は、多くの問題について、ゼロから始めるのではなく、構築するための既存の理論があるということです。従来、明示的な理論と実験の間の緊密な相互作用に基づいてきたこの分野では、上記の制限により現在の ML 手法は受け入れられないと主張する人もいます。これらの懸念は、科学的機械学習 (SciML) と呼ばれる急速に成長している新分野の形成に拍車をかけています [Baker et al., 2019, Karniadakis et al., 2021, Willard et al., 2020, Cuomo et al., 2022, Arridge et al., 2019, Karniadakis et al., 2021, Arridge et al., 2020 al.、2019、Karpatne et al.、2017a]。 SciML の目標は、図 1.1 に示すように、既存の科学知識と ML を融合して、事前の知識に基づいたより微妙な ML アルゴリズムを生成することです。この分野での重要な議論は、これを行うことで、最終的には科学研究を行うためのより堅牢な方法が達成されるということです。従来の方法と ML 方法にはそれぞれ長所と短所があり、2 つを組み合わせた方がどちらか一方よりも効果的である場合があります。たとえば、データ同化 (気候モデルなど) を行う場合、従来の物理モデルを使用して事前知識を提供できますが、ML を使用してデータの依存関係やその他の未知の物理を考慮することができます。
図 1.1: 科学的機械学習 (SciML) の概要。 SciML は、科学研究用に、より強力で堅牢かつ解釈可能な ML 手法を生成するために、ML を科学知識と緊密に統合することを目的としています。
#この分野への期待は急速に高まっており、科学的知識を ML に組み込むために現在、多数の方法と多くの革新的な戦略が提案および研究されています。これらの手法は、意図された科学的タスク (シミュレーション、反転、支配方程式の発見など) から、科学的原理を組み込むさまざまな方法 (ディープ ニューラル ネットワークのアーキテクチャ、その損失関数、ハイブリッド モデルの使用など) まで多岐にわたります。原則が課される範囲 (ハード制約またはソフト制約など)。これらの方法については、第 2 章で詳しく説明します。多くの手法は、物理情報に基づいた機械学習 (PIML) と呼ばれる SciML のサブフィールドの ML アルゴリズムに情報を与えるために物理学のアイデアを使用しています [Karniadakis et al., 2021]。
これまでのところ、SciML は初期の成功を収めています。これは、強力なシミュレーション [Raissi al., 2019] の実行、複雑な物理システムの支配方程式の発見 [Kutz and Brunton, 2022]、反転問題での基本パラメータの正確な反転 [Arridge et al., 2019]、およびシームレスな統合に役立ちます。幅広いドメインにわたる学習されたコンポーネントを含む従来のワークフロー [Rackauckas et al., 2020、Thuerey et al., 2021]。初期の期待にもかかわらず、SciML の分野はまだ初期段階にあり、科学的原理をどのように実装すべきか、データ駆動型モデルの解釈可能性の欠如と既存の理論の明快さのバランスをどのようにとるべきかなど、多くの重要な疑問が生じています。科学分野全体に適用できる包括的な SciML テクノロジはありますか? SciML は ML 分野に新しい視点やアイデアを提供できますか? SciML テクノロジは現実世界の複雑な問題に対してどの程度拡張可能ですか? この記事では主に最後の質問について検討します。具体的な議論は次のとおりです。次のように。
#この論文では、主に 2 つの方法を使用して上記の副問題を研究します。まず、最初の 3 つのサブ問題については、複雑で現実のドメイン固有のケース スタディを使用して、複数の異なる PIML メソッドのパフォーマンスとスケーラビリティを検証します。各サブ問題について、ケース スタディを提示し、それを解決するための PIML 手法 (またはさまざまな PIML 手法) を提案し、その手法をこの設定にどのように拡張できるかを評価します。次に、最後のサブ問題については、単一の汎用 PIML テクノロジーに焦点を当て、そのスケーラビリティを評価および改善します。最初の 3 つのサブ問題は、この論文の別の章 (それぞれ第 3 章から第 5 章) で研究され、それらのケーススタディはすべて月科学と地球物理学の分野からのものです。最後の部分問題は第 6 章で検討します。最後に、第 7 章で、主な研究課題に対する各章の意味について説明し、要約します。
SciML 手法の系譜。このグラフは、この章で紹介するさまざまな種類の SciML 手法が科学的知識に対してどれほど「強力」であるかを示しています。科学的制約の強度はかなり曖昧な概念であることに注意してください。この図では、SciML アプローチが従来のワークフローにどれだけ近いかとして定義されています。中間アプローチでは、従来の反復ソルバーと ML モデルを織り交ぜるループ手法など、ML を従来のワークフローの特定の側面と組み合わせることもできます。また、私たちの割り当てはやや主観的なものであるため、この数字は一般的な傾向を表すものにすぎません。
#
以上がML はどのようにして科学的発見を行うのでしょうか?オックスフォード大学の 268 ページの博士論文は、科学的機械学習の意味を詳しく説明していますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









画像の注釈は、ラベルまたは説明情報を画像に関連付けて、画像の内容に深い意味と説明を与えるプロセスです。このプロセスは機械学習にとって重要であり、画像内の個々の要素をより正確に識別するために視覚モデルをトレーニングするのに役立ちます。画像に注釈を追加することで、コンピュータは画像の背後にあるセマンティクスとコンテキストを理解できるため、画像の内容を理解して分析する能力が向上します。画像アノテーションは、コンピュータ ビジョン、自然言語処理、グラフ ビジョン モデルなどの多くの分野をカバーする幅広い用途があり、車両が道路上の障害物を識別するのを支援したり、障害物の検出を支援したりするなど、幅広い用途があります。医用画像認識による病気の診断。この記事では主に、より優れたオープンソースおよび無料の画像注釈ツールをいくつか推奨します。 1.マケセンス

機械学習とデータ サイエンスの分野では、モデルの解釈可能性が常に研究者や実務家に焦点を当ててきました。深層学習やアンサンブル手法などの複雑なモデルが広く適用されるようになったことで、モデルの意思決定プロセスを理解することが特に重要になってきました。 Explainable AI|XAI は、モデルの透明性を高めることで、機械学習モデルに対する信頼と自信を構築するのに役立ちます。モデルの透明性の向上は、複数の複雑なモデルの普及や、モデルを説明するための意思決定プロセスなどの方法によって実現できます。これらの方法には、特徴重要度分析、モデル予測間隔推定、ローカル解釈可能性アルゴリズムなどが含まれます。特徴重要度分析では、入力特徴に対するモデルの影響度を評価することで、モデルの意思決定プロセスを説明できます。モデルの予測間隔の推定

平たく言えば、機械学習モデルは、入力データを予測された出力にマッピングする数学関数です。より具体的には、機械学習モデルは、予測出力と真のラベルの間の誤差を最小限に抑えるために、トレーニング データから学習することによってモデル パラメーターを調整する数学関数です。機械学習には、ロジスティック回帰モデル、デシジョン ツリー モデル、サポート ベクター マシン モデルなど、多くのモデルがあります。各モデルには、適用可能なデータ タイプと問題タイプがあります。同時に、異なるモデル間には多くの共通点があったり、モデル進化の隠れた道が存在したりすることがあります。コネクショニストのパーセプトロンを例にとると、パーセプトロンの隠れ層の数を増やすことで、それをディープ ニューラル ネットワークに変換できます。パーセプトロンにカーネル関数を追加すると、SVM に変換できます。これです

この記事では、学習曲線を通じて機械学習モデルの過学習と過小学習を効果的に特定する方法を紹介します。過小適合と過適合 1. 過適合 モデルがデータからノイズを学習するためにデータ上で過学習されている場合、そのモデルは過適合していると言われます。過学習モデルはすべての例を完璧に学習するため、未確認の新しい例を誤って分類してしまいます。過適合モデルの場合、完璧/ほぼ完璧なトレーニング セット スコアとひどい検証セット/テスト スコアが得られます。若干修正: 「過学習の原因: 複雑なモデルを使用して単純な問題を解決し、データからノイズを抽出します。トレーニング セットとしての小さなデータ セットはすべてのデータを正しく表現できない可能性があるため、2. 過学習の Heru。」

1950 年代に人工知能 (AI) が誕生しました。そのとき、研究者たちは、機械が思考などの人間と同じようなタスクを実行できることを発見しました。その後、1960 年代に米国国防総省は人工知能に資金を提供し、さらなる開発のために研究所を設立しました。研究者たちは、宇宙探査や極限環境での生存など、多くの分野で人工知能の応用を見出しています。宇宙探査は、地球を超えた宇宙全体を対象とする宇宙の研究です。宇宙は地球とは条件が異なるため、極限環境に分類されます。宇宙で生き残るためには、多くの要素を考慮し、予防策を講じる必要があります。科学者や研究者は、宇宙を探索し、あらゆるものの現状を理解することが、宇宙の仕組みを理解し、潜在的な環境危機に備えるのに役立つと信じています。

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマート ポインター、最新のスレッド ライブラリ、SIMD 命令、サードパーティ ライブラリの使用、コーディング スタイル ガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

翻訳者 | Li Rui によるレビュー | 今日、人工知能 (AI) および機械学習 (ML) モデルはますます複雑になっており、これらのモデルによって生成される出力はブラックボックスになっており、関係者に説明することができません。 Explainable AI (XAI) は、利害関係者がこれらのモデルがどのように機能するかを理解できるようにし、これらのモデルが実際に意思決定を行う方法を確実に理解できるようにし、AI システムの透明性、信頼性、およびこの問題を解決するための説明責任を確保することで、この問題を解決することを目指しています。この記事では、さまざまな説明可能な人工知能 (XAI) 手法を検討して、その基礎となる原理を説明します。説明可能な AI が重要であるいくつかの理由 信頼と透明性: AI システムが広く受け入れられ、信頼されるためには、ユーザーは意思決定がどのように行われるかを理解する必要があります

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。
