翻訳者 | Li Rui
レビュアー | Sun Shujuan
わかりました #友達と一緒に行く準備をしているところを想像してください遊ぶチェス、しかし彼は人間ではなく、チェスのルールを理解していない人です。ゲーム コンピューター プログラム。 しかし、このアプリケーションは、 が 1 つの目標、つまり get を達成することに取り組んでいることを理解しています。ゲームでは 勝ちます。
コンピューター プログラムはルールを知らないため、チェスを開始するための の動きはランダムです。これらの トリック の中にはまったく意味をなさないものもありますが、あなたが勝つのは簡単でしょう。 ここで、あなたはこの友人とチェスをするのがとても楽しくて、そのゲームに夢中になっていると仮定します。 しかし、コンピュータプログラムは最終的には
勝利します。なぜなら、コンピュータプログラムは徐々に学習するからです。あなたの方法とトリックを打ち負かしてください番号。 この仮説 シナリオは突飛に思えるかもしれませんが、強化学習 (機械学習の分野) がどのように機能するかについての一般的なアイデアが得られるはずです。 強化学習はどの程度インテリジェントですか? 人間の知能には、知識の獲得などの多くの特性が含まれます、知的能力と直観的思考を拡大したいという欲求。チェスのチャンピオン、ガルリ・カスパロフがディープ・ブルーと呼ばれるIBMコンピューターに負けたとき、人間の知性は疑問にさらされました。ロボットが人類を支配する未来を描く終末的なシナリオは、大衆の注目を集めただけでなく、主流の意識も支配しています。
は並大抵の相手ではありません。この 計算プログラム
を使用してチェスをプレイすることは、千歳の老人とチェスをプレイするようなものです old ゲームをプレイする, そして彼は生涯ずっとチェスをプレーしてきました。しかし、「ディープ ブルー」 は、楽器の演奏や 本を書くなどの他の知的活動よりも、特定のゲームをプレイするのが得意です。 、理科の実験、子育て、または車の修理。 このは決して「ディープ・ブルー」の内容を軽視するためのものではありません の成果を達成しました。 とは反対に、コンピューターが知的能力において人間を超えることができるという考えは、強化学習 がどのように機能するかを分析することから始めて、注意深く検討する必要があります。 。
強化学習の仕組みで述べたように、強化学習は次のサブセットです。 機械学習。これには、インテリジェントエージェントが環境内でどのように行動して累積報酬を最大化するかという概念が含まれます。 簡単に言えば、強化学習ロボットは報酬と罰のメカニズムによって訓練され、ロボットは正しい行動をとります。報酬を獲得し、make間違った行動は罰せられます。 強化学習ロボットは「考える」ことはありませんより良い行動を取る方法 # は、成功の可能性を最大化するためにすべてのアクションを可能にするだけです。 強化学習の欠点 AlphaGo Master は、囲碁ゲームで人間のプレイヤーに勝つコンピューター プログラムです。多くのエンジニアを含む多大な資金と人材を消費し、非常にリッチなゲームです。 256 個の GPU と 128,000 個の CPU の経験。 競争で勝つ方法を学ぶプロセスには、多くのリソースとエネルギーを投資する必要があります。ここから疑問が生じます: 直感的に考えることができない人工知能を設計するのは合理的でしょうか? 人工知能の研究は人間の知能を模倣するべきではないでしょうか? サポートの強化学習に関する議論の 1 つは、AI システムが人間のように機能することを期待すべきではなく、複雑な問題を解決するために AI を使用するにはさらなる開発が必要であるということです。一方で、強化学習に反対する議論は、AI 研究は現在人間と動物にしかできないことを機械にやらせることに焦点を当てるべきだというものです。この観点から、人工知能と人間の知能の比較は適切です。 量子強化学習強化学習は、上記の問題のいくつかを解決できると言われている新興分野です。量子強化学習 (QRL) は、コンピューティングを高速化する方法です。 まず、量子強化学習 (QRL) は、探索 (戦略の発見) フェーズと活用 (最適な戦略の選択) フェーズを最適化することで学習を加速すると考えられています。現在のアプリケーションと提案されている量子コンピューティングの一部は、データベース検索を改善し、大きな数値を素数に因数分解するなどの機能を備えています。 量子強化学習 (QRL) は画期的な方法で登場したわけではありませんが、従来の強化学習の主要な課題のいくつかを解決できる可能性を秘めています。 前述したように、強化学習の研究開発は非常に重要です。以下は、McKinsey & Company の調査から得た強化学習の実践例です。
強化学習の力は限られているかもしれませんが、過大評価することはできません。さらに、強化学習の研究開発プロジェクトが増加するにつれて、経済のほぼすべての分野で潜在的なユースケースも増加しています。 強化学習の大規模な導入は、最適なアルゴリズム設計、構成された学習環境、コンピューティング能力の可用性など、いくつかの要因に依存します。 元のタイトル: 強化学習は誇張されすぎていますか? , 著者: Aleksandras Šulženko 強化学習の主な欠点は、大量の数が必要になることです。目標を達成するためのリソースの確保。囲碁ゲームにおける強化学習の成功は、この点を示しています。これは人気のある 2 人用ゲームで、目標は駒を失わずに自分の駒を使ってボード上の最大領域を占めることです。
#強化学習についての考察
以上が強化学習は誇張されすぎていませんか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。