Appleの新たな調査でAI推論には重大な欠陥があることが判明
AI が必ずしも物事を正しく理解できるとは限らないのは当然のことです。場合によっては幻覚まで現れることもあります。しかし、Apple 研究者らによる最近の研究では、AI が形式的推論に使用する数学モデルにさらに重大な欠陥があることが判明しました。
✕ 広告を削除研究の一環として、Apple の科学者は AI 大規模言語モデルを求めました。 (LLM) という質問を、わずかに異なる方法で複数回繰り返したところ、LLM が予想外の答えを返したことに驚きました。これらのばらつきは、数字が関係する場合に最も顕著でした。
Apple の研究は、AI の信頼性に大きな問題があることを示唆しています

arxiv.org によって公開されたこの研究は、「全体的なパフォーマンスに大きなばらつきがある」と結論付けています。同じ質問を異なるインスタンス化することで、単一点の精度メトリクスに依存する現在の GSM8K 結果の信頼性に疑問を投げかけています。」 GSM8K は、8,000 を超える多様な小学校の算数の質問と回答を含むデータセットです。
✕ 広告を削除Apple の研究者は、このパフォーマンスの差異が 10% もある可能性があることを確認しました。そして、プロンプトのわずかな変化でさえ、LLM の回答の信頼性に大きな問題を引き起こす可能性があります。
言い換えれば、ChatGPT のようなものを使用するときはいつでも、自分の回答を事実確認する必要があるかもしれません。その理由は、AI がロジックを使用して問い合わせに回答しているように見えることがありますが、使用されているのはロジックではないからです。
AI は代わりに、パターン認識を利用してプロンプトに応答します。しかし、Apple の研究は、重要でない単語をいくつか変更するだけでパターン認識がどのように変化するかを示しています。
ここで示した重大な差異の一例は、数日間にわたるキウイの収集に関する問題によって生じました。 Apple の研究者は対照実験を実施し、キウイのサイズに関する重要ではない情報を追加しました。
✕ 広告を削除Meta モデルと OpenAI モデルの両方で問題が示されました

Meta の Llama と OpenAI の o1、その後、キーウィのサイズデータが問題の結果に具体的な影響を与えなかったにもかかわらず、対照からの問題に対する回答を変更しました。 OpenAI の GPT-4o も、LLM に与えられたデータに小さな変動を導入する際のパフォーマンスに問題がありました。
私たちの文化では LLM がより目立つようになっているため、このニュースは AI を信頼できるかどうかについて大きな懸念を引き起こしますお問い合わせに対して正確に回答するため。特に財務上のアドバイスなどの問題についてはそうです。また、大規模な言語モデルを使用するときに受け取る情報を正確に検証する必要性も強化されます。
つまり、AI に盲目的に依存するのではなく、批判的思考とデューデリジェンスを行う必要があるということです。繰り返しになりますが、AI を定期的に使用している人なら、おそらくすでにご存知でしょう。
✕ 広告を削除する以上がAppleの新たな調査でAI推論には重大な欠陥があることが判明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









バイブコーディングは、無限のコード行の代わりに自然言語を使用してアプリケーションを作成できるようにすることにより、ソフトウェア開発の世界を再構築しています。 Andrej Karpathyのような先見の明に触発されて、この革新的なアプローチは開発を許可します

2025年2月は、生成AIにとってさらにゲームを変える月であり、最も期待されるモデルのアップグレードと画期的な新機能のいくつかをもたらしました。 Xai’s Grok 3とAnthropic's Claude 3.7 SonnetからOpenaiのGまで

Yolo(あなたは一度だけ見ています)は、前のバージョンで各反復が改善され、主要なリアルタイムオブジェクト検出フレームワークでした。最新バージョンYolo V12は、精度を大幅に向上させる進歩を紹介します

この記事では、トップAIアートジェネレーターをレビューし、その機能、創造的なプロジェクトへの適合性、価値について説明します。 Midjourneyを専門家にとって最高の価値として強調し、高品質でカスタマイズ可能なアートにDall-E 2を推奨しています。

CHATGPT 4は現在利用可能で広く使用されており、CHATGPT 3.5のような前任者と比較して、コンテキストを理解し、一貫した応答を生成することに大幅な改善を示しています。将来の開発には、よりパーソナライズされたインターが含まれる場合があります

この記事では、Lamda、Llama、GrokのようなChatGptを超えるAIモデルについて説明し、正確性、理解、業界への影響における利点を強調しています(159文字)

Mistral OCR:マルチモーダルドキュメントの理解により、検索された世代の革命を起こします 検索された生成(RAG)システムはAI機能を大幅に進めており、より多くの情報に基づいた応答のために膨大なデータストアにアクセスできるようになりました

この記事では、Grammarly、Jasper、Copy.ai、Writesonic、RytrなどのトップAIライティングアシスタントについて説明し、コンテンツ作成のためのユニークな機能に焦点を当てています。 JasperがSEOの最適化に優れているのに対し、AIツールはトーンの維持に役立つと主張します
