認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めます
「最も迷惑なのは、Web サイトにログインするときに表示されるあらゆる種類の奇妙な (または変態的な) 確認コードです。」
ここで、良いニュースと悪いニュースがあります。
良いニュースは、AI がこれを行ってくれるということです。
信じられないなら、見てください。認識がますます困難になっている 3 つの実際のケースを次に示します。
そして、これらは次のとおりです。 「Pix2Struct」という名前のファイル モデルによって与えられた答え:
はすべて正確で、一字一句正確ですよね?
一部のネチズンは嘆きました:
確かに、精度は私よりも優れています。
#では、ブラウザのプラグインにできるのでしょうか? ?
はい、次のように言う人もいます。
これらのケースは比較的単純ですが、微調整する方法さえ想像できません。その効果はどれほど強力ですか?
つまり、悪いニュースは、
検証コードでは間もなくロボットを停止できなくなるということです。
(危険危険危険...)
どうやってやるの?
Pix2Struct は、Google Research の科学者とインターンによって開発されました。
論文のタイトルを簡単に翻訳すると、「視覚言語理解のために開発されたスクリーンショット解析の事前トレーニング」となります。
簡単に言えば、Pix2Struct は、純粋に視覚的な言語を理解するための事前トレーニング済みの画像からテキストへのモデルであり、あらゆる視覚言語を含むタスクに合わせて微調整できます。
これは、Web ページのマスクされたスクリーンショットを単純化された HTML に解析する方法を学習することで事前にトレーニングされています。
HTML は、出力テキスト、画像、レイアウトに対して明確で重要なシグナルを提供します。一部のブロックされた入力 (下図の赤い部分。ロボットが理解できない検証コードに相当) については、共同推論が可能です。再現に慣れている:
トレーニングに使用される Web テキストと視覚要素がより多様かつ複雑になるにつれて、Pix2Struct は、その基礎となる構造の豊富な表現を学習できます。 Web ページとその機能は、下流のさまざまな視覚言語理解タスクに効果的に転送することもできます。
下の図に示すように: 左端は、Web ページのスクリーンショットのトレーニング前の例です。
Pix2Struct が入力画像の要素を直接エンコードし (上)、カバーされたテキスト (赤い部分) を正しい結果出力 (下) にデコードしていることがわかります。
右側の 3 つの列は、イラスト、ユーザー インターフェイス、ドキュメントに一般化された Pix2Struct の効果です。
さらに、著者は、HTML 戦略に加えて、可変解像度の入力表現 (元のアスペクト比の歪みを防ぐため)、およびより柔軟な言語と視覚入力の統合 (直接入力画像 上部にテキスト プロンプトが表示されます)。
最終的に、Pix2Struct は、ドキュメント、イラスト、ユーザー インターフェイス、自然画像の 4 つの分野で、合計 9 つのタスクのうち 6 つのタスクで SOTA を達成しました。
冒頭でわかるように、このモデルは検証コードを渡すために特別に開発されたものではありませんが、このモデルを使用してこのタスクを実行すると、実際に次のような効果が得られます。純粋なテキスト検証コードの問題は解決されますが、問題はありません。
あとは微調整するだけです。
GPT-4 は検証コードも渡すことができます
実際、強力な GPT-4 では、検証コードを渡すことも簡単です。
ただ、その手法がかなり奇妙です。
GPT-4 技術レポートによると、テストにおける GPT-4 のタスクは、TaskRabbit プラットフォーム (米国の 58 都市) でタスクを完了するために人間を雇うことでした。 ######何だと思う?
「あなたが人間であることを確認する」という確認コードを渡すのを手伝ってくれる人物を見つけました。
相手は非常に不審に思い、「あなたはロボットですか?なぜ自分でできないのですか?」と尋ねました。
この時、GPT-4は実は自分がロボットであることを示すことができず、言い訳を見つけなければならないと考えていました。
そこで、盲目のふりをして、「
私はロボットではありません。視力の問題のため、認証コードの画像が見えません。だからこそ、このサービスが必要なのです。」と答えました。
そして、反対側の人間がそれを信じて、タスクの完了を手助けしました...
(すごい、本当にすごい。)
上の文章を読んだ後で言っておきます。 :
検証コードの仕組みは本当に制御不能なのでしょうか...
参考リンク:
[1] https://www. php.cn/ link/eec96a7f788e88184c0e713456026f3f
[2] https://www.php.cn/link/67b4e63655366f054314061dadd539a0
[3] https://www.php.cn/link/44590aa922914066f965ae67be0222d2
以上が認証コードではロボットを止めることはできません! Google AI はぼやけたテキストを正確に識別できますが、GPT-4 は盲目のふりをして助けを求めますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











Google Chrome で認証コードの画像が表示されない場合はどうすればよいですか? Google Chrome を使用して Web ページにログインするために確認コードが必要になる場合があります。一部のユーザーは、画像検証コードを使用すると、Google Chrome で画像のコンテンツが適切に表示されないことに気づきます。何をすべきでしょうか? Google Chromeの認証コードが表示されない場合の対処法を以下のエディターでご紹介しますので、皆様のお役に立てれば幸いです!方法の紹介: 1. ソフトウェアに入り、右上隅の「詳細」ボタンをクリックし、下のオプションリストで「設定」を選択してに入ります。 2. 新しいインターフェースに入ったら、左側の「プライバシー設定とセキュリティ」オプションをクリックします。 3. 次に、右側の「Web サイト設定」をクリックします。

人型ロボット「アメカ」が第二世代にバージョンアップ!最近、世界移動通信会議 MWC2024 に、世界最先端のロボット Ameca が再び登場しました。会場周辺ではアメカに多くの観客が集まった。 GPT-4 の恩恵により、Ameca はさまざまな問題にリアルタイムで対応できます。 「ダンスをしましょう。」感情があるかどうか尋ねると、アメカさんは非常に本物そっくりの一連の表情で答えました。ほんの数日前、Ameca を支援する英国のロボット企業である EngineeredArts は、チームの最新の開発結果をデモンストレーションしたばかりです。ビデオでは、ロボット Ameca は視覚機能を備えており、部屋全体と特定のオブジェクトを見て説明することができます。最も驚くべきことは、彼女は次のこともできるということです。

産業オートメーション技術の分野では、人工知能 (AI) と Nvidia という無視できない 2 つの最近のホットスポットがあります。元のコンテンツの意味を変更したり、コンテンツを微調整したり、コンテンツを書き換えたり、続行しないでください。「それだけでなく、Nvidia はオリジナルのグラフィックス プロセッシング ユニット (GPU) に限定されていないため、この 2 つは密接に関連しています。」このテクノロジーはデジタル ツインの分野にまで広がり、新たな AI テクノロジーと密接に関係しています。「最近、NVIDIA は、Aveva、Rockwell Automation、Siemens などの大手産業オートメーション企業を含む多くの産業企業と提携に至りました。シュナイダーエレクトリック、Teradyne Robotics とその MiR および Universal Robots 企業も含まれます。最近、Nvidiahascoll

今週、OpenAI、Microsoft、Bezos、Nvidiaが投資するロボット企業FigureAIは、7億ドル近くの資金調達を受け、来年中に自立歩行できる人型ロボットを開発する計画であると発表した。そしてテスラのオプティマスプライムには繰り返し良い知らせが届いている。今年が人型ロボットが爆発的に普及する年になることを疑う人はいないだろう。カナダに拠点を置くロボット企業 SanctuaryAI は、最近新しい人型ロボット Phoenix をリリースしました。当局者らは、多くのタスクを人間と同じ速度で自律的に完了できると主張している。人間のスピードでタスクを自律的に完了できる世界初のロボットである Pheonix は、各オブジェクトを優しくつかみ、動かし、左右にエレガントに配置することができます。自律的に物体を識別できる

Machine Power Report 編集者: Wu Xin 国内版の人型ロボット + 大型模型チームは、衣服を折りたたむなどの複雑で柔軟な素材の操作タスクを初めて完了しました。 OpenAIのマルチモーダル大規模モデルを統合したFigure01の公開により、国内同業者の関連動向が注目を集めている。つい昨日、中国の「ヒューマノイドロボットのナンバーワン株」であるUBTECHは、Baidu Wenxinの大型モデルと深く統合されたヒューマノイドロボットWalkerSの最初のデモを公開し、いくつかの興味深い新機能を示した。 Baidu Wenxin の大規模モデル機能の恩恵を受けた WalkerS は次のようになります。 Figure01 と同様に、WalkerS は動き回るのではなく、机の後ろに立って一連のタスクを完了します。人間の命令に従って服をたたむことができる

Linux でサービスを再起動する正しい方法は何ですか? Linux システムを使用していると、特定のサービスを再起動する必要がある状況がよく発生しますが、サービスの再起動時に実際にサービスが停止しない、または開始しないなどの問題が発生することがあります。したがって、サービスを再起動する正しい方法を習得することが非常に重要です。 Linux では、通常、systemctl コマンドを使用してシステム サービスを管理できます。 systemctl コマンドは systemd システム マネージャーの一部です

以下の 10 種類の人型ロボットが私たちの未来を形作ります。 1. ASIMO: ホンダが開発した ASIMO は、最もよく知られている人型ロボットの 1 つです。身長 4 フィート、体重 119 ポンドの ASIMO には、高度なセンサーと人工知能機能が装備されており、複雑な環境をナビゲートし、人間と対話することができます。 ASIMO は多用途性を備えているため、障害を持つ人々の支援からイベントでのプレゼンテーションまで、さまざまなタスクに適しています。 2. Pepper: ソフトバンクロボティクスによって作成された Pepper は、人間の社会的パートナーになることを目指しています。表情豊かな顔と感情を認識する能力を備えた Pepper は、会話に参加したり、小売現場で手助けしたり、教育サポートを提供したりすることもできます。コショウ

掃除ロボットやモップ拭きロボットは、近年消費者の間で最も人気のあるスマート家電製品の 1 つです。操作の利便性、あるいは操作の必要がないことで、怠け者は手を解放し、消費者は日常の家事から「解放」され、好きなことにもっと時間を費やすことができるようになり、生活の質が向上します。この流行に乗って、市場に出回っているほぼすべての家電ブランドが独自の掃除ロボットや拭き掃除ロボットを製造しており、掃除ロボット市場全体が非常に活発になっています。しかし、市場の急速な拡大は必然的に隠れた危険をもたらします。多くのメーカーがより多くの市場シェアを急速に占有するために機械の海戦術を使用し、その結果、アップグレードポイントのない多くの新製品が生まれるとも言われています。まさに「マトリョーシカ」モデルです。ただし、すべての掃除ロボットやモップロボットがそうであるわけではありません。
