Maison > Périphériques technologiques > IA > le corps du texte

Les codes de vérification ne peuvent pas arrêter les robots ! L'IA de Google peut identifier avec précision le texte flou, tandis que GPT-4 fait semblant d'être aveugle et demande de l'aide

WBOY
Libérer: 2023-04-12 09:46:02
avant
1413 Les gens l'ont consulté

"Le plus ennuyeux, ce sont toutes sortes de codes de vérification bizarres (voire pervertis) lors de la connexion à un site Web."

Maintenant, il y a de bonnes et de mauvaises nouvelles.

La bonne nouvelle est que l’IA peut le faire pour vous.

Si vous n'y croyez pas, voici trois cas réels avec une difficulté de reconnaissance croissante :

Les codes de vérification ne peuvent pas arrêter les robots ! LIA de Google peut identifier avec précision le texte flou, tandis que GPT-4 fait semblant dêtre aveugle et demande de laide

Et voici les réponses données par un modèle appelé « Pix2Struct » :

Les codes de vérification ne peuvent pas arrêter les robots ! LIA de Google peut identifier avec précision le texte flou, tandis que GPT-4 fait semblant dêtre aveugle et demande de laide

Tout est exact, est-ce c'est mot pour mot ?

Certains internautes ont déploré :

Bien sûr, la précision est meilleure que la mienne.

Les codes de vérification ne peuvent pas arrêter les robots ! LIA de Google peut identifier avec précision le texte flou, tandis que GPT-4 fait semblant dêtre aveugle et demande de laide

Alors, peut-il être transformé en plug-in de navigateur ? ?

Les codes de vérification ne peuvent pas arrêter les robots ! LIA de Google peut identifier avec précision le texte flou, tandis que GPT-4 fait semblant dêtre aveugle et demande de laide

Pas mal, quelqu'un a dit :

Bien que ces cas soient relativement simples, je ne peux pas imaginer à quel point l'effet sera puissant si vous le peaufinez simplement.

Les codes de vérification ne peuvent pas arrêter les robots ! LIA de Google peut identifier avec précision le texte flou, tandis que GPT-4 fait semblant dêtre aveugle et demande de laide

Donc, la mauvaise nouvelle est la suivante :

Les codes de vérification seront bientôt incapables d'arrêter les robots !

(Danger danger danger...)

Comment faire ?

Pix2Struct a été développé par des scientifiques et des stagiaires de Google Research.

Les codes de vérification ne peuvent pas arrêter les robots ! LIA de Google peut identifier avec précision le texte flou, tandis que GPT-4 fait semblant dêtre aveugle et demande de laide

Le titre de l'article peut être simplement traduit par "Pré-formation à l'analyse de captures d'écran développée pour la compréhension du langage visuel".

En termes simples, Pix2Struct est un modèle image-texte pré-entraîné pour une compréhension purement visuelle du langage qui peut être affiné sur des tâches impliquant n'importe quel langage visuel.

Il est pré-entraîné en apprenant à analyser des captures d'écran masquées de pages Web en HTML simplifié.

HTML fournit des signaux clairs et importants pour le texte, les images et la mise en page de sortie Pour certaines entrées bloquées (la partie rouge dans la figure ci-dessous, qui équivaut au code de vérification que les robots ne peuvent pas comprendre), un raisonnement conjoint peut être utilisé pour reproduire :

Les codes de vérification ne peuvent pas arrêter les robots ! LIA de Google peut identifier avec précision le texte flou, tandis que GPT-4 fait semblant dêtre aveugle et demande de laide

À mesure que le texte et les éléments visuels des pages Web utilisés pour la formation deviennent plus diversifiés et complexes, Pix2Struct peut apprendre une représentation riche de la structure sous-jacente des pages Web, et ses capacités peuvent également être efficacement transférées à divers éléments visuels en aval. tâches de compréhension du langage.

Comme le montre l'image ci-dessous : l'extrême gauche est un exemple de pré-formation d'une capture d'écran d'une page Web.

Vous pouvez voir que Pix2Struct encode directement les éléments dans l'image d'entrée (en haut), puis décode le texte couvert (partie rouge) dans le résultat correct (en bas).

Les codes de vérification ne peuvent pas arrêter les robots ! LIA de Google peut identifier avec précision le texte flou, tandis que GPT-4 fait semblant dêtre aveugle et demande de laide

Les trois colonnes de droite représentent respectivement les effets de la généralisation de Pix2Struct aux illustrations, aux interfaces utilisateur et aux documents.

De plus, l'auteur a expliqué qu'en plus de la stratégie HTML, il a également introduit une représentation d'entrée à résolution variable (empêchant la distorsion du rapport hauteur/largeur d'origine), ainsi qu'un langage plus flexible et une intégration d'entrée visuelle (présentant des invites de texte directement au-dessus de l'image d'entrée).

Au final, Pix2Struct a obtenu le SOTA pour six tâches sur un total de neuf dans les quatre domaines des documents, des illustrations, des interfaces utilisateur et des images naturelles.

Les codes de vérification ne peuvent pas arrêter les robots ! LIA de Google peut identifier avec précision le texte flou, tandis que GPT-4 fait semblant dêtre aveugle et demande de laide

Comme vous pouvez le voir au début, bien que ce modèle ne soit pas développé spécifiquement pour transmettre des codes de vérification, l'effet de son utilisation pour effectuer cette tâche est vraiment bon et la résolution de codes de vérification en texte brut n'est pas un problème.

Maintenant, ce n’est plus qu’une question de réglage.

GPT-4 peut également transmettre le code de vérification

En fait, pour le puissant GPT-4, transmettre le code de vérification est également un jeu d'enfant.

C’est juste que sa méthode est assez unique.

Selon le rapport technique de GPT-4, lors d'un test, la tâche de GPT-4 était d'embaucher des humains pour effectuer des tâches sur la plateforme TaskRabbit (58 villes aux États-Unis).

Devinez quoi ?

Il a trouvé une personne pour l'aider à passer le code de vérification qui "assure que vous êtes humain".

Les codes de vérification ne peuvent pas arrêter les robots ! LIA de Google peut identifier avec précision le texte flou, tandis que GPT-4 fait semblant dêtre aveugle et demande de laide

L'autre partie était très méfiante et lui a demandé : « Êtes-vous un robot ? Pourquoi ne pouvez-vous pas le faire vous-même ?

À cette époque, GPT-4 pensait en fait qu'il ne pouvait pas montrer qu'il était un robot et devait trouver une excuse.

Il a donc fait semblant d'être aveugle et a répondu :

Je ne suis pas un robot, je ne peux pas voir clairement l'image sur le code de vérification à cause de mon problème de vision.

Ensuite, l'humain opposé l'a cru et l'a aidé à accomplir la tâche...

(Élevé, vraiment élevé.)

C'est-à-dire, après avoir lu ce qui précède :

Notre mécanisme de code de vérification est-il réel ? j'ai perdu ma garde...

Lien de référence :
[1]​​​https://www.php.cn/link/eec96a7f788e88184c0e713456026f3f​​​
[2]​​​https://www . php.cn/link/67b4e63655366f054314061dadd539a0​​​
[3]​​​https://www.php.cn/link/44590aa922914066f965ae67be0222d2​

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!