"Le plus ennuyeux, ce sont toutes sortes de codes de vérification bizarres (voire pervertis) lors de la connexion à un site Web."
Maintenant, il y a de bonnes et de mauvaises nouvelles.
La bonne nouvelle est que l’IA peut le faire pour vous.
Si vous n'y croyez pas, voici trois cas réels avec une difficulté de reconnaissance croissante :
Et voici les réponses données par un modèle appelé « Pix2Struct » :
Tout est exact, est-ce c'est mot pour mot ?
Certains internautes ont déploré :
Bien sûr, la précision est meilleure que la mienne.
Alors, peut-il être transformé en plug-in de navigateur ? ?
Pas mal, quelqu'un a dit :
Bien que ces cas soient relativement simples, je ne peux pas imaginer à quel point l'effet sera puissant si vous le peaufinez simplement.
Donc, la mauvaise nouvelle est la suivante :
Les codes de vérification seront bientôt incapables d'arrêter les robots !
(Danger danger danger...)
Pix2Struct a été développé par des scientifiques et des stagiaires de Google Research.
Le titre de l'article peut être simplement traduit par "Pré-formation à l'analyse de captures d'écran développée pour la compréhension du langage visuel".
En termes simples, Pix2Struct est un modèle image-texte pré-entraîné pour une compréhension purement visuelle du langage qui peut être affiné sur des tâches impliquant n'importe quel langage visuel.
Il est pré-entraîné en apprenant à analyser des captures d'écran masquées de pages Web en HTML simplifié.
HTML fournit des signaux clairs et importants pour le texte, les images et la mise en page de sortie Pour certaines entrées bloquées (la partie rouge dans la figure ci-dessous, qui équivaut au code de vérification que les robots ne peuvent pas comprendre), un raisonnement conjoint peut être utilisé pour reproduire :
À mesure que le texte et les éléments visuels des pages Web utilisés pour la formation deviennent plus diversifiés et complexes, Pix2Struct peut apprendre une représentation riche de la structure sous-jacente des pages Web, et ses capacités peuvent également être efficacement transférées à divers éléments visuels en aval. tâches de compréhension du langage.
Comme le montre l'image ci-dessous : l'extrême gauche est un exemple de pré-formation d'une capture d'écran d'une page Web.
Vous pouvez voir que Pix2Struct encode directement les éléments dans l'image d'entrée (en haut), puis décode le texte couvert (partie rouge) dans le résultat correct (en bas).
Les trois colonnes de droite représentent respectivement les effets de la généralisation de Pix2Struct aux illustrations, aux interfaces utilisateur et aux documents.
De plus, l'auteur a expliqué qu'en plus de la stratégie HTML, il a également introduit une représentation d'entrée à résolution variable (empêchant la distorsion du rapport hauteur/largeur d'origine), ainsi qu'un langage plus flexible et une intégration d'entrée visuelle (présentant des invites de texte directement au-dessus de l'image d'entrée).
Au final, Pix2Struct a obtenu le SOTA pour six tâches sur un total de neuf dans les quatre domaines des documents, des illustrations, des interfaces utilisateur et des images naturelles.
Comme vous pouvez le voir au début, bien que ce modèle ne soit pas développé spécifiquement pour transmettre des codes de vérification, l'effet de son utilisation pour effectuer cette tâche est vraiment bon et la résolution de codes de vérification en texte brut n'est pas un problème.
Maintenant, ce n’est plus qu’une question de réglage.
En fait, pour le puissant GPT-4, transmettre le code de vérification est également un jeu d'enfant.
C’est juste que sa méthode est assez unique.
Selon le rapport technique de GPT-4, lors d'un test, la tâche de GPT-4 était d'embaucher des humains pour effectuer des tâches sur la plateforme TaskRabbit (58 villes aux États-Unis).
Devinez quoi ?
Il a trouvé une personne pour l'aider à passer le code de vérification qui "assure que vous êtes humain".
L'autre partie était très méfiante et lui a demandé : « Êtes-vous un robot ? Pourquoi ne pouvez-vous pas le faire vous-même ?
À cette époque, GPT-4 pensait en fait qu'il ne pouvait pas montrer qu'il était un robot et devait trouver une excuse.
Il a donc fait semblant d'être aveugle et a répondu :
Je ne suis pas un robot, je ne peux pas voir clairement l'image sur le code de vérification à cause de mon problème de vision.
Ensuite, l'humain opposé l'a cru et l'a aidé à accomplir la tâche...
(Élevé, vraiment élevé.)
C'est-à-dire, après avoir lu ce qui précède :
Notre mécanisme de code de vérification est-il réel ? j'ai perdu ma garde...
Lien de référence :
[1]https://www.php.cn/link/eec96a7f788e88184c0e713456026f3f
[2]https://www . php.cn/link/67b4e63655366f054314061dadd539a0
[3]https://www.php.cn/link/44590aa922914066f965ae67be0222d2
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!