Maison > développement back-end > Tutoriel Python > Approches pratiques de l'extraction d'informations clés (partie 2)

Approches pratiques de l'extraction d'informations clés (partie 2)

Linda Hamilton
Libérer: 2025-01-16 20:13:16
original
437 Les gens l'ont consulté

Extraction d'informations clés réelles (partie 2) : affiner les performances LLM open source

Dans la continuité de la première partie, ce guide explore l'utilisation de modèles LLM (Large Language Models) open source – Qwen2 2B et LLaMA 3.1 – pour l'extraction des informations de facturation, en se concentrant sur la résolution des problèmes de confidentialité des données et des limitations matérielles (RTX 3060 avec 12 Go de VRAM).

Pourquoi Qwen2 2B et LLaMA 3.1 ?

Le choix de ces modèles a été motivé par des contraintes de ressources. Qwen2-VL-2B-Instruct, en raison de sa taille efficace, a été préféré aux modèles 7B plus grands. LLaMA 3.1 (8B), accessible via Ollama, a été sélectionné pour sa compréhension optimisée du contexte long. D'autres modèles, tels que Qwen2 dans Ollama (manque de support d'image) et LLaVA (capacités multilingues insuffisantes), ont été jugés inadaptés.

Cette stratégie à deux modèles exploite la force de Qwen2 en matière d'extraction d'informations clés générales et la gestion supérieure des contextes longs et la cohérence des sorties JSON de LLaMA 3.1, en particulier pour les documents multilingues. Qwen2 extrait dans un premier temps les informations brutes, que LLaMA 3.1 affine et structure ensuite dans un format JSON standardisé. PaddleOCR, comme dans la partie 1, améliore les capacités de vision de Qwen2.

Un exemple de facture japonaise

Une facture japonaise a été utilisée comme cas de test. Le processus OCR initial (incorporant la détection de langue et PaddleOCR) a donné le texte reconnu suivant :

<code>Recognized Text: 
{'ori_text': '根岸 東急ストア TEL 045-752-6131 領収証 [TOP2C!UbO J3カード」 クレヅッ 卜でのお支払なら 200円で3ボイン卜 お得なカード! 是非こ入会下さい。 2013年09月02日(月) レジNO. 0102 NOO07さ と う 001131 スダフエウ卜チーネ 23 単198 1396 003271 オインイ年 ユウ10 4238 000805 ソマ一ク スモー一クサーモン 1298 003276 タカナン ナマクリーム35 1298 001093 ヌテラ スフレクト 1398 000335 バナサ 138 000112 アボト 2つ 単158 1316 A000191 タマネキ 429 合計 2,111 (内消費税等 100 現金 10001 お預り合計 110 001 お釣り 7 890', 
'ori_language': 'ja', 
'text': 'Negishi Tokyu Store TEL 045-752-6131 Receipt [TOP2C!UbO J3 Card] If you pay with a credit card, you can get 3 points for 200 yen.A great value card!Please join us. Monday, September 2, 2013 Cashier No. 0102 NOO07 Satou 001131 Sudafue Bucine 23 Single 198 1396 003271 Oinyen Yu 10 4238 000805 Soma Iku Smo Iku Salmon 1298 003276 Takanan Nama Cream 35 1 298 001093 Nutella Sprect 1398 000335 Banasa 138 000112 Aboto 2 AA 158 1316 A000191 Eggplant 429 Total 2,111 (including consumption tax, etc. 100 Cash 10001 Total deposited 110 001 Change 7 890', 
'language': 'en',}</code>
Copier après la connexion

Practical Approaches to Key Information Extraction (Part 2)

Ceci a été comparé à une référence de ChatGPT, démontrant les performances supérieures de ChatGPT lors de ce test initial.

Résultats Qwen2 2B (autonome)

L'utilisation indépendante de Qwen2 a révélé ses limites. La sortie JSON était incomplète et inexacte dans plusieurs domaines, soulignant ses difficultés avec un formatage JSON cohérent et un traitement de contexte long.

Approche combinée Qwen2 et LLaMA 3.1

L'utilisation de LLaMA 3.1 comme post-processeur pour affiner la sortie de Qwen2 a donné des résultats améliorés, mais toujours imparfaits. Même si certains champs clés ont été extraits avec précision, les informations détaillées sur les articles sont restées problématiques.

Améliorations futures : réglage fin de Qwen2VL

La partie suivante détaillera le réglage fin du modèle Qwen2VL à l'aide d'un ensemble de données de reçus, dans le but d'améliorer considérablement à la fois la précision et la vitesse de traitement pour cette tâche spécialisée.

Conclusion

Cette expérience présente le potentiel et les limites des LLM open source pour l'extraction d'informations clés dans le monde réel. Bien qu'une approche combinée offre des améliorations par rapport à l'utilisation d'un modèle unique, un affinement supplémentaire, notamment via un réglage fin du modèle, est nécessaire pour obtenir des performances optimales. L'accent mis sur la confidentialité des données et l'utilisation efficace des ressources reste un avantage clé de cette approche open source.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal