Au CCIG2024, la technologie d'analyse de documents Hehe Information résout le problème de la « famine

Au CCIG2024, la technologie d'analyse de documents Hehe Information résout le problème de la « famine » des corpus de grands modèles

WBOY

Libérer： 2024-05-31 22:28:49

original

839 Les gens l'ont consulté

En 2024, la Conférence chinoise sur l'image et le graphisme s'ouvrira en grande pompe dans l'ancienne capitale de Xi'an. Cette conférence a été organisée par la Société chinoise d'image et de graphisme et par l'Université médicale de l'Air Force, l'Université Jiaotong de Xi'an et l'Université polytechnique du Nord-Ouest. À travers plus de 20 forums et plus de 100 réalisations, elle s'est concentrée sur l'affichage de l'intelligence artificielle de production. les grands modèles et l'apprentissage automatique, l'informatique inspirée du cerveau et d'autres domaines du graphisme.

La technologie des grands modèles est largement utilisée avec l'innovation technologique pour répondre aux besoins de traitement d'image de nombreuses industries. Au cours de la conférence, le Comité spécial d'analyse et de reconnaissance d'images de documents du CSIG et Shanghai Hehe Information Technology Co., Ltd. (dénommé « Hehe Xinheng ») ont organisé conjointement le forum « La technologie des grands modèles et ses applications frontières », avec des représentants du Sud L'Université de technologie de Chine et des représentants d'experts de l'Université Jiao Tong de Shanghai, de l'Université Tsinghua, de l'Université Fudan, du Laboratoire d'intelligence artificielle de Shanghai, de l'Université Hehexin et d'autres universités, instituts de recherche et entreprises ont mené des discussions approfondies sur le développement et l'application de la technologie des grands modèles dans le champ d’image.

Au CCIG2024, la technologie danalyse de documents Hehe Information résout le problème de la « famine » des corpus de grands modèles

Légende : Les adeptes de l'industrie écoutent le partage sur le forum "La technologie des grands modèles et ses applications frontières"

Derrière la "déferlante" des grands modèles, il y a une "énergie" autour de la formation des modèles crise cachée du corpus". Epoch Research, un groupe de chercheurs en intelligence artificielle, estime que les ensembles de données d'apprentissage automatique pourraient manquer de « données linguistiques de haute qualité » d'ici 2026. À ce stade, une grande quantité de données de corpus de haute qualité existe dans livres, articles, rapports de recherche, documents d'entreprise et autres documents. La structure complexe restreint le corpus de formation. de grands modèles Capacités d'application pour le traitement et les questions et réponses de documents de grands modèles. Les progrès de la technologie d'analyse de documents permettent aux machines d'identifier plusieurs éléments dans les documents, de mieux traiter le texte, les tableaux, les images, etc. plusieurs types de données, restaurer l'ordre de lecture des documents, Accélérez la formation et l'application de grands modèles. Lors du forum, Chang Yang, directeur R&D de la division Hehe Information Intelligent Innovation, a partagé les travaux de la technologie de traitement intelligent des documents de Hehe Information dans le domaine de analyse de documents, apportant une nouvelle perspective technique aux participants.

"La difficulté de l'analyse de documents est de savoir comment identifier avec précision les différents éléments du document et comprendre la relation logique entre eux. Vous devez faire attention à 'analyse de la disposition physique' et ' Analyse de la mise en page logique. ' " Selon Chang Yang, l'analyse de la mise en page physique se concentre sur les caractéristiques visuelles et la mise en page du document. La tâche principale est d'agréger un texte très pertinent dans une zone, comme un paragraphe, une table, etc. La tâche de détection de cible est sélectionnée pour la modélisation, et un modèle de détection en une seule étape basé sur la régression est utilisé pour l'ajustement, de manière à obtenir diverses méthodes de mise en page dans le document, l'analyse de la mise en page logique se concentre sur l'analyse sémantique ; fonctionnalités, et la tâche principale est de combiner différents blocs de texte sont modélisés selon la sémantique, par exemple, à travers des relations hiérarchiques sémantiques, formant une structure arborescence de répertoires.

Dans la technologie d'analyse de documents, des tâches telles que la détection d'éléments de document, la reconnaissance de tables de texte, la mise en page analyse de documents et la restauration de l'ordre de lecture impliquent le jugement des éléments de mise en page et de la mise en page globale, ce qui est le domaine du traitement des documents. Difficultés techniques typiques. Grâce à plus de dix ans d'accumulation technique, Hehe Information a ouvert analyse de fichiers électroniques, fichier numérisétraitement d'image, reconnaissance de texte, reconnaissance de table, analyse de mise en page, restauration de mise en page et Mise en page de composition et d'autres processus de traitement intelligent des documents, face aux documents électroniques et numérisations, peuvent identifier de manière flexible le texte, les tableaux, les tableaux sans fil, les tableaux interpages, les en-têtes, les pieds de page, des formules, des images, des organigrammes et d'autres éléments de mise en page, restaurent avec précision l'ordre de lecture des documents et fournissent corpus de formation précis et documentapplication de questions et réponsesexpérience pour le grand modèle champ .

Au CCIG2024, la technologie danalyse de documents Hehe Information résout le problème de la « famine » des corpus de grands modèles

Légende : Des chercheurs et des étudiants universitaires font la queue pour expérimenter une technologie de traitement intelligent des documents

"Au cours de nos recherches, nous avons découvert que les documents du monde réel ont des types de mise en page extrêmement riches et qu'il est impossible de simplement les utiliser. une seule colonne. "Double colonne, trois colonnes et d'autres catégories à définir." Chang Yang a déclaré que ces dernières années, des développements de pointe tels que la détection d'objets à vocabulaire ouvert (OVD), l'alignement sémantique visuel (Alignement) et les modèles génératifs seront réalisés. apporter de nouveaux aspects à l'analyse de la mise en page. Sur la base des idées de recherche, l'équipe de technologie de l'information de Hehe continuera également à se plonger dans le domaine du traitement intelligent des documents, afin que les nouvelles technologies puissent générer plus rapidement de la valeur dans l'industrie.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!