> 기술 주변기기 > 일체 포함 > CCIG2024에서 Hehe 정보 문서 분석 기술로 대형 모델 코퍼스의 '기근' 문제를 해결했습니다.

CCIG2024에서 Hehe 정보 문서 분석 기술로 대형 모델 코퍼스의 '기근' 문제를 해결했습니다.

WBOY
풀어 주다: 2024-05-31 22:28:49
원래의
832명이 탐색했습니다.

2024년 중국 이미지 및 그래픽 컨퍼런스가 고대 수도 시안에서 성대하게 개막됩니다. 이번 컨퍼런스는 중국영상그래픽학회가 주최하고 공군의과대학, 시안교통대학, 서북이공대학이 주최했으며, 20개 이상의 포럼과 100개 이상의 성과를 통해 생산 인공지능, 대형 모델, 기계 학습, 두뇌 영감 컴퓨팅 및 기타 이미지 그래픽 분야.

대형 모델 기술은 많은 산업 분야의 이미지 처리 요구 사항을 충족하기 위해 기술 혁신과 함께 널리 사용되고 있습니다. 회의 기간 동안 CSIG 문서 이미지 분석 및 인식 특별위원회와 Shanghai Hehe Information Technology Co., Ltd.(이하 "Hehe Xinheng")는 남측 대표와 함께 "대형 모델 기술 및 그 프론티어 응용" 포럼을 공동 주최했습니다. 중국 공과대학과 상하이 자오퉁 대학교, 칭화 대학교, 푸단 대학교, 상하이 인공 지능 연구소, 허허신 대학교 및 기타 대학, 연구 기관 및 기업의 전문가 대표자들이 대형 모델 기술의 개발 및 적용에 관해 심도 있는 논의를 진행했습니다. 이미지 필드.

CCIG2024에서 Hehe 정보 문서 분석 기술로 대형 모델 코퍼스의 기근 문제를 해결했습니다.

캡션: 업계 추종자들은 "대형 모델 기술 및 그 프론티어 응용 프로그램" 포럼 공유를 듣습니다.

대형 모델의 '급증' 뒤에는 모델 훈련에 대한 '에너지'가 있습니다. 코퍼스 숨겨진 위기". 인공지능 연구자 그룹인 Epoch Research는 2026년까지 기계 학습 데이터 세트의 "고품질 언어 데이터"가 고갈될 수 있다고 추정합니다. 이 단계에서는 서적, 논문, 연구 보고서, 기업 문서 및 기타 문서에 대량의 고품질 코퍼스 데이터가 존재합니다. 복잡한 레이아웃 구조로 인해 학습 코퍼스가 제한됩니다. 대형 모델 처리 및 대형 모델 문서 질의응답에 대한 응용 기능입니다. 문서 구문 분석기술의 발전으로 기계는 문서의 여러 요소를 식별하고 텍스트, 테이블, 이미지 등을 더 효과적으로 처리할 수 있습니다. 다양한 유형의 데이터, 문서 읽기 순서 복원, 대규모 모델 훈련 및 애플리케이션을 가속화하세요. 포럼에서 창양(Chang Yang) Hehe 정보 지능형 혁신 사업부 R&D 이사는 문서 분석 분야의 Hehe 정보 지능형 문서 처리 기술 작업을 공유하여 참가자들에게 새로운 기술적 관점을 제시했습니다.

"문서 파싱의 어려움은 문서의 다양한 요소를 정확하게 식별하고 이들 요소 간의 논리적 관계를 이해하는 방법입니다. '물리적 레이아웃 분석'에 주의해야 합니다. and ' 논리적 레이아웃 분석 ' " Chang Yang에 따르면 물리적 레이아웃 분석은 시각적 특징과 문서 레이아웃에 중점을 둡니다. 주요 작업은 관련성이 높은 텍스트를 단락, 테이블 등. 모델링을 위해 대상 감지 작업을 선택하고 회귀 기반의 단일 단계 감지 모델을 사용하여 문서의 다양한 레이아웃 방법을 얻습니다. 논리적 레이아웃 분석은 의미 분석에 중점을 둡니다. 주요 작업은 의미 체계에 따라 모델링된 다양한 텍스트 블록을 결합하는 것입니다. 예를 들어 의미 계층 관계를 통해 디렉토리 트리 구조를 형성합니다.

문서 파싱 기술에서 문서 요소 감지, 텍스트 테이블 인식, 문서 레이아웃 분석, 읽기 순서 복원 등의 작업에는 레이아웃 요소와 전체 레이아웃 판단이 포함됩니다. 문서 처리 분야의 일반적인 기술적 어려움. 10년 이상의 기술 축적을 통해 히히정보는 전자파일분석, 스캔파일이미지처리, 텍스트인식, 테이블인식, 레이아웃분석, 레이아웃복원을 오픈하였습니다. 조판 레이아웃 및 기타 문서 지능형 처리 프로세스는 전자 문서 스캔에 직면하여 텍스트, 표, 무선 표, 교차 페이지 표, 머리글, 바닥글을 유연하게 식별할 수 있습니다. 수식, 이미지, 순서도 및 기타 레이아웃 요소를 정확하게 문서 읽기 순서를 복원하고 정확한 교육 자료와 문서질문 및 답변 응용 프로그램경험을 제공합니다. 대형 모델필드 .


CCIG2024에서 Hehe 정보 문서 분석 기술로 대형 모델 코퍼스의 기근 문제를 해결했습니다.

캡션: 지능형 문서 처리 기술을 경험하기 위해 줄을 선 대학 연구원과 학생들

"연구 중에 실제 문서에는 매우 다양한 레이아웃 유형이 있다는 사실을 발견했습니다. "Chang Yang은 최근 몇 년 동안 개방형 어휘 객체 탐지(OVD), 시각적 의미 정렬(Alignment) 및 생성 모델과 같은 최첨단 개발이 새로운 측면을 가져올 것이라고 말했습니다. 레이아웃 분석 연구 아이디어를 바탕으로 Hehe 정보 기술 팀은 지능형 문서 처리 분야를 계속 탐구하여 새로운 기술이 업계에서 더 빠르게 가치를 창출할 수 있도록 할 것입니다.

위 내용은 CCIG2024에서 Hehe 정보 문서 분석 기술로 대형 모델 코퍼스의 '기근' 문제를 해결했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:jiqizhixin.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿