GPT-4가 그림과 텍스트를 읽는 법을 배우면 생산성 혁명은 멈출 수 없습니다
"지능형 이미지 및 텍스트 처리 기술과 멀티시나리오 응용 기술"을 중심으로 많은 학계와 업계 연구진이 심도 있는 논의를 진행했습니다.
"너무 복잡해요!"
GPT-4와 Microsoft Microsoft 365 Copilot After를 경험한 후 계속되는 폭격으로 인해 많은 사람들이 이런 느낌을 갖고 있다고 생각합니다.
GPT-3.5와 비교하여 GPT-4는 여러 측면에서 상당한 개선을 이루었습니다. 예를 들어 모의 변호사 시험에서는 원래의 상호 10%에서 긍정적인 10%로 발전했습니다. 물론 일반 사람들은 이러한 전문 시험에 대해 전혀 알지 못할 수도 있습니다. 하지만 사진을 보여드리면 개선이 얼마나 무서운지 아실 겁니다.
출처: Tang Jie, 칭화대학교 컴퓨터과학과 교수, 웨이보. 링크: https://m.weibo.cn/detail/4880331053992765
GPT-4는 그림과 텍스트를 기반으로 문제를 단계별로 해결하는 데 필요한 물리학 문제입니다. 업그레이드 전 ChatGPT로) 종속 모델)에는 기능이 없습니다. 한편, GPT-3.5는 텍스트를 이해하도록 훈련을 받았을 뿐, 질문의 그림을 이해할 수는 없습니다. 반면, GPT-3.5의 문제 해결 능력도 매우 약해 같은 우리에 갇힌 닭과 토끼가 함께 있으면 곤란할 정도다. 하지만 이번에는 두 가지 문제가 모두 아름답게 해결된 것 같습니다.
모두가 이것이 큰 일이라고 생각했을 때 Microsoft는 또 다른 블록버스터인 GPT-4를 출시했습니다. 이러한 기능은 Microsoft 365 Copilot이라는 새로운 응용 프로그램에 통합되었습니다. 강력한 이미지 및 텍스트 처리 기능을 갖춘 Microsoft 365 Copilot은 다양한 문서 작성을 도울 수 있을 뿐만 아니라 문서를 쉽게 PPT로 변환하고 Excel 데이터를 자동으로 차트로 요약합니다...
기술 데뷔부터 제품 출시까지, OpenAI와 Microsoft는 대중에게 응답할 수 있는 시간을 이틀밖에 주지 않았습니다. 하룻밤 사이에 새로운 생산성 혁명이 도래했습니다.
변화가 너무 빨리 일어나기 때문에 학계와 산업계는 다소 혼란스러운 'FOMO(Fear of Missing Out)' 상태에 빠져 있습니다. 현재 모든 사람들은 답을 알고 싶어합니다. 이 물결에서 우리는 무엇을 할 수 있습니까? 어떤 기회가 있나요? Microsoft가 출시한 데모에서 지능형 이미지 및 텍스트 처리라는 분명한 돌파구를 찾을 수 있습니다.
실제 시나리오에서는 구조화되지 않은 데이터를 차트로 정리하고, 차트를 기반으로 보고서를 작성하고, 방대한 그래픽 정보에서 유용한 정보를 추출하는 등 다양한 산업의 많은 작업이 그래픽 및 텍스트 처리와 관련되어 있습니다. 이 때문에 이 혁명의 영향은 많은 사람들이 상상하는 것보다 훨씬 더 심오할 수 있습니다. OpenAI와 Wharton School의 최근 블록버스터 논문은 이러한 영향을 예측합니다. 미국 인력의 약 80%가 GPT 도입으로 인해 업무 작업의 최소 10%가 영향을 받을 수 있으며, 약 19%의 근로자가 최소한 작업의 50%가 영향을 받습니다. 작업의 상당 부분이 그래픽 및 텍스트 지능과 관련되어 있음을 예상할 수 있습니다.
이러한 진입점에서 어떤 연구 노력이나 엔지니어링 노력을 탐구할 가치가 있나요? 최근 중국 이미지 그래픽 협회(CSIG)가 주최하고 Hehe Information과 CSIG 문서 이미지 분석 및 인식 전문위원회가 공동 주최한 CSIG 기업 투어 행사에서 학계와 업계의 많은 연구자들이 "이미지의 지능적인 처리 및 인식"에 중점을 두었습니다. 텍스트' 기술 및 다중 시나리오 응용 기술 '은 이미지 및 텍스트 지능형 처리 분야에 관심이 있는 연구자 및 실무자에게 영감을 줄 수 있는 심도 있는 논의를 진행했습니다.
그래픽 및 텍스트 처리는 기본 비전에서 시작됩니다
앞서 언급했듯이 GPT-4의 그래픽 및 텍스트 처리 기능은 매우 충격적입니다. 위의 물리학 질문 외에도 OpenAI의 기술 보고서는 GPT-4가 종이 그림을 읽도록 하는 것과 같은 다른 예도 인용했습니다.
그러나 이를 위해서는 여전히 수행해야 할 기본 작업이 많이 남아 있을 수 있습니다. 기술이 널리 구현될 수 있도록 하는 기본 비전도 그 중 하나입니다.
기본 비전의 특징은 매우 분명합니다. 입력은 이미지이고 출력도 이미지입니다. 이미지 전처리, 필터링, 복원 및 향상이 모두 이 범주에 속합니다.
"시력의 기본 이론과 방법은 휴대폰, 의료 영상 분석, 보안 모니터링 등 다양한 분야에서 널리 사용되고 있습니다. 이미지와 영상 콘텐츠의 품질을 중시하는 기업과 기관은 시력에 대한 연구에 주목해야 합니다. 기본 비전의 방향. 기본 비전이 제대로 이루어지지 않으면 많은 고급 비전 시스템(예: 감지, 인식, 이해)을 실제로 구현할 수 없습니다." Hehe 이미지 알고리즘 R&D 이사 Guo Fengjun CSIG Enterprise Tour 이벤트 중에 언급된 정보입니다.
이 문장을 어떻게 이해하나요? 몇 가지 예를 살펴보겠습니다.OpenAI 및 Microsoft 데모에서 보여준 이상적인 상황과 달리 실제 이미지와 텍스트는 항상 변형, 그림자, 모아레 패턴과 같은 어려운 형태로 존재하므로 후속 인식과 이해가 더욱 어려워집니다. Guo Fengjun 팀의 목표는 초기 단계에서 이러한 문제를 해결하는 것입니다.
이를 위해 이 작업을 관심 영역(RoI) 추출, 변형 보정, 이미지 복원(예: 그림자 제거, 모아레 패턴 등), 품질 향상(예: 선명도 향상, 선명도 향상) 등 여러 모듈로 나누었습니다.
이러한 기술을 결합하여 매우 흥미로운 응용 프로그램을 만들 수 있습니다. 수년간의 연구 끝에 이 모듈은 상당히 좋은 결과를 얻었으며 관련 기술은 회사의 지능형 텍스트 인식 제품인 "스캐너"에 적용되었습니다.
단어부터 표, 장까지 그림과 텍스트를 단계별로 읽어보세요
이미지가 처리된 후 다음 단계는 그림과 텍스트의 내용을 식별하는 것입니다. 이 작업 역시 매우 세밀한 작업이며 "단어" 단위로 수행될 수도 있습니다.
많은 실제 시나리오에서 문자가 반드시 표준화된 인쇄 형식으로 표시되지 않을 수 있으므로 문자 인식에 어려움이 따릅니다.
교육 현장을 예로 들어보겠습니다. 당신이 교사라고 가정하면 AI가 모든 학생들의 숙제를 바로잡는 데 직접 도움을 주는 동시에 학생들의 지식 각 부분에 대한 숙달도를 요약하기를 원할 것입니다. 잘못된 질문, 오타 및 수정 제안도 제공하는 것이 가장 좋습니다. . Du Jun, 중국 과학 기술 대학 음성 및 언어 정보 처리를 위한 국립 공학 연구소 부교수가 이 분야에서 연구하고 있습니다.
구체적으로 부수를 기반으로 한 한자 인식, 생성 및 평가 시스템을 만들었습니다. 왜냐하면 전체 문자 모델링에 비해 부수 조합이 훨씬 적기 때문입니다. 그 중 인식과 생성이 공동으로 최적화되는데, 이는 학생들이 학습할 때 읽고 쓰는 능력과 쓰기 능력이 상호 강화되는 과정과 비슷합니다. 예전에는 대부분의 평가 작업이 문법 수준에 중점을 두었지만, 두준 팀은 이미지에서 바로 오타를 찾아내고, 오류를 자세히 설명할 수 있는 방식을 고안했습니다. 이 방법은 지능형 표시와 같은 시나리오에서 매우 유용합니다.
텍스트 외에도 테이블의 식별과 처리는 실제로 큰 어려움입니다. 왜냐하면 내부 내용을 식별해야 할 뿐만 아니라 이러한 내용 간의 구조적 관계를 명확히 해야 하고, 일부 테이블에는 심지어 테이블이 존재하지 않을 수도 있기 때문입니다. 와이어프레임. 이를 위해 Du Jun 팀은 "첫 번째 세그먼트 후 병합" 방법을 설계했습니다. 즉, 먼저 테이블 이미지를 일련의 기본 그리드로 분할한 다음 병합을 통해 추가 수정을 수행합니다.
두준팀의 '첫 번째 분할 후 병합' 형태 인식 방식.
물론 이 모든 작업은 궁극적으로 장 수준에서 문서를 구조화하고 이해하는 역할을 하게 됩니다. 실제 환경에서 모델이 직면하는 대부분의 문서는 한 페이지 이상(예: 종이)입니다. 이러한 방향에서 Du Jun 팀의 작업은 교차 페이지 문서 요소의 분류 및 교차 페이지 문서 구조 복원에 중점을 두고 있습니다. 그러나 이러한 방법은 다중 레이아웃 시나리오에서 여전히 제한 사항이 있습니다.
대형 모델, 다중 양식, 월드 모델... 미래는 어디에 있습니까?
챕터 수준의 이미지와 텍스트 처리 및 이해에 관해서는 실제로 GPT-4와 멀지 않습니다. Du Jun은 행사에서 "다중 모드 GPT-4가 나온 후 이러한 측면에서 뭔가 할 수 있는지에 대해서도 생각하고 있었습니다"라고 말했습니다. 이미지 및 텍스트 처리 분야의 많은 연구자나 실무자들이 이런 생각을 가지고 있다고 생각합니다.
GPT 모델 시리즈의 목표는 항상 다양성을 향상하고 궁극적으로 일반 인공 지능(AGI)을 달성하기 위해 노력하는 것이었습니다. 이번에 GPT-4가 시연한 강력한 이미지와 텍스트 이해 능력은 이 일반 능력의 중요한 부분이다. 유사한 기능을 갖춘 모델을 만들기 위해 OpenAI는 몇 가지 참고 자료를 제공했지만 많은 미스터리와 해결되지 않은 문제도 남겼습니다.
우선, GPT-4의 성공은 대형 모델+다중 모드 접근이 가능함을 보여줍니다. 그러나 대형 모델에서 어떤 문제를 연구해야 하는지, 다중 모드 모델의 과장된 컴퓨팅 성능 요구 사항을 해결하는 방법은 모두 연구자가 직면한 과제입니다.
첫 번째 질문에는 푸단대학교 컴퓨터과학과 Qiu Xipeng 교수님이 참고할 만한 몇 가지 지침을 주셨습니다. 이전에 OpenAI가 공개한 일부 정보에 따르면 ChatGPT는 상황 내 학습, 사고 사슬, 지침 학습 등 여러 핵심 기술과 분리될 수 없다는 것을 알고 있습니다. Qiu Xipeng은 공유에서 이러한 능력이 어디서 오는지, 어떻게 지속적으로 개선할 수 있는지, 기존 학습 패러다임을 변화시키기 위해 이를 어떻게 사용할지 등 이러한 방향에서 논의해야 할 문제가 여전히 많다고 지적했습니다. 또한, 대규모 대화형 언어 모델을 구축할 때 고려해야 할 역량과 이러한 모델을 현실 세계에 맞추기 위해 고려할 수 있는 연구 방향도 공유했다.
두 번째 질문에는 샤먼대학교의 Nanqiang 특훈교수 Ji Rongrong이 중요한 아이디어를 제시해 주셨습니다. 그는 언어와 시각 사이에는 자연스러운 연결이 있으며 둘 사이의 공동 학습이 일반적인 추세라고 믿습니다. 그러나 이러한 물결 앞에서는 어떤 대학이나 연구실의 힘도 미미하다. 그래서 지금은 자신이 일하고 있는 샤먼대학교를 시작으로 연구원들에게 컴퓨팅 성능을 통합하고 네트워크를 형성하여 대규모 다중 모드 모델을 구축하도록 설득하려고 노력하고 있습니다. 실제로 얼마 전 한 행사에서 과학을 위한 AI에 초점을 맞춘 학자 E Weinan도 비슷한 견해를 표명하면서 각계각층이 "원래의 혁신 방향으로 자원을 공동으로 모으길" 희망했습니다.
그런데 GPT-4가 택한 길은 과연 일반 인공지능으로 이어질까? 일부 연구자들은 이에 대해 회의적이며 Turing Award 수상자 Yann LeCun도 그중 하나입니다. 그는 현재의 대형 모델이 데이터와 컴퓨팅 성능에 대한 수요가 엄청나지만 학습 효율성이 매우 낮다고 믿습니다(예: 자율주행차). 따라서 그는 (현실 세계에 대한 시뮬레이션을 실행하는 것으로 이해될 수 있는) 세계 모델을 학습하는 것이 AGI를 달성하는 열쇠가 될 수 있다고 믿고 "세계 모델"(세계가 어떻게 작동하는지에 대한 내부 모델)이라는 이론을 만들었습니다. 행사에서 상해교통대학교 양샤오강 교수는 이 방향에 대한 자신의 연구를 공유했습니다. 특히 그의 팀은 시각적 직관의 세계 모델(시각적 직관에는 많은 양의 정보가 있기 때문에)에 중점을 두고 비전, 직관, 시간과 공간에 대한 인식을 모델링하려고 노력했습니다. 마지막으로 그는 이러한 유형의 연구에서 수학, 물리학, 정보 인지 및 컴퓨터 분야의 교차점의 중요성도 강조했습니다.
"애벌레는 음식에서 영양분을 추출한 다음 나비로 변합니다. 사람들은 이해를 위해 수십억 개의 단서를 추출했습니다. GPT-4는 인간 나비입니다." 딥 러닝 신부 Geoffrey Hinton이 트윗했습니다. 이것.
현재로서는 이 나비가 얼마나 큰 허리케인을 일으킬지 아무도 예측할 수 없습니다. 그러나 확실히 이것은 아직 완벽한 나비가 아니며 전체 AGI 세계 퍼즐이 아직 완성되지 않았습니다. 모든 연구자와 실무자에게는 여전히 기회가 있습니다.
위 내용은 GPT-4가 그림과 텍스트를 읽는 법을 배우면 생산성 혁명은 멈출 수 없습니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











StableDiffusion3의 논문이 드디어 나왔습니다! 이 모델은 2주 전에 출시되었으며 Sora와 동일한 DiT(DiffusionTransformer) 아키텍처를 사용합니다. 출시되자마자 큰 화제를 불러일으켰습니다. 이전 버전과 비교하여 StableDiffusion3에서 생성된 이미지의 품질이 크게 향상되었습니다. 이제 다중 테마 프롬프트를 지원하고 텍스트 쓰기 효과도 향상되었으며 더 이상 잘못된 문자가 표시되지 않습니다. StabilityAI는 StableDiffusion3이 800M에서 8B 범위의 매개변수 크기를 가진 일련의 모델임을 지적했습니다. 이 매개변수 범위는 모델이 많은 휴대용 장치에서 직접 실행될 수 있어 AI 사용이 크게 줄어든다는 것을 의미합니다.

자율주행 궤적 예측은 차량의 주행 과정에서 발생하는 다양한 데이터를 분석하여 차량의 향후 주행 궤적을 예측하는 것을 의미합니다. 자율주행의 핵심 모듈인 궤도 예측의 품질은 후속 계획 제어에 매우 중요합니다. 궤적 예측 작업은 풍부한 기술 스택을 보유하고 있으며 자율 주행 동적/정적 인식, 고정밀 지도, 차선, 신경망 아키텍처(CNN&GNN&Transformer) 기술 등에 대한 익숙함이 필요합니다. 시작하기가 매우 어렵습니다! 많은 팬들은 가능한 한 빨리 궤도 예측을 시작하여 함정을 피하기를 희망합니다. 오늘은 궤도 예측을 위한 몇 가지 일반적인 문제와 입문 학습 방법을 살펴보겠습니다. 관련 지식 입문 1. 미리보기 논문이 순서대로 되어 있나요? A: 먼저 설문조사를 보세요, p

본 논문에서는 자율 주행에서 다양한 시야각(예: 원근 및 조감도)에서 객체를 정확하게 감지하는 문제, 특히 원근(PV) 공간에서 조감(BEV) 공간으로 기능을 효과적으로 변환하는 방법을 탐구합니다. VT(Visual Transformation) 모듈을 통해 구현됩니다. 기존 방법은 크게 2D에서 3D로, 3D에서 2D로 변환하는 두 가지 전략으로 나뉩니다. 2D에서 3D로의 방법은 깊이 확률을 예측하여 조밀한 2D 특징을 개선하지만, 특히 먼 영역에서는 깊이 예측의 본질적인 불확실성으로 인해 부정확성이 발생할 수 있습니다. 3D에서 2D로의 방법은 일반적으로 3D 쿼리를 사용하여 2D 기능을 샘플링하고 Transformer를 통해 3D와 2D 기능 간의 대응에 대한 주의 가중치를 학습하므로 계산 및 배포 시간이 늘어납니다.

저자 개인 생각 중 일부 자율주행 분야에서는 BEV 기반의 하위 작업/End-to-End 솔루션 개발로 인해 고품질의 다시점 훈련 데이터와 그에 따른 시뮬레이션 장면 구축이 점점 더 중요해지고 있습니다. 현재 작업의 문제점에 대응하여 "고품질"은 세 가지 측면으로 분리될 수 있습니다. 다양한 차원의 롱테일 시나리오(예: 장애물 데이터의 근거리 차량 및 자동차 절단 과정의 정확한 방향 각도) 곡률이 다른 곡선이나 경사로/병합/병합 등 캡처하기 어려운 차선 데이터. 이는 종종 비용이 많이 드는 대량의 데이터 수집과 복잡한 데이터 마이닝 전략에 의존합니다. 3D 진정한 가치 - 매우 일관된 이미지: 현재 BEV 데이터 수집은 센서 설치/보정, 고정밀 지도 및 재구성 알고리즘 자체의 오류에 의해 영향을 받는 경우가 많습니다. 이것이 나를 이끌었다

이 네모난 남자는 눈앞에 있는 '불청객'의 정체를 고민하며 미간을 찌푸리고 있다는 점에 주목해주세요. 알고 보니 그녀는 위험한 상황에 처해 있었고, 이를 깨닫자마자 문제를 해결하기 위한 전략을 찾기 위해 재빨리 정신적 탐색을 시작했습니다. 결국 그녀는 현장을 떠나 가능한 한 빨리 도움을 구하고 즉각적인 조치를 취하기로 결정했습니다. 동시에 반대편에 있는 사람도 그녀와 같은 생각을 하고 있었는데... <마인크래프트>에도 모든 캐릭터가 인공지능에 의해 조종되는 장면이 있었다. 예를 들어 앞서 언급한 소녀는 17세지만 똑똑하고 용감한 택배기사입니다. 그들은 마인크래프트를 배경으로 한 이 작은 마을에서 인간처럼 기억하고 생각하며 살아갈 수 있는 능력을 가지고 있습니다. 그들을 움직이는 것은 아주 새로운 것입니다.

모바일 사진은 우리가 삶의 순간을 포착하고 공유하는 방식을 근본적으로 변화시켰습니다. 이러한 변화에는 스마트폰, 특히 아이폰의 등장이 중요한 역할을 했습니다. 고급 카메라 기술과 사용자 친화적인 편집 기능으로 잘 알려진 iPhone은 아마추어와 숙련된 사진작가 모두에게 최고의 선택이 되었습니다. iOS 17의 출시는 이러한 여정에서 중요한 이정표가 됩니다. Apple의 최신 업데이트는 향상된 사진 편집 기능 세트를 제공하여 사용자에게 일상적인 스냅샷을 시각적으로 매력적이고 예술적으로 풍부한 이미지로 바꿀 수 있는 더욱 강력한 도구 키트를 제공합니다. 이러한 기술 발전은 사진 촬영 과정을 단순화할 뿐만 아니라 창의적인 표현을 위한 새로운 길을 열어 사용자가 사진에 전문적인 터치를 쉽게 추가할 수 있게 해줍니다.

위에 작성됨 & 저자의 개인적인 이해는 이미지 기반 3D 재구성은 입력 이미지 세트에서 객체나 장면의 3D 모양을 추론하는 어려운 작업이라는 것입니다. 학습 기반 방법은 3차원 형상을 직접 추정할 수 있는 능력으로 주목을 받았습니다. 이 리뷰 논문은 새로운, 보이지 않는 뷰 생성을 포함한 최첨단 3D 재구성 기술에 중점을 두고 있습니다. 입력 유형, 모델 구조, 출력 표현 및 훈련 전략을 포함하여 가우스 스플래시 방법의 최근 개발에 대한 개요가 제공됩니다. 해결되지 않은 과제와 앞으로의 방향에 대해서도 논의한다. 해당 분야의 급속한 발전과 3D 재구성 방법을 향상할 수 있는 수많은 기회를 고려할 때 알고리즘을 철저히 조사하는 것이 중요해 보입니다. 따라서 이 연구는 가우스 산란의 최근 발전에 대한 포괄적인 개요를 제공합니다. (엄지손가락을 위로 스와이프하세요.

9월 23일, 국립방위기술대학교, JD.com 및 베이징 공과대학이 "DeepModelFusion:ASurvey"라는 논문을 발표했습니다. 딥 모델 융합/병합은 여러 딥 러닝 모델의 매개변수나 예측을 단일 모델로 결합하는 새로운 기술입니다. 이는 더 나은 성능을 위해 개별 모델의 편향과 오류를 보상하기 위해 다양한 모델의 기능을 결합합니다. 대규모 딥 러닝 모델(예: LLM 및 기본 모델)에 대한 딥 모델 융합은 높은 계산 비용, 고차원 매개변수 공간, 서로 다른 이종 모델 간의 간섭 등을 포함한 몇 가지 문제에 직면합니다. 이 기사에서는 기존 심층 모델 융합 방법을 네 가지 범주로 나눕니다. (1) 더 나은 초기 모델 융합을 얻기 위해 손실 감소 경로를 통해 가중치 공간의 솔루션을 연결하는 "패턴 연결"
