구글, 최신 '화면 읽기' AI 출시! PaLM 2-S는 자동으로 데이터를 생성하고 여러 이해 작업이 SOTA를 새로 고칩니다.-일체 포함-php.cn

그림 1은 ScreenAI 모델 아키텍처를 보여줍니다. 연구원들은 다중 모드 인코더 블록으로 구성된 PaLI 모델 제품군의 아키텍처에서 영감을 받았습니다.

집

기술 주변기기

일체 포함

구글, 최신 '화면 읽기' AI 출시! PaLM 2-S는 자동으로 데이터를 생성하고 여러 이해 작업이 SOTA를 새로 고칩니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 06, 2024 pm 06:30 PM

Google ai

모두가 원하는 빅 모델은 진정한 지능을 갖춘 모델입니다...

아니요, Google 팀은 강력한 '화면 읽기' AI를 만들었습니다.

연구원들은 이를 사용자 인터페이스와 인포그래픽을 이해하기 위한 새로운 시각적 언어 모델인 ScreenAI라고 부릅니다.

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

문서 주소: https://arxiv.org/pdf/2402.04615.pdf ScreenAI의 핵심은 UI 요소의 유형과 위치를 식별할 수 있는 새로운 스크린샷 텍스트 표현 방법입니다.

연구원들은 Google 언어 모델 PaLM 2-S를 사용하여 합성 훈련 데이터를 생성했습니다. 이 데이터는 화면 정보, 화면 탐색 및 화면 콘텐츠 요약과 관련된 질문에 답하기 위해 모델을 훈련하는 데 사용되었습니다. 이 방법은 화면 관련 작업을 처리할 때 모델의 성능을 향상시키기 위한 새로운 아이디어를 제공한다는 점은 언급할 가치가 있습니다.

예를 들어 음악 APP 페이지를 열면 "길이가 30초 미만인 노래는 몇 곡입니까?"라고 물어볼 수 있습니다. 谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

ScreenAI는 간단한 답변을 제공합니다: 1.

또 다른 예는 ScreenAI에 명령을 내려 메뉴를 열면 메뉴를 선택할 수 있는 것입니다. 谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA 건축 영감의 원천 - PaLI

그림 1은 ScreenAI 모델 아키텍처를 보여줍니다. 연구원들은 다중 모드 인코더 블록으로 구성된 PaLI 모델 제품군의 아키텍처에서 영감을 받았습니다.

인코더 블록에는 ViT와 유사한 시각적 인코더와 이미지 및 텍스트 입력을 소비하는 mT5 언어 인코더, 자동 회귀 디코더가 포함되어 있습니다.

입력 이미지는 시각적 인코더에 의해 일련의 임베딩으로 변환되며, 이는 입력 텍스트 임베딩과 결합되어 mT5 언어 인코더에 공급됩니다.

인코더의 출력은 텍스트 출력을 생성하는 디코더로 전달됩니다.

이 일반화된 공식은 동일한 모델 아키텍처를 사용하여 다양한 시각적 및 다중 모드 작업을 해결할 수 있습니다. 이러한 작업은 텍스트(출력) 문제에 대한 텍스트+이미지(입력)로 재구성될 수 있습니다.

텍스트 입력과 비교하여 이미지 임베딩은 다중 모달 인코더의 입력 길이에서 중요한 부분을 차지합니다.

간단히 말하면 이 모델은 이미지 인코더와 언어 인코더를 사용하여 이미지와 텍스트 특징을 추출하고 두 가지를 융합한 다음 디코더에 입력하여 텍스트를 생성합니다.

이 구축 방법은 이미지 이해와 같은 다중 모드 작업에 널리 적용될 수 있습니다.

또한 연구원들은 PaLI의 인코더-디코더 아키텍처를 더욱 확장하여 다양한 이미지 차단 모드를 수용했습니다. 谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

원래 PaLI 아키텍처는 입력 이미지를 처리하기 위해 고정된 격자 패턴의 이미지 패치만 허용합니다. 그러나 화면 관련 분야의 연구자들은 다양한 해상도와 종횡비에 걸친 데이터를 접하게 됩니다.

단일 모델이 모든 화면 모양에 적응하려면 다양한 모양의 이미지에 적합한 타일링 전략을 사용해야 합니다.

이를 위해 Google 팀은 그림 1과 같이 입력 이미지 모양과 사전 정의된 최대 블록 수를 기반으로 임의의 격자 모양 이미지 블록을 생성할 수 있는 Pix2Struct에 도입된 기술을 차용했습니다.

모양을 고정하기 위해 이미지를 채우거나 늘릴 필요 없이 다양한 형식과 종횡비의 입력 이미지에 적응할 수 있어 모델이 더욱 다양해지고 모바일(예: 세로)과 데스크탑(예: 세로)을 모두 처리할 수 있습니다. 가로) 이미지 형식입니다.

모델 구성

연구원들은 670M, 2B 및 5B 매개변수를 포함하는 다양한 크기의 3개 모델을 훈련했습니다.

670M 및 2B 매개변수 모델의 경우 연구원들은 시각적 인코더 및 인코더-디코더 언어 모델의 사전 훈련된 단봉 체크포인트로 시작했습니다.

5B 매개변수 모델의 경우 ViT가 UL2 기반 인코더-디코더 언어 모델로 교육되는 PaLI-3의 다중 모드 사전 교육 체크포인트에서 시작하세요.

시각 모델과 언어 모델 간의 매개변수 분포는 표 1에서 볼 수 있습니다.

자동 데이터 생성

연구원들은 모델 개발의 사전 훈련 단계가 크고 다양한 데이터 세트에 대한 액세스에 크게 좌우된다고 말합니다.

그러나 광범위한 데이터 세트에 수동으로 라벨을 지정하는 것은 비현실적이므로 Google 팀의 전략은 자동 데이터 생성입니다.

이 접근 방식은 특수한 소형 모델을 활용하며 각 모델은 효율적이고 높은 정확도로 데이터를 생성하고 레이블을 지정하는 데 능숙합니다.

수동 주석에 비해 이 자동화된 접근 방식은 효율적이고 확장성이 있을 뿐만 아니라 일정 수준의 데이터 다양성과 복잡성을 보장합니다.

첫 번째 단계는 모델에 텍스트 요소, 다양한 화면 구성 요소, 전체 구조 및 계층 구조에 대한 포괄적인 이해를 제공하는 것입니다. 이러한 근본적인 이해는 다양한 사용자 인터페이스를 정확하게 해석하고 상호 작용하는 모델의 능력에 매우 중요합니다.

여기서 연구원들은 크롤링 애플리케이션과 웹페이지를 통해 데스크톱, 모바일 장치, 태블릿을 포함한 다양한 장치에서 대량의 스크린샷을 수집했습니다.

이 스크린샷에는 UI 요소, 공간 관계 및 기타 설명 정보를 설명하는 자세한 태그가 주석으로 추가됩니다.

또한 사전 훈련 데이터에 더 큰 다양성을 주입하기 위해 연구원들은 언어 모델, 특히 PaLM 2-S의 기능을 활용하여 두 단계로 QA 쌍을 생성했습니다.

앞서 설명한 화면 패턴을 생성하는 것부터 시작하세요. 그런 다음 저자는 언어 모델이 합성 데이터를 생성하도록 안내하는 화면 패턴이 포함된 프롬프트를 디자인합니다.

몇 번의 반복 후에 부록 C에 표시된 것처럼 필요한 작업을 효과적으로 생성하는 팁을 식별할 수 있습니다.

이렇게 생성된 응답의 품질을 평가하기 위해 연구원들은 미리 결정된 품질 요구 사항이 충족되었는지 확인하기 위해 데이터 하위 집합에 대해 수동 검증을 수행했습니다.

이 방법은 그림 2에 설명되어 있으며 사전 훈련 데이터 세트의 깊이와 폭을 크게 향상시킵니다.

구조화된 화면 패턴과 결합된 이러한 모델의 자연어 처리 기능을 활용하여 다양한 사용자 상호 작용 및 시나리오를 시뮬레이션할 수 있습니다.

두 가지 작업 세트

다음으로 연구원들은 모델에 대해 두 가지 다른 작업 세트, 즉 초기 사전 학습 작업 세트와 후속 미세 조정 작업 세트를 정의했습니다.

두 그룹은 주로 두 가지 측면에서 다릅니다.

- 실제 데이터 소스: 미세 조정 작업의 경우 인간 평가자가 라벨을 제공하거나 검증합니다. 사전 훈련 작업의 경우 레이블은 자기 지도 학습 방법을 사용하여 추론되거나 다른 모델을 사용하여 생성됩니다.

- 데이터 세트 크기: 일반적으로 사전 학습 작업에는 많은 수의 샘플이 포함되어 있으므로 이러한 작업은 보다 확장된 일련의 단계를 통해 모델을 학습하는 데 사용됩니다.

표 2는 모든 사전 훈련 작업을 요약한 것입니다.

혼합 데이터에서 데이터 세트는 크기에 비례하여 가중치가 부여되며 각 작업에 허용되는 최대 가중치가 적용됩니다.

언어 처리부터 시각적 이해 및 웹 콘텐츠 분석에 이르기까지 다중 모드 소스를 다중 작업 교육에 통합하면 모델이 다양한 시나리오를 효과적으로 처리하고 전반적인 다양성과 성능을 향상시킬 수 있습니다.

연구원들은 다양한 작업과 벤치마크를 사용하여 미세 조정 중에 모델의 품질을 추정합니다. 표 3에는 기존 기본 화면, 인포그래픽, 문서 이해 벤치마크를 포함한 이러한 벤치마크가 요약되어 있습니다.

실험 결과

그림 4는 ScreenAI 모델의 성능을 보여주고 이를 다양한 화면 및 정보 그래픽 관련 작업에 대한 최신 SOT 결과와 비교합니다.

다양한 작업에서 ScreenAI의 앞선 성능을 확인하실 수 있습니다.

표 4에서 연구진은 OCR 데이터를 활용한 단일 작업 미세 조정 결과를 제시합니다.

QA 작업의 경우 OCR을 추가하면 성능이 향상될 수 있습니다(예: Complex ScreenQA, MPDocVQA 및 InfoVQA에서 최대 4.5%).

그러나 OCR을 사용하면 입력 길이가 약간 늘어나서 전체적으로 훈련 속도가 느려집니다. 또한 추론 시 OCR 결과를 얻어야 합니다.

또한 연구진은 6억 7천만 개의 매개변수, 20억 개의 매개변수, 50억 개의 매개변수 등 모델 크기를 사용하여 단일 작업 실험을 수행했습니다.

그림 4에서 볼 수 있듯이 모든 작업에 대해 모델 크기를 늘리면 성능이 향상되며 최대 규모의 개선은 아직 포화되지 않았습니다.

더 복잡한 시각적 텍스트와 산술 추론이 필요한 작업(예: InfoVQA, ChartQA 및 Complex ScreenQA)의 경우 20억 매개변수 모델과 50억 매개변수 모델 간의 개선이 6억 7천만 매개변수 모델보다 훨씬 더 큽니다. 그리고 20억 개의 매개변수 모델.

마지막으로 그림 5는 종횡비가 1.0보다 큰 이미지(가로 모드 이미지)의 경우 pix2struct 분할 전략이 고정 그리드 분할보다 훨씬 우수하다는 것을 보여줍니다.

세로 모드 이미지의 경우 추세는 반대이지만 고정 그리드 분할이 약간 더 좋습니다.

연구원들은 ScreenAI 모델이 다양한 종횡비의 이미지에서 작동하기를 원했기 때문에 pix2struct 분할 전략을 사용하기로 결정했습니다.

Google 연구원들은 ScreenAI 모델이 GPT-4 및 Gemini와 같은 대형 모델과의 격차를 줄이기 위해 일부 작업에 대한 더 많은 연구가 필요하다고 말했습니다.

위 내용은 구글, 최신 '화면 읽기' AI 출시! PaLM 2-S는 자동으로 데이터를 생성하고 여러 이해 작업이 SOTA를 새로 고칩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7425

Cakephp 튜토리얼

1359

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

Related knowledge

PS가 계속 로딩을 보여주는 이유는 무엇입니까? Apr 06, 2025 pm 06:39 PM

PS "로드"문제는 자원 액세스 또는 처리 문제로 인한 것입니다. 하드 디스크 판독 속도는 느리거나 나쁘다 : CrystalDiskinfo를 사용하여 하드 디스크 건강을 확인하고 문제가있는 하드 디스크를 교체하십시오. 불충분 한 메모리 : 고해상도 이미지 및 복잡한 레이어 처리에 대한 PS의 요구를 충족시키기 위해 메모리 업그레이드 메모리. 그래픽 카드 드라이버는 구식 또는 손상됩니다. 운전자를 업데이트하여 PS와 그래픽 카드 간의 통신을 최적화하십시오. 파일 경로는 너무 길거나 파일 이름에는 특수 문자가 있습니다. 짧은 경로를 사용하고 특수 문자를 피하십시오. PS 자체 문제 : PS 설치 프로그램을 다시 설치하거나 수리하십시오.

PS 페더 링을 사용하여 투명한 효과를 만드는 방법은 무엇입니까? Apr 06, 2025 pm 07:03 PM

투명한 효과 생산 방법 : 선택 도구와 깃털을 사용하여 협력 : 투명 영역과 깃털을 선택하여 가장자리를 부드럽게합니다. 층 블렌딩 모드와 불투명도를 변경하여 투명성을 제어하십시오. 마스크와 깃털 사용 : 선택 및 깃털 부위; 레이어 마스크와 그레이 스케일 그라디언트 제어 투명성을 추가하십시오.

부트 스트랩 이미지 센터링의 호환성은 어떻습니까? Apr 07, 2025 am 07:51 AM

부트 스트랩 이미지 센터링은 호환성 문제에 직면합니다. 솔루션은 다음과 같습니다. 수직 센터링 Flexbox 또는 그리드 레이아웃을 사용하여 부모 요소가 수직 중앙에 위치하여 자식 요소를 정렬합니다. IE 브라우저 호환성의 경우 AutoPrefixer와 같은 도구를 사용하여 브라우저 접두사를 자동으로 추가하십시오. 이미지 크기, 형식 및로드 순서를 최적화하여 페이지 성능을 향상시킵니다.

PS 카드가 로딩 인터페이스에 있으면 어떻게해야합니까? Apr 06, 2025 pm 06:54 PM

PS 카드의로드 인터페이스는 소프트웨어 자체 (파일 손상 또는 플러그인 충돌), 시스템 환경 (DIFE 드라이버 또는 시스템 파일 손상) 또는 하드웨어 (하드 디스크 손상 또는 메모리 스틱 고장)로 인해 발생할 수 있습니다. 먼저 컴퓨터 자원이 충분한 지 확인하고 배경 프로그램을 닫고 메모리 및 CPU 리소스를 릴리스하십시오. PS 설치를 수정하거나 플러그인의 호환성 문제를 확인하십시오. PS 버전을 업데이트하거나 폴백합니다. 그래픽 카드 드라이버를 확인하고 업데이트하고 시스템 파일 확인을 실행하십시오. 위의 문제를 해결하면 하드 디스크 감지 및 메모리 테스트를 시도 할 수 있습니다.

부트 스트랩 목록의 크기를 변경하는 방법은 무엇입니까? Apr 07, 2025 am 10:45 AM

부트 스트랩 목록의 크기는 목록 자체가 아니라 목록이 포함 된 컨테이너의 크기에 따라 다릅니다. Bootstrap의 그리드 시스템 또는 Flexbox를 사용하면 컨테이너의 크기를 제어하여 목록 항목을 간접적으로 크기로 조정할 수 있습니다.

부트 스트랩 목록의 중첩을 구현하는 방법은 무엇입니까? Apr 07, 2025 am 10:27 AM

부트 스트랩의 중첩 목록은 스타일을 제어하기 위해 부트 스트랩의 그리드 시스템을 사용해야합니다. 먼저 외부 층을 사용하십시오 & lt; ul & gt; 및 & lt; li & gt; 목록을 만들려면 & lt; div class = "row & gt; & lt; div class = "col-md-6"& gt; & gt; 내부 레이어 목록에 내부 레이어 목록이 행 너비의 절반을 차지하도록 지정합니다. 이런 식으로 내부 목록은 올바른 목록을 가질 수 있습니다.

부트 스트랩 목록에 아이콘을 추가하는 방법? Apr 07, 2025 am 10:42 AM

부트 스트랩 목록에 아이콘을 추가하는 방법 : 아이콘을 목록 항목에 직접 제정하십시오. 부트 스트랩 클래스를 사용하여 아이콘과 텍스트를 정렬하십시오 (예 : d-flex, 정당화-콘텐츠 중간, 정렬 중심). 부트 스트랩 태그 구성 요소 (배지)를 사용하여 숫자 또는 상태를 표시하십시오. 아이콘 위치를 조정하십시오 (Flex Direction : Row-Reverse;), 스타일을 제어 (CSS 스타일). 일반적인 오류 : 아이콘이 표시되지 않습니다 (아닙니다

vue.js의 객체로 문자열을 변환하는 데 어떤 방법이 사용됩니까? Apr 07, 2025 pm 09:39 PM

표준 JSON 문자열의 경우 vue.js의 객체로 문자열을 변환 할 때 JSON.PARSE ()가 선호됩니다. 비표준 JSON 문자열의 경우, 정규 표현식을 사용하여 문자열을 처리하고 형식 또는 디코딩 된 URL 인코딩에 따라 방법을 줄일 수 있습니다. 문자열 형식에 따라 적절한 방법을 선택하고 버그를 피하기 위해 보안 및 인코딩 문제에주의를 기울이십시오.

See all articles

구글, 최신 '화면 읽기' AI 출시! PaLM 2-S는 자동으로 데이터를 생성하고 여러 이해 작업이 SOTA를 새로 고칩니다.

그림 1은 ScreenAI 모델 아키텍처를 보여줍니다. 연구원들은 다중 모드 인코더 블록으로 구성된 PaLI 모델 제품군의 아키텍처에서 영감을 받았습니다.

두 가지 작업 세트

실험 결과

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제