Written by Noah
Produced | 51CTO Technology Stack (WeChat ID: blog51cto)
언제나 유저들에게 "조금 정신이 이상하다"는 비난을 받던 시리를 살려냈습니다!
Siri는 탄생부터 지능형 음성 비서 분야의 대표주자 중 하나였지만 오랫동안 성능이 만족스럽지 못했습니다. 하지만 최근 애플 인공지능팀이 발표한 연구 결과는 현 상태를 크게 바꿀 것으로 예상된다. 이러한 결과는 흥미롭고 이 분야의 미래에 대한 큰 기대를 불러일으킵니다.
관련 연구 논문에서 Apple의 AI 전문가들은 Siri가 이미지 속 콘텐츠를 인식할 수 있을 뿐만 아니라 더 많은 작업을 수행하여 더욱 똑똑해지고 유용해지는 시스템에 대해 설명합니다. 이 기능 모델을 ReALM이라고 하며 GPT 4.0 표준을 기반으로 하며 GPT 4.0보다 벤치마크 기능이 더 좋습니다. 이들 전문가들은 자신이 개발한 모델이 자신이 개발한 기능을 구현하는 데 사용되며 이를 통해 Siri를 더욱 스마트하고 실용적이며 다양한 시나리오에 더욱 적합하게 만들 수 있다고 믿습니다.
Apple 연구팀에 따르면: “사용자가 관련 콘텐츠 포인팅을 포함하여 맥락을 이해할 수 있도록 하는 것은 매우 중요합니다. 화면에 보이는 내용에 따라 질문하는 것은 음성 인식 경험을 보장하는 중요한 단계입니다.”
예를 들어, 인간과 컴퓨터의 상호 작용 중에 사용자는 대화 중에 화면의 특정 요소나 콘텐츠를 언급하는 경우가 많습니다. 전화번호로 전화 걸기, 지도의 특정 장소 탐색, 특정 앱이나 웹페이지 열기 등이 가능합니다. 대화 도우미가 사용자 지침 뒤에 있는 엔터티 참조를 이해할 수 없으면 해당 명령을 정확하게 실행할 수 없습니다.
또한 인간 대화에서 퍼지 참조 현상은 흔히 발생합니다. 사용자가 음성 도우미를 통해 화면 콘텐츠에 대해 문의할 때 자연스러운 인간-컴퓨터 상호 작용을 달성하고 상황을 정확하게 이해하려면 참조 해결 능력이 중요합니다.
Apple이 논문에서 언급한 ReALM(Reference Resolution As Language Modeling)이라는 모델의 장점은 사용자 화면의 콘텐츠와 진행 중인 작업을 동시에 고려하고 대규모 언어 모델을 사용하여 다양한 문제를 해결할 수 있다는 것입니다. . 유형 엔터티(대화 엔터티 및 비대화 엔터티 포함)의 참조 해결 문제.
기존 텍스트 양식은 화면에 표시되는 엔터티를 처리하는 데 불편하지만 ReALM 시스템은 참조 구문 분석을 언어 모델링 문제로 변환하고 LLM을 사용하여 화면에 표시되는 비대화 엔터티의 참조를 성공적으로 처리합니다. 지구는 이 목표를 촉진합니다. 이를 통해 고도로 지능적이고 몰입도가 높은 사용자 경험을 달성할 것으로 기대됩니다.
화면의 개체에는 일반적으로 이미지, 아이콘과 같은 풍부한 시각적 정보와 레이아웃 구조가 포함되어 있기 때문에 화면에 표시되는 개체를 처리하는 데 편리하지 않습니다. , 버튼 및 상대적인 위치 관계 등. 이 정보는 순수한 텍스트 설명으로 완전히 표현하기 어렵습니다.
이 문제를 해결하기 위해 ReALM 시스템은 화면의 개체와 해당 위치 정보를 구문 분석하여 화면을 재구성하고 화면 내용을 시각적으로 반영할 수 있는 순수한 텍스트 표현을 생성하는 것을 창의적으로 제안합니다.
엔터티 부분은 언어 모델이 엔터티가 나타나는 위치와 주변에 텍스트가 무엇인지 이해할 수 있도록 특별히 표시되어 화면의 정보를 "보는" 것을 시뮬레이션하고 화면의 지침을 이해하고 구문 분석할 수 있습니다. . 필요한 상황별 정보를 제공합니다. 이 접근 방식은 대규모 언어 모델을 사용하여 화면 콘텐츠의 컨텍스트를 인코딩하고 기존 텍스트 형식으로 처리하기 어려운 화면 엔터티의 문제를 극복하려는 첫 번째 시도입니다.
구체적으로, 대형 언어 모델이 화면에 표시된 엔터티를 "이해"하고 처리하기 위해 ReALM 시스템은 다음 단계를 채택합니다.
먼저 화면 텍스트의 엔터티를 상위 계층 데이터 탐지기의 도움으로 이러한 엔터티에는 유형, 경계 상자 및 엔터티 주변의 엔터티가 아닌 텍스트 요소 목록이 있습니다. 이는 화면의 모든 시각적 개체에 대해 시스템이 기본 정보와 그것이 존재하는 컨텍스트를 캡처한다는 것을 의미합니다.
그리고, ReALM은 개체와 주변 객체의 경계 상자의 중심점을 수직(위에서 아래), 수평(왼쪽에서 오른쪽) 순서로 정렬하고 안정적으로 배열하는 알고리즘을 혁신적으로 제안합니다. 개체 사이의 거리가 가까우면 같은 줄에 있는 것으로 간주하고 탭으로 구분합니다. 거리가 설정된 여백을 초과하면 다음 줄에 배치됩니다. 이러한 방식으로, 위의 방법을 지속적으로 적용하면 화면 내용을 왼쪽에서 오른쪽, 위에서 아래로 일반 텍스트 형식으로 인코딩하여 개체 간의 상대적인 공간적 위치 관계를 효과적으로 유지할 수 있습니다.
이렇게 하면 LLM에서 직접 처리하기 어려운 화면 시각적 정보를 언어 모델 입력에 적합한 텍스트 형식으로 변환하여 LLM에서 처리할 때 화면 엔터티의 특정 위치와 위치를 충분히 고려할 수 있습니다. 화면 엔터티의 정확한 식별 및 참조 해결을 달성하기 위한 시퀀스 간 작업입니다.
이를 통해 ReALM 시스템은 대화 엔터티의 참조 문제를 해결하는 데 탁월한 성능을 발휘할 뿐만 아니라 비대화 엔터티, 즉 화면의 엔터티를 처리할 때 상당한 성능 향상을 보여줍니다.
간단히 말하면 ReALM 시스템이 직면하는 작업은 사용자가 원하는 작업을 기반으로 주어진 엔터티 컬렉션에서 현재 사용자 쿼리와 관련된 엔터티를 찾는 것입니다. 공연하다.
이 작업은 대규모 언어 모델에 대한 객관식 질문으로 구성되어 있으며 사용자 화면에 표시되는 엔터티에서 답변으로 하나 이상의 옵션을 선택해야 합니다. 물론 어떤 경우에는 "둘 다 아니다"라고 대답할 수도 있다.
실제로 연구 논문에서는 작업과 관련된 엔터티를 세 가지 범주로 나눕니다.
1 화면 엔터티: 현재 사용자 인터페이스에 표시되는 엔터티를 나타냅니다.
2. 대화 엔터티: 대화 내용과 관련된 엔터티로, 사용자의 이전 음성에서 나올 수 있습니다. (예를 들어 사용자가 "엄마에게 전화해"라고 언급한 경우 연락처 목록에 있는 "엄마" 항목이 해당 엔터티입니다. , 또는 대화에 제공되는 가상 비서(예: 사용자가 선택할 수 있는 장소 목록)에 의해 생성될 수 있습니다.
3. 배경 엔터티: 백그라운드 프로세스에서 발생하는 관련 엔터티로, 기본적으로 울리는 알람 시계나 배경에서 재생되는 음악과 같이 사용자의 화면 표시나 가상 비서와의 상호 작용에 반드시 직접적으로 반영되지는 않습니다.
ReALM을 훈련하고 테스트하는 데 사용되는 데이터 세트는 합성 데이터와 수동으로 주석이 달린 데이터로 구성되며, 이는 세 가지 범주로 나눌 수도 있습니다.
첫 번째, 대화 데이터 세트: ReALM 사이의 상호 작용을 포함합니다. 사용자 및 에이전트 관련 엔터티에 대한 데이터 포인트입니다. 이러한 데이터는 평가자가 합성 엔터티 목록이 포함된 스크린샷을 보고 목록에서 선택한 엔터티를 명시적으로 가리키는 쿼리를 제공하도록 요청하여 수집되었습니다.
두 번째, 합성 데이터 세트: 템플릿 생성 방법을 사용하여 데이터를 얻습니다. 이 방법은 사용자 쿼리 및 엔터티 유형이 자세한 설명에 의존하지 않고 참조를 결정하기에 충분할 때 특히 유용합니다. 합성 데이터 세트에는 동일한 쿼리에 해당하는 여러 엔터티가 포함될 수도 있습니다.
세 번째, 화면 데이터 세트: 주로 현재 사용자 화면에 표시되는 엔터티의 데이터를 다룹니다. 각 데이터에는 사용자 쿼리, 엔터티 목록 및 쿼리에 해당하는 올바른 엔터티(또는 엔터티 컬렉션)가 포함됩니다. 각 엔터티에 대한 정보에는 엔터티 유형과 엔터티와 관련된 이름 및 기타 텍스트 세부 정보(예: 알람 시계의 레이블 및 시간)와 같은 기타 속성이 포함됩니다.
화면 관련 컨텍스트가 포함된 데이터 포인트의 경우 컨텍스트 정보는 유형, 텍스트 내용, 위치와 같은 속성 정보와 함께 엔터티의 경계 상자 및 엔터티를 둘러싼 다른 개체 목록의 형태로 제공됩니다. 이 주변 물체들 중. 전체 데이터 세트의 크기는 범주에 따라 훈련 세트와 테스트 세트로 구분되며 각각 일정한 크기를 가지고 있습니다.
벤치마크 테스트에서 Apple은 자체 시스템을 GPT 3.5 및 GPT 4.0과 비교했습니다. ReALM 모델은 다양한 유형의 참조 구문 분석 작업을 해결하는 데 탁월한 경쟁력을 보여줍니다.
Picture
논문에 따르면 ReALM에서 매개변수가 가장 적은 버전에서도 기본 시스템에 비해 5% 이상의 성능 향상을 달성했습니다. 더 큰 모델 버전에서는 ReALM이 GPT-4보다 확실히 성능이 뛰어납니다. 특히 화면에 표시되는 엔터티를 처리할 때 모델 크기가 커질수록 화면 데이터 세트에서 ReALM의 성능 향상이 더욱 중요해집니다.
또한 ReALM 모델의 성능은 새로운 분야의 제로 샘플 학습 시나리오에서 GPT-4에 매우 가깝습니다. 특정 필드의 쿼리를 처리할 때 ReALM 모델은 사용자 요청에 따른 미세 조정으로 인해 GPT-4보다 더 정확하게 수행됩니다.
예를 들어, 밝기 조정을 위한 사용자 요청의 경우 GPT-4는 백그라운드에 존재하는 스마트 홈 장치도 관련 개체라는 점을 무시하고 해당 요청을 설정에만 연결하며 ReALM은 도메인별 학습을 수행합니다. 데이터를 사용하면 특정 분야의 참조 문제를 더 잘 이해하고 올바르게 해결할 수 있습니다.
“현재 최첨단 LLM인 GPT-4보다 매개변수가 훨씬 적음에도 불구하고 RealLM이 이전 방법보다 성능이 뛰어나고 순전히 텍스트 필드를 기반으로 화면 내 참조를 처리할 때에도 비슷한 결과를 달성한다는 것을 보여줍니다. 또한 RealLM은 특정 분야의 사용자 발화에 있어서도 상당한 수준의 성능을 발휘하므로 실제 애플리케이션 환경을 개발하는 데 적합하다고 할 수 있으며 해당 성능을 보장하면서 RealLM을 로컬로 구현할 수 있습니다. 또한 효율적인 참조 확인 시스템을 위해 선호되는 솔루션은 리소스가 제한되어 있고 지연 시간이 짧은 응답이 필요하거나 API 호출과 같은 다단계 통합이 포함되어 있다고 밝혔습니다. 단일 대규모 엔드투엔드 엔드 모델은 적용되지 않는 경우가 많습니다.
이러한 맥락에서 모듈식으로 설계된 ReALM 시스템은 더 많은 장점을 가지고 있습니다. 즉, 전체 아키텍처에 영향을 주지 않고 원래 참조 해상도 모듈을 쉽게 교체 및 업그레이드할 수 있는 동시에 더 나은 최적화 가능성과 해석성을 제공합니다.
미래를 바라보며 화면 영역을 그리드로 분할하고 상대적인 공간 위치를 텍스트 형식으로 인코딩하는 등 보다 복잡한 방법을 연구 방향으로 제시하고 있습니다.
인공지능 분야에서는 애플이 늘 조심스러워하면서도 조용히 투자하고 있습니다. 다중 모드 대형 모델 MM1이든, AI 기반 애니메이션 생성 도구인 Keyframer이든, 오늘날의 ReALM이든, Apple 연구팀은 계속해서 기술 혁신을 달성해 왔습니다.
Google, Microsoft, Amazon 및 기타 경쟁업체와 같은 구경꾼들은 검색, 클라우드 서비스 및 사무용 소프트웨어에 AI를 추가하여 차례로 힘을 발휘하고 있습니다. 애플은 분명히 뒤쳐지지 않으려고 노력하고 있다. 생성적 AI 구현 결과가 계속해서 등장하면서 애플은 따라잡는 속도를 가속화했다. 이 문제에 정통한 사람들은 애플이 6월 글로벌 개발자 컨퍼런스에서 인공지능 분야에 집중할 예정이며, 새로운 인공지능 전략이 iOS 18 업그레이드의 핵심 내용이 될 가능성이 높다고 오랫동안 밝혀왔다. 그때쯤이면 당신에게 놀라움을 선사할 수도 있습니다.
https://apple.slashdot.org/story/24/04/01/1959205/apple-ai-researchers-boast-useful-on-device-model-that-substantially-outperforms -gpt-4
https://arxiv.org/pdf/2403.20329.pdf
위 내용은 Siri가 더 이상 정신 지체자가 되지 않도록 하세요! Apple은 'GPT-4보다 훨씬 나은 새로운 장치 측 모델을 정의합니다. 텍스트를 제거하고 화면 정보를 시각적으로 시뮬레이션합니다. 최소 매개변수 모델은 기본 시스템보다 여전히 5% 더 좋습니다.'의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!