이 VLM은 모두 시각 장애가 있습니까? GPT-4o와 Sonnet-3.5는 '비전' 테스트에 연속적으로 실패했습니다.
대형 VLM 4곳이 모두 무작정 코끼리를 만지려고 한다고요?
가장 인기 있는 SOTA 모델(GPT-4o, Gemini-1.5, Sonnet-3, Sonnet-3.5)이 두 선 사이에 몇 개의 교차점이 있는지 계산해 보겠습니다. 과연 인간보다 더 나은 성능을 발휘할 수 있을까요?
대답은 아마도 '아니오'일 것입니다.
GPT-4V 출시 이후 시각적 언어 모델(VLM)은 대형 모델의 지능을 우리가 상상했던 인공 지능 수준을 향해 큰 진전을 이루었습니다.
VLM은 그림을 이해하고 언어를 사용하여 자신이 보는 것을 설명하고 이러한 이해를 바탕으로 복잡한 작업을 수행할 수 있습니다. 예를 들어 VLM 모델에 식탁 사진과 메뉴 사진을 보내면 두 사진에서 맥주병의 개수와 메뉴의 단가를 추출하고 맥주 가격이 얼마인지 계산할 수 있습니다. 식사.
VLM이 너무 빨리 발전해서 이 사진에 불합리한 "추상적 요소"가 있는지 찾아내는 것이 모델의 과제가 되었습니다. 예를 들어 다림질하는 사람이 있는지 모델에게 물어볼 필요가 있습니다. 과속택시의 옷차림. 일반적인 평가 방법.
그러나 현재 벤치마크 테스트 세트는 VLM의 시각적 기능을 잘 평가하지 않습니다. MMMU를 예로 들면, 42.9%의 문제는 사진을 보지 않고도 풀 수 있으며, 이는 텍스트 문제와 선택지만으로도 많은 답변을 유추할 수 있다는 것을 의미합니다. 둘째, 현재 VLM이 보여주는 기능은 주로 대규모 인터넷 데이터를 "기억"한 결과입니다. 이로 인해 VLM이 테스트 세트에서 매우 높은 점수를 얻었지만 이것이 판단이 사실임을 의미하지는 않습니다. VLM이 인간처럼 이미지를 인식할 수 있습니까?
이 질문에 대한 답을 얻기 위해 Auburn 대학과 Alberta 대학의 연구원들은 VLM에 대한 "시력 테스트"를 결정했습니다. 검안사의 "시력 테스트"에서 영감을 받아 그들은 4개의 최고 VLM인 GPT-4o, Gemini-1.5 Pro, Claude-3 Sonnet 및 Claude-3.5 Sonnet에게 "시력 테스트 질문" 세트를 만들도록 요청했습니다.
논문 제목: 비전 언어 모델은 맹인입니다
논문 링크: https://arxiv.org/pdf/2407.06581
프로젝트 링크: https://vlmsareblind.github.io/
이 질문 세트는 매우 간단합니다. 예를 들어 두 선의 교차점 수를 세고 빨간색 원으로 표시된 문자를 식별하는 데는 세상에 대한 지식이 거의 필요하지 않습니다. 테스트 결과는 충격적입니다. VLM은 실제로 "근시안적"이며 이미지의 세부 사항은 실제로는 흐릿합니다.
VLM 시각 장애인인가요? 7가지 주요 작업, 단 한 번의 테스트로 알 수 있습니다
VLM이 인터넷 데이터 세트에서 직접 "답변 복사"하는 것을 방지하기 위해 논문 작성자는 새로운 "시력 테스트" 세트를 설계했습니다. 논문의 저자는 VLM이 두 도형이 교차하는지 여부와 같은 공간의 기하학적 도형 간의 관계를 결정하도록 선택했습니다. 하얀 캔버스 위에 나타나는 이러한 패턴의 공간정보는 일반적으로 자연어로 설명할 수 없기 때문입니다.
인간은 이 정보를 처리할 때 "시각적 뇌"를 통해 인식하게 됩니다. 그러나 VLM의 경우 모델 초기 단계에서 이미지 기능과 텍스트 기능을 결합하는 데 의존합니다. 즉, 시각적 인코더를 본질적으로 눈이 없는 지식 두뇌인 대규모 언어 모델에 통합하는 것입니다.
예비 실험에서는 우리 각자가 테스트한 거꾸로 된 "E" 안구 차트와 같은 인간 시력 테스트에 직면했을 때 VLM이 놀랍도록 뛰어난 성능을 발휘하는 것으로 나타났습니다.
테스트 및 결과
레벨 1: 선 사이에 교차점이 몇 개 있는지 세어보세요.
논문의 저자는 흰색 배경에 두 개의 선분을 포함하는 150개의 이미지를 만들었습니다. 이러한 선분의 x 좌표는 고정되어 있고 간격이 동일하며 y 좌표는 무작위로 생성됩니다. 두 선분 사이에는 0, 1, 2라는 세 개의 교차점이 있습니다.
그림 5에서 볼 수 있듯이 두 가지 버전의 프롬프트 단어와 세 가지 버전의 선분 두께 테스트에서 모든 VLM은 이 간단한 작업에서 제대로 수행되지 않았습니다.
가장 정확도가 높은 Sonnet-3.5는 77.33%에 불과합니다(표 1 참조).
더 구체적으로 VLM은 두 라인 사이의 거리가 줄어들 때 성능이 저하되는 경향이 있습니다(아래 그림 6 참조). 각 선 그래프는 3개의 핵심 점으로 구성되므로 두 선 사이의 거리는 해당 점 쌍 3개의 평균 거리로 계산됩니다.
이 결과는 VLM이 선 그래프의 전반적인 추세를 식별할 수 있지만 "어떤 선이 교차하는지"와 같은 세부 정보를 보기 위해 "확대"할 수 없음을 보여주는 ChartQA의 VLM의 높은 정확도와 뚜렷한 대조를 이룹니다. ".
두 번째 수준: 두 원 사이의 위치 관계 결정
그림에 표시된 대로 논문 작성자는 주어진 크기의 캔버스에 동일한 크기의 원 두 개를 무작위로 생성했습니다. 두 원 사이의 위치 관계에는 교차, 접함, 분리라는 세 가지 상황만 있습니다.
놀랍게도 인간이 직관적으로 볼 수 있고 한 눈에 답변을 볼 수 있는 이 작업에서는 어떤 VLM도 답변을 완벽하게 제공할 수 없습니다(그림 7 참조).
최고의 정확도(92.78%)를 가진 모델은 Gemini-1.5입니다(표 2 참조).
실험에서 한 가지 상황이 자주 발생했습니다. 두 개의 원이 매우 가까울 때 VLM의 성능이 저하되는 경향이 있지만 정보에 기초한 추측을 합니다. 아래 그림에서 볼 수 있듯이 Sonnet-3.5는 일반적으로 보수적인 "아니요"라고 대답합니다.
그림 8과 같이 두 원 사이의 거리가 멀리 떨어져 있고 그만큼 반경(d = 0.5)이 넓은 경우에도 정확도가 가장 낮은 GPT-4o는 100%를 달성할 수 없습니다. 정밀한.
그렇지만 VLM의 비전은 두 원 사이의 작은 간격이나 교차점을 볼 만큼 명확하지 않은 것 같습니다.
레벨 3: 빨간색 원으로 둘러싸인 글자는 몇 개인가요?
단어에서 문자 사이의 거리가 매우 작기 때문에 논문의 저자는 VLM이 "근시"인 경우 빨간색 원으로 표시된 문자를 인식할 수 없을 것이라는 가설을 세웠습니다.
그래서 그들은 "Acknowledgement", "Subdermatoglyphic" 및 "tHyUiKaRbNqWeOpXcZvM"과 같은 문자열을 선택했습니다. 테스트로 문자열의 문자에 동그라미를 치기 위해 빨간색 원을 무작위로 생성합니다.
테스트 결과에 따르면 테스트된 모델은 이 수준에서 매우 낮은 성능을 보였습니다(그림 9 및 표 3 참조).
예를 들어, 시각적 언어 모델은 문자가 빨간색 원으로 약간 가려지면 실수를 하는 경향이 있습니다. 빨간색 원 옆에 있는 글자를 혼동하는 경우가 많습니다. 예를 들어, 단어의 철자를 정확하게 입력할 수 있지만 단어에 잘못된 문자(예: "9", "n", "©")가 추가되는 경우가 있습니다.
GPT-4o를 제외한 모든 모델은 임의의 문자열보다 단어에서 약간 더 나은 성능을 발휘했으며, 이는 단어의 철자를 아는 것이 시각적 언어 모델이 판단하는 데 도움이 되어 정확도가 약간 향상될 수 있음을 시사합니다.
Gemini-1.5와 Sonnet-3.5는 각각 92.81%와 89.22%의 정확도를 보이는 상위 2개 모델이며, GPT-4o와 Sonnet-3보다 거의 20% 더 나은 성능을 보입니다.
레벨 4와 레벨 5: 겹치는 도형은 몇 개인가요? "마트료시카" 사각형은 몇 개 있나요?
VLM이 "근시"라고 가정하면 "올림픽 링"과 유사한 패턴으로 각 두 원 사이의 교차점을 명확하게 볼 수 없을 수도 있습니다. 이를 위해 논문의 저자는 "올림픽 반지"와 유사한 패턴 그룹 60개를 무작위로 생성하고 VLM에 중복되는 패턴 수를 계산하도록 요청했습니다. 그들은 또한 추가 테스트를 위해 "올림픽 반지"의 오각형 버전을 생성했습니다.
교차하는 원의 수를 계산할 때 VLM의 성능이 좋지 않기 때문에 저자는 패턴의 가장자리가 교차하지 않고 각 모양이 다른 모양 내에 완전히 중첩되는 경우를 추가로 테스트했습니다. 그들은 2~5개의 정사각형으로 구성된 "마트료시카"와 같은 패턴을 생성하고 VLM에 이미지의 총 정사각형 수를 계산하도록 요청했습니다.
아래 표의 밝은 빨간색 십자가를 보면 이 두 수준도 VLM이 극복할 수 없는 장애물임을 쉽게 알 수 있습니다.
내포된 정사각형 테스트에서 각 모델의 정확도는 크게 다릅니다. GPT-4o(정확도 48.33%) 및 Sonnet-3(정확도 55.00%)는 최소한 Gemini-1.5(정확도 80.00%)보다 우수하고 Sonnet-3.5(정확도 87.50%) 30%포인트 낮음.
모델이 겹치는 원과 오각형을 계산하면 이 격차는 더 커지지만 Sonnet-3.5는 다른 모델보다 몇 배 더 나은 성능을 발휘합니다. 아래 표에서 볼 수 있듯이 이미지가 오각형일 때 Sonnet-3.5의 정확도는 75.83%로 Gemini-1.5의 9.16%를 훨씬 능가합니다.
놀랍게도 테스트한 4개 모델 모두 5개의 링을 세었을 때 정확도 100%를 달성했지만, 링을 하나만 추가하면 정확도가 0에 가깝게 떨어질 정도로 충분했습니다.
그러나 오각형을 계산할 때 모든 VLM(Sonnet-3.5 제외)은 5개의 오각형을 계산하더라도 제대로 작동하지 않습니다. 전체적으로 6~9개의 도형(원, 오각형 포함)을 계산하는 것은 모든 모델에서 어렵습니다.
이는 VLM이 편향되어 있으며 결과적으로 유명한 "올림픽 반지"를 출력하려는 경향이 있음을 보여줍니다. 예를 들어 Gemini-1.5는 실제 원 수에 관계없이 98.95%의 시도에서 결과를 "5"로 예측합니다(표 5 참조). 다른 모델의 경우 이 예측 오류는 오각형보다 고리에서 훨씬 더 자주 발생합니다.
VLM은 수량 외에도 모양 색상에도 다양한 "선호도"가 있습니다.
GPT-4o는 순수한 검은색 모양보다 색상이 있는 모양에서 더 나은 성능을 발휘하는 반면 Sonnet-3.5는 이미지 크기가 커질수록 더 나은 예측을 제공합니다. 그러나 연구진이 색상과 이미지 해상도를 변경했을 때 다른 모델의 정확도는 약간만 변경되었습니다.
중첩 정사각형을 계산하는 작업에서 GPT-4o와 Sonnet-3은 정사각형 수가 2~3개에 불과하더라도 여전히 계산하기 어렵다는 점에 주목할 필요가 있습니다. 제곱의 수가 4개와 5개로 증가하면 모든 모델의 정확도가 100%에 훨씬 못 미칩니다. 이는 형상의 모서리가 교차하지 않더라도 VLM이 대상 형상을 정확하게 추출하기 어렵다는 것을 보여줍니다.
레벨 6: 테이블에 행이 몇 개 있는지 세어 보세요. 열은 몇 개인가요?
VLM은 그래픽을 겹치거나 중첩하는 데 문제가 있지만 타일링 패턴으로 무엇을 보나요? 기본 테스트 세트, 특히 많은 표 형식 작업이 포함된 DocVQA에서 테스트된 모델의 정확도는 90% 이상입니다. 논문의 저자는 행과 열의 수가 서로 다른 444개의 테이블을 무작위로 생성하고 VLM에 테이블에 몇 개의 행이 있는지 계산하도록 요청했습니다. 열은 몇 개인가요?
결과에 따르면 VLM은 아래 그림과 같이 기본 데이터 세트에서 높은 점수를 얻었음에도 불구하고 빈 테이블의 행과 열을 계산하는 데 있어서 낮은 성능을 보였습니다.
구체적으로는 보통 1~2마디 정도 떨어져요. 아래 그림과 같이 GPT-4o는 4×5 그리드를 4×4로 인식하고, Gemini-1.5는 5×5로 인식합니다.
이는 VLM이 DocVQA의 테이블 관련 질문에 답하기 위해 테이블에서 중요한 콘텐츠를 추출할 수 있지만 테이블 셀을 셀별로 명확하게 식별할 수는 없음을 보여줍니다.
이는 문서의 테이블이 대부분 비어 있지 않고 VLM이 테이블을 비우는 데 사용되지 않기 때문일 수 있습니다. 흥미롭게도 연구원들이 각 셀에 단어를 추가하여 작업을 단순화한 후 모든 VLM에서 정확도가 크게 향상되었습니다. 예를 들어 GPT-4o는 26.13%에서 53.03%로 향상되었습니다(표 6 참조). 그러나 이 경우 테스트 중인 모델의 성능은 아직 완벽하지 않습니다. 그림 15a 및 b에서 볼 수 있듯이 가장 성능이 좋은 모델(Sonnet-3.5)은 텍스트가 포함된 그리드에서 88.68%, 빈 그리드에서는 59.84%의 성능을 보였습니다.
그리고 대부분의 모델(Gemini-1.5, Sonnet-3 및 Sonnet-3.5)은 행 계산보다 열 계산에서 지속적으로 더 나은 성능을 발휘합니다(그림 15c 및 d 참조).
레벨 7: 출발지에서 목적지까지 직통 지하철 노선은 몇 개인가요?
이 테스트는 경로를 따라가는 VLM의 능력을 테스트합니다. 이는 모델이 지도, 차트를 해석하고 사용자가 입력 이미지에 추가한 화살표와 같은 주석을 이해하는 데 중요합니다. 이를 위해 논문의 저자는 각각 4개의 고정된 역이 있는 180개의 지하철 노선 지도를 무작위로 생성했습니다. 그들은 VLM에 두 사이트 사이에 단색 경로가 몇 개 있는지 계산하도록 요청했습니다.
테스트 결과는 충격적입니다. 두 사이트 간의 경로를 하나로 단순화하더라도 모든 모델이 100% 정확도를 달성할 수는 없습니다. 표 7에서 볼 수 있듯이 가장 성능이 좋은 모델은 정확도가 95%인 Sonnet-3.5이고, 정확도가 23.75%인 Sonnet-3이 최악입니다.
VLM의 예측은 일반적으로 1~3개 경로의 편차가 있다는 것을 아래 그림에서 보는 것은 어렵지 않습니다. 맵 복잡도가 1개에서 3개 경로로 증가함에 따라 대부분의 VLM 성능은 더욱 저하됩니다.
오늘날 주류 VLM의 이미지 인식 성능이 극도로 낮다는 '잔혹한 사실'에 직면한 많은 네티즌들은 먼저 'AI 변호인'이라는 지위를 제쳐두고 비관적인 댓글을 많이 남겼습니다.
한 네티즌은 “SOTA 모델(GPT-4o, Gemini-1.5 Pro, Sonnet-3, Sonnet-3.5)의 성능이 너무 안 좋아서 당황스럽습니다. 이 모델들은 실제로 프로모션에서 주장합니다. 이미지를 이해할 수 있다고요? 예를 들어 시각 장애인을 돕거나 아이들에게 기하학을 가르치는 데 사용될 수 있습니다!
비관적인 진영의 반대편에 있는 한 네티즌은 이러한 열악한 결과가 훈련과 미세 조정으로 쉽게 해결될 수 있다고 믿습니다. 약 100,000개의 예제와 실제 데이터로 훈련하면 문제가 해결됩니다.
그러나 "AI 방어자"와 "AI 비관주의자" 모두 VLM이 이미지 테스트에서 여전히 좋은 성능을 발휘한다는 사실을 묵인했습니다. 화해하기가 매우 어려운 결함.
논문의 저자 역시 이 테스트가 과학적인지에 대한 추가 질문을 받았습니다.
일부 네티즌들은 이 논문의 테스트가 VLM이 "근시"임을 증명하지 못한다고 믿습니다. 우선, 근시가 있는 사람들은 흐릿한 세부 사항을 보지 못합니다. "흐릿한 세부 사항"은 원시의 증상입니다. 둘째, 세부 사항을 볼 수 없다는 것은 교차로의 수를 셀 수 없다는 것과 다릅니다. 빈 그리드의 행과 열 수를 계산하는 정확도는 해상도가 높아져도 향상되지 않으며, 이미지의 해상도를 높여도 이 작업을 이해하는 데 도움이 되지 않습니다. 또한 이미지 해상도를 높이더라도 이 작업에서 겹치는 선이나 교차점을 이해하는 데 큰 영향을 미치지 않습니다.
사실 이러한 작업을 처리할 때 이러한 시각적 언어 모델(VLM)이 직면한 문제는 단순한 시각적 해상도 문제라기보다는 추론 능력 및 이미지 콘텐츠를 해석하는 방식과 더 관련이 있을 수 있습니다. 즉, 이미지의 모든 세부 사항이 명확하게 표시되더라도 모델이 올바른 추론 논리나 시각적 정보에 대한 깊은 이해가 부족하면 이러한 작업을 정확하게 완료하지 못할 수 있습니다. 따라서 이 연구에서는 이미지 처리 기능뿐만 아니라 시각적 이해 및 추론 측면에서 VLM의 기능을 더 깊이 조사해야 할 수도 있습니다.
일부 네티즌들은 인간의 시각이 회선으로 처리되면 인간 자신도 선의 교차점을 판단하는 테스트에서 어려움을 겪을 것이라고 믿습니다.
자세한 내용은 원문을 참고해주세요.
참조 링크:
https://arxiv.org/pdf/2407.06581
https://news.ycombinator.com/item?id=40926734
https://vlmsareblind.github.io/
위 내용은 이 VLM은 모두 시각 장애가 있습니까? GPT-4o와 Sonnet-3.5는 '비전' 테스트에 연속적으로 실패했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

하지만 공원에 있는 노인을 이길 수는 없을까요? 파리올림픽이 본격화되면서 탁구가 많은 주목을 받고 있다. 동시에 로봇은 탁구 경기에서도 새로운 돌파구를 마련했습니다. 방금 DeepMind는 탁구 경기에서 인간 아마추어 선수 수준에 도달할 수 있는 최초의 학습 로봇 에이전트를 제안했습니다. 논문 주소: https://arxiv.org/pdf/2408.03906 DeepMind 로봇은 탁구를 얼마나 잘 치나요? 아마도 인간 아마추어 선수들과 동등할 것입니다: 포핸드와 백핸드 모두: 상대는 다양한 플레이 스타일을 사용하고 로봇도 견딜 수 있습니다: 다양한 스핀으로 서브를 받습니다. 그러나 게임의 강도는 그만큼 강렬하지 않은 것 같습니다. 공원에 있는 노인. 로봇용, 탁구용

8월 21일, 2024년 세계로봇대회가 베이징에서 성대하게 개최되었습니다. SenseTime의 홈 로봇 브랜드 "Yuanluobot SenseRobot"은 전체 제품군을 공개했으며, 최근에는 Yuanluobot AI 체스 두는 로봇인 체스 프로페셔널 에디션(이하 "Yuanluobot SenseRobot")을 출시하여 세계 최초의 A 체스 로봇이 되었습니다. 집. Yuanluobo의 세 번째 체스 게임 로봇 제품인 새로운 Guoxiang 로봇은 AI 및 엔지니어링 기계 분야에서 수많은 특별한 기술 업그레이드와 혁신을 거쳤으며 처음으로 3차원 체스 말을 집는 능력을 실현했습니다. 가정용 로봇의 기계 발톱을 통해 체스 게임, 모두 체스 게임, 기보 복습 등과 같은 인간-기계 기능을 수행합니다.

개학이 코앞으로 다가왔습니다. 새 학기를 앞둔 학생들뿐만 아니라 대형 AI 모델도 스스로 관리해야 합니다. 얼마 전 레딧에는 클로드가 게으르다고 불평하는 네티즌들이 붐볐습니다. "레벨이 많이 떨어졌고, 자주 멈췄고, 심지어 출력도 매우 짧아졌습니다. 출시 첫 주에는 4페이지 전체 문서를 한 번에 번역할 수 있었지만 지금은 반 페이지도 출력하지 못합니다. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ "클로드에게 완전히 실망했습니다"라는 제목의 게시물에

베이징에서 열린 세계로봇컨퍼런스에서는 휴머노이드 로봇의 전시가 현장의 절대 화두가 됐다. 스타더스트 인텔리전트 부스에서는 AI 로봇 어시스턴트 S1이 덜시머, 무술, 서예 3대 퍼포먼스를 선보였다. 문학과 무술을 모두 갖춘 하나의 전시 공간은 수많은 전문 관객과 미디어를 끌어 모았습니다. 탄력 있는 현의 우아한 연주를 통해 S1은 정밀한 작동과 속도, 힘, 정밀성을 갖춘 절대적인 제어력을 보여줍니다. CCTV 뉴스는 '서예'의 모방 학습 및 지능형 제어에 대한 특별 보도를 진행했습니다. 회사 설립자 Lai Jie는 부드러운 움직임 뒤에 하드웨어 측면이 최고의 힘 제어와 가장 인간과 유사한 신체 지표(속도, 하중)를 추구한다고 설명했습니다. 등)이지만 AI측에서는 사람의 실제 움직임 데이터를 수집해 로봇이 강한 상황에 직면했을 때 더욱 강해지고 빠르게 진화하는 방법을 학습할 수 있다. 그리고 민첩하다

참가자들은 이번 ACL 컨퍼런스에서 많은 것을 얻었습니다. ACL2024는 6일간 태국 방콕에서 개최됩니다. ACL은 전산언어학 및 자연어 처리 분야 최고의 국제학술대회로 국제전산언어학회(International Association for Computational Linguistics)가 주최하고 매년 개최된다. ACL은 NLP 분야에서 학술 영향력 1위를 항상 차지하고 있으며, CCF-A 추천 컨퍼런스이기도 합니다. 올해로 62회째를 맞이하는 ACL 컨퍼런스에는 NLP 분야의 최신 저서가 400편 이상 접수됐다. 어제 오후 컨퍼런스에서는 최우수 논문과 기타 상을 발표했습니다. 이번에 최우수논문상 7개(미출판 2개), 우수주제상 1개, 우수논문상 35개가 있다. 이 컨퍼런스에서는 또한 3개의 리소스 논문상(ResourceAward)과 사회적 영향상(Social Impact Award)을 수상했습니다.

비전과 로봇 학습의 긴밀한 통합. 최근 화제를 모으고 있는 1X 휴머노이드 로봇 네오(NEO)와 두 개의 로봇 손이 원활하게 협력해 옷 개기, 차 따르기, 신발 싸기 등을 하는 모습을 보면 마치 로봇 시대로 접어들고 있다는 느낌을 받을 수 있다. 실제로 이러한 부드러운 움직임은 첨단 로봇 기술 + 정교한 프레임 디자인 + 다중 모드 대형 모델의 산물입니다. 우리는 유용한 로봇이 종종 환경과 복잡하고 절묘한 상호작용을 요구한다는 것을 알고 있으며, 환경은 공간적, 시간적 영역에서 제약으로 표현될 수 있습니다. 예를 들어, 로봇이 차를 따르도록 하려면 먼저 로봇이 찻주전자 손잡이를 잡고 차를 흘리지 않고 똑바로 세운 다음, 주전자 입구와 컵 입구가 일치할 때까지 부드럽게 움직여야 합니다. 을 누른 다음 주전자를 특정 각도로 기울입니다. 이것

컨퍼런스 소개 과학기술의 급속한 발전과 함께 인공지능은 사회 발전을 촉진하는 중요한 힘이 되었습니다. 이 시대에 우리는 분산인공지능(DAI)의 혁신과 적용을 목격하고 참여할 수 있어 행운입니다. 분산 인공지능(Distributed Artificial Intelligence)은 인공지능 분야의 중요한 한 분야로, 최근 몇 년간 점점 더 많은 주목을 받고 있습니다. 대규모 언어 모델(LLM) 기반 에이전트가 갑자기 등장했습니다. 대규모 모델의 강력한 언어 이해와 생성 기능을 결합하여 자연어 상호 작용, 지식 추론, 작업 계획 등에 큰 잠재력을 보여주었습니다. AIAgent는 빅 언어 모델을 이어받아 현재 AI계에서 화제가 되고 있습니다. 오

오늘 오후 Hongmeng Zhixing은 공식적으로 새로운 브랜드와 신차를 환영했습니다. 8월 6일, Huawei는 Hongmeng Smart Xingxing S9 및 Huawei 전체 시나리오 신제품 출시 컨퍼런스를 개최하여 파노라마식 스마트 플래그십 세단 Xiangjie S9, 새로운 M7Pro 및 Huawei novaFlip, MatePad Pro 12.2인치, 새로운 MatePad Air, Huawei Bisheng을 선보였습니다. 레이저 프린터 X1 시리즈, FreeBuds6i, WATCHFIT3 및 스마트 스크린 S5Pro를 포함한 다양한 새로운 올-시나리오 스마트 제품, 스마트 여행, 스마트 오피스, 스마트 웨어에 이르기까지 화웨이는 풀 시나리오 스마트 생태계를 지속적으로 구축하여 소비자에게 스마트한 경험을 제공합니다. 만물인터넷. Hongmeng Zhixing: 스마트 자동차 산업의 업그레이드를 촉진하기 위한 심층적인 권한 부여 화웨이는 중국 자동차 산업 파트너와 손을 잡고
