GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다.
GPT-4는 한때 수많은 사람들을 놀라게 했던 유명한 인터넷 밈 "치와와 또는 블루베리 와플"을 해결했습니다.
그러나 지금은 '사기' 혐의로 고소당하고 있습니다!
Pictures
원제목에 나오는 사진은 다 그대로 사용했는데 순서나 배열이 엉망이네요.
GPT-4 최신 버전은 올인원 기능으로 유명합니다. 그런데 놀랍게도 인식한 이미지 개수에 오류가 발생했고, 원래 제대로 인식되었던 치와와도 인식 오류가 나더군요
Pictures
GPT-4가 원본에서 이렇게 좋은 성능을 발휘한 이유 이미지뭐야?
UCSC Xin Eric Wang 조교수의 추측에 따르면, 이 테스트를 실시하는 이유는 인터넷에 있는 원본 이미지가 너무 인기가 있기 때문이라고 합니다. 그는 GPT-4가 훈련 과정에서 원래의 답을 여러 번 접했고 그것을 성공적으로 기억했다고 믿습니다.
세 명의 튜링상 수상자 중 한 명인 LeCun도 이 문제에 주목하며 다음과 같이 말했습니다:
훈련에 주의하세요 테스트를 설정합니다.
사진
테디와 프라이드치킨은 구분이 안가네요
원작 사진이 얼마나 인기가 많나요? 유명한 인터넷 밈일 뿐만 아니라, 컴퓨터 비전 분야에서도 고전적인 문제가 되었고, 관련 주제에 여러 번 등장 논문 연구가 진행 중입니다.
사진
GPT-4의 성능이 어떤 측면에서 제한되어 있는지를 고려하여 많은 네티즌들은 원본 이미지의 영향에 관계없이 자체 테스트 계획을 제안했습니다.
배치가 너무 복잡한지 배제하기 위해 그리고 어떤 영향을 끼치는지, 어떤 사람들은 그것을 간단한 것으로 수정했습니다. 3x3 배열도 많은 실수를 인정합니다.
Pictures
Pictures
누군가 사진 일부를 분해하여 개별적으로 GPT-4에 보냈는데 정확도가 5/5였습니다.
Pictures
Xin Eric Wang은 이러한 쉽게 혼동되는 이미지를 하나로 묶는 것이 이 도전의 핵심이라고 믿습니다. "와 "단계적으로 생각하기"가 두 가지 핵심 팁이고 올바른 결과를 얻습니다
Pictures
GPT-4 문구 "이것은 시각적 말장난이나 유명한 밈의 예입니다", 또한 노출되었습니다. 원본 이미지가 실제로 훈련 데이터에 존재할 수 있다는 것입니다. 다음과 같이 표현됨: 그러나 GPT-4는 답변에 "이것은 시각적 말장난이나 유명한 밈의 예입니다"라고 사용했으며 이는 또한 원본 이미지가 실제로 훈련 데이터에 존재할 수 있음을 나타냅니다
image
마지막으로 누군가 자주 등장하는 '테디냐 프라이드치킨' 테스트도 테스트한 결과, GPT-4가 잘 구분하지 못하는 것으로 나타났습니다.
사진
이 "블루베리나 초코빈"은 좀 과해요...
사진
시각적 환상이 인기 있는 방향이 되었습니다
대형 모델의 "넌센스"를 학계에서는 환상 문제라고 부릅니다. 최근 다중 모드 대형 모델의 시각적 환상 문제가 인기 있는 연구 방향이 되었습니다.
EMNLP 2023의 연구에서 우리는 1600개의 데이터 포인트가 포함된 GVIL 데이터 세트를 만들고 시각적 환상 문제에 대한 체계적인 평가를 수행했습니다.
Pictures
연구에 따르면 규모가 클수록 모델이 더 취약한 것으로 나타났습니다.
pictures
또 다른 최근 연구는 편견과 간섭이라는 두 가지 유형의 환상을 평가하는 데 중점을 둡니다.
pictures
- 편향 지수 모델은 특정 유형의 반응을 생성하는 경향이 있습니다 훈련 데이터의 불균형 때문일 수 있습니다.
- 텍스트 프롬프트의 표현 방식이나 입력 이미지 표시 방식으로 인해 간섭이 발생하여 다른 장면이 제거될 수 있습니다.
Pictures
연구에 따르면 GPT-4V는 여러 이미지를 함께 해석할 때 종종 혼란을 겪고 "치와와 또는 와플" 테스트의 관찰 결과와 일치하여 이미지를 개별적으로 보낼 때 더 나은 성능을 발휘한다고 지적했습니다.
Pictures
자기 수정 및 사고 사슬 프롬프트와 같은 인기 있는 완화 조치는 이러한 문제를 효과적으로 해결하지 못하며, 테스트 결과 LLaVA 및 Bard와 같은 다중 모드 모델에도 유사한 문제가 있는 것으로 나타났습니다
또한 , 연구에서도 GPT-4V가 서구 문화적 배경이 있는 이미지나 영어 텍스트가 포함된 이미지를 더 잘 해석하는 것으로 나타났습니다.
예를 들어 GPT-4V는 일곱 난쟁이 + 백설공주를 정확하게 셀 수 있지만 일곱 박 인형은 10으로 계산합니다.
Pictures
참조 링크: [1]https://twitter.com/xwang_lk/status/1723389615254774122[2]https://arxiv.org/abs/2311.00047[3]https://arxiv. org/abs/2311.03287
위 내용은 GPT-4가 부정행위로 드러났습니다! LeCun은 훈련 세트, 치와와 또는 머핀 순서 혼동으로 인해 오류가 발생하는 테스트 시 주의를 당부했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











한때 수많은 사람들을 놀라게 했던 유명한 인터넷 밈 "치와와 또는 블루베리 와플"을 GPT-4가 해결했습니다. 그러나 지금은 "부정행위"라는 비난을 받고 있습니다! 사진은 모두 원제목에 나오는 사진인데 순서나 배열이 엉망이네요. GPT-4의 최신 버전은 올인원 기능으로 유명합니다. 그런데 놀랍게도 인식한 이미지 개수에 오류가 발생했고, 원래는 올바르게 인식되던 치와와도 잘못된 이미지를 인식하게 되었습니다. GPT-4가 원본 이미지에서 이렇게 잘 수행되는 이유는 무엇일까요? UCSC 조교수 XinEricWang의 추측에 따르면, 이 테스트를 실시한 이유는 인터넷에 있는 원본 이미지가 너무 인기가 있기 때문입니다. 그는 GPT-4가 훈련 중에 원래의 답을 여러 번 접했고 이를 성공적으로 기억했다고 믿습니다. Turing

1. LLaMALLaMA 프로젝트에는 70억 ~ 650억 매개변수 크기의 기본 언어 모델 세트가 포함되어 있습니다. 이러한 모델은 수백만 개의 토큰에 대해 훈련되었으며 공개적으로 사용 가능한 데이터 세트에 대해 완전히 훈련되었습니다. 그 결과 LLaMA-13B는 GPT-3(175B)을 능가했고, LLaMA-65B는 Chinchilla-70B, PaLM-540B 등 최고 모델과 비슷한 성능을 보였다. LLaMA 리소스의 이미지: 연구 논문: "LLaMA: OpenandEfficientFoundationLanguageModels(arxiv.org)" [https://arxiv.or

시각적(픽셀) 모델만으로 어디까지 갈 수 있나요? UC Berkeley와 Johns Hopkins University의 새로운 논문에서는 이 문제를 탐구하고 다양한 CV 작업에서 LVM(대형 비전 모델)의 잠재력을 보여줍니다. 최근에는 GPT, LLaMA 등 대형 언어 모델(LLM)이 전 세계적으로 인기를 얻고 있습니다. LVM(Large Vision Model) 구축은 큰 관심을 끄는 문제입니다. 이를 달성하려면 무엇이 필요합니까? LLaVA와 같은 시각 언어 모델이 제공하는 아이디어는 흥미롭고 탐구할 가치가 있지만 동물계의 법칙에 따르면 시각 능력과 언어 능력은 관련이 없다는 것을 이미 알고 있습니다. 예를 들어, 많은 실험에서는 인간이 아닌 영장류의 시각적 세계가 인간과 다른 언어 체계를 가지고 있음에도 불구하고 인간의 시각적 세계와 매우 유사하다는 것을 보여주었습니다.

"대형 모델 예선 대회" ChatbotArena의 권위 있는 목록이 새로워졌습니다. Google Bard가 GPT-4를 능가하고 GPT-4 Turbo에 이어 2위를 차지했습니다. 하지만 이에 대해 많은 네티즌들은 “불만”, “부당하다”는 반응을 보였다. 구글 AI 수장 제프 딘(Jeff Dean)은 바드(Bard)가 대형 모델인 제미니 프로 스케일(Gemini Pro-scale)의 새 버전을 탑재해 성능이 크게 향상됐다고 밝힌 것으로 밝혀졌다. 이는 또한 "순위 경기"에서 플레이하는 Bard가 네트워킹 기능을 가지고 있음을 의미합니다. 네티즌들의 의구심은 바로 이 점에 쏠려 있다. 같은 순위에 온라인과 오프라인 대형 모델이 섞여 있으면 오해를 불러일으키기 매우 쉽다. 허깅페이스(HuggingFace)의 '최고 알파카 장교' 오마르 산세비에로(Omar Sanseviero)도

현재 GPT-4Vision은 언어 이해 및 시각적 처리 분야에서 놀라운 기능을 보여줍니다. 그러나 성능 저하 없이 비용 효율적인 대안을 찾는 사람들에게 오픈 소스는 무한한 잠재력을 지닌 옵션입니다. Youssef Hosni는 GPT-4V를 대체할 수 있는 접근성이 절대적으로 보장된 세 가지 오픈 소스 대안을 제공하는 외국 개발자입니다. 세 가지 오픈 소스 시각적 언어 모델인 LLaVa, CogAgent 및 BakLLaVA는 시각적 처리 분야에서 큰 잠재력을 갖고 있으며 심층적으로 이해할 가치가 있습니다. 이러한 모델의 연구 및 개발은 우리에게 보다 효율적이고 정확한 시각 처리 솔루션을 제공할 수 있습니다. 이러한 모델을 적용하면 그래프를 개선할 수 있습니다.

인공 지능 사용자 경험을 최적화하기 위한 지속적인 노력의 일환으로 Google은 최신이자 가장 발전된 대화 시스템인 Bard를 출시했습니다.

대형 모델이 이미지와 텍스트를 모두 이해하도록 하는 것은 생각보다 어려울 수 있습니다. "AI 봄 축제 갈라"로 알려진 OpenAI의 첫 번째 개발자 컨퍼런스가 열린 후 많은 사람들의 친구들이 GPT-4를 작성하지 않고도 애플리케이션을 사용자 정의할 수 있는 GPT와 같은 회사에서 출시한 신제품으로 넘쳐났습니다. 축구 게임 및 "리그 오브 레전드" 게임 등을 해설하기 위한 시각적 API입니다. 그러나 모든 사람들이 이러한 제품의 사용이 얼마나 쉬운지 칭찬하는 동안 일부 사람들은 약점을 발견하여 GPT-4V와 같은 강력한 다중 모드 모델이 실제로 여전히 큰 환상을 가지고 있으며 여전히 기본적인 시각적 결함이 있음을 지적합니다. '노래케이크와 치와와', '테디개와 프라이드치킨' 등 유사한 이미지를 구분하지 못하는 것. GPT-4V는 스펀지케이크와 치와와를 구별하지 못합니다. 출처 : 시진핑

ChatGPT와 GoogleBard는 모두 사용자가 입력한 프롬프트에 대한 응답을 생성하도록 설계된 인공 지능 챗봇입니다. 올바르게 사용하면 ChatGPT와 GoogleBard를 모두 사용하여 콘텐츠 제작 및 개발의 일부 비즈니스 프로세스를 지원할 수 있습니다. 이 문서를 읽고 각 도구의 기능, 장단점을 알아보고 어떤 도구가 귀하의 비즈니스에 가장 적합한지 알아보세요. ChatGPT란 무엇인가요? ChatGPT는 사용자가 입력한 텍스트를 기반으로 인간과 유사한 답변을 생성할 수 있는 OpenAI가 개발한 인공지능 챗봇입니다. GoogleBard란 무엇인가요? GoogleBard는 인공지능 챗봇이기도 합니다. ChatG와 함께
