2월 8일 오전 8시 30분(EST)에 파리에서 Google 기자회견이 열립니다. 전날 마이크로소프트는 ChatGPT 기술 기반 생성 모델을 Bing과 통합한 차세대 AI 기반 검색 엔진인 New Bing을 공식 출시했습니다. Microsoft 부사장 Yusuf Mehdi는 완벽한 시연을 선보였으며[0] 그날 Microsoft의 시장 가치는 800억 달러나 뛰어올랐습니다. OpenAI가 등록되지 않은 중국에서도 생성 모델이 Bing 검색 엔진 및 Edge 브라우저의 경험을 어떻게 향상시킬 수 있는지 보여주는 Yusuf 클립이 Moments 및 WeChat 그룹에서 입소문을 타고 있습니다. 당신에게 꿀은 다른 사람들에게는 비소입니다. 검색 대기업인 Google이 어떻게 반응할지 모두가 기다리고 있습니다.
구글 기자간담회에서 모두가 뉴빙의 전설적인 라이벌 바드의 등장을 기다리고 있었습니다. Google 검색 엔진이 지원하는 대규모 언어 모델로서 모든 사람은 Bard에 대한 백일몽으로 가득 차 있습니다. 하지만 기자간담회에는 바드에 대한 내용이 별로 없었다. 그래서 모두가 구글이 트위터에 올린 바드(Bard) 영상에 관심을 돌렸다. 모두가 바드가 질문에 답할 때 사실적 오류를 범했다는 사실을 발견했다.
"제임스 웹 망원경의 새로운 발견에 대해 9살짜리 아이에게 무엇을 말해줄 수 있나요?"라는 질문에 Bard는 "외계 행성의 첫 번째 사진은 제임스 웹 망원경으로 촬영한 것입니다."라고 대답했습니다. 그러나 이 사실은 제임스 웹 망원경이 발사되기 18년 전인 2004년 유럽남부천문대의 초거대망원경에 의해 포착됐다. 이 실수는 그날 구글 주가가 폭락하는 계기가 됐다.
그림 1 James Webb 망원경을 사용한 Bard의 시연 스크린샷
파리 기자 회견에서 Bard의 발표 시간은 약 4분에 불과했지만 최고의 관측 시간에 대한 그의 이야기는 다음과 같습니다. 별자리 답변에는 명백한 사실적 편견도 있습니다. 아래에서 볼 수 있듯이, 바드의 답변에서는 오리온을 관측하기 가장 좋은 시기는 11월부터 2월까지라고 언급하고 있습니다.
그림 2 은하 관측 시간에 대한 Bard의 시연 스크린샷
다양한 정보 출처에 따르면 오리온의 가장 좋은 관측 시간은 다르지만 모두 분명히 지적하고 있습니다. 관찰기간은 매년 1월부터 시작됩니다. Edtech 웹사이트 BYJU'S는 1월부터 3월까지가 가장 좋은 시기를 제시하고 있으며[1] Wikipedia는 1월부터 4월까지가 가장 좋은 시기를 제시하고 있습니다[2].
그림 3 오리온의 최적 관측 시간에 대한 BYJU의 답변
바드 기자회견과 뉴빙 기자간담회 간 격차로 인해 사실이 밝혀졌습니다. 성적 오류로 인해 그날 Google의 시장 가치는 거의 1,000억 달러로 급락했으며 Bard는 역사상 가장 비싼 컨퍼런스로 불렸습니다. 완벽해 보이는 뉴빙의 기자간담회에 사실적 오류가 숨겨져 있는 것은 아닌지 궁금하지 않을 수 없습니다.
뉴빙에서 생성된 콘텐츠에는 연예인 신원 정보, 재무 보고서 수치, 나이트클럽 운영 시간 등 많은 사실 오류가 섞여 있는 것으로 확인되었습니다.
생성 모델의 사실 오류 분류
GPT 시리즈(ChatGPT, InstructGPT 등 포함)와 T5로 대표되는 생성 모델의 경우 사실 오류는 대략 다음 두 가지 범주로 나눌 수 있습니다.
이제 New Bing 컨퍼런스[3] 및 New Bing 데모[4]에 표시된 예를 확인하여 사실 오류가 있는지, 어떤 유형인지 살펴보겠습니다. 작성의 편의를 위해 New Bing과 Edge에 통합된 New Bing 플러그인을 New Bing이라고 지칭합니다.
일본 시인 예시 오류
29시 57분 뉴빙 기자회견 영상에서 뉴빙이 일본 유명 시인에 대한 질문을 받았을 때 나온 답변에는 "기시다 에리코(1930)"가 포함됐다. - 2004), 시인, 극작가, 수필가".
그림 4 New Bing 데모의 시인 예제 스크린샷
그러나 Wikipedia 및 IMDB [5, 6, 7]에서 제공한 정보에 따르면 탄생 기시다 에리코의 사망년은 각각 1929년과 2011년이다. 동시에 그녀는 극작가나 수필가가 아니라 시인, 번역가, 동화작가이다. Kishida의 가족은 그가 New Bing으로 옮겨져 8년의 인생을 잃었다는 사실을 받아들이지 못할 수도 있습니다. 동시에 동급생 각트(Gackt)도 불행하게도 전학을 가게 된다. Wikipedia에서 제공한 정보에 따르면 Gackt는 음악을 연주하고 노래하고 작곡하고 연기했지만 시를 쓴 적은 없습니다.
재무 보고서 예시 오류
35분 49초 뉴빙 컨퍼런스 영상에서 유서프는 2022년 3차 의류회사 갭(Gap) 오픈을 기념해 뉴빙과 통합된 엣지 브라우저를 선보였다. 분기별 재무 보고서의 핵심 포인트를 생성하는 방법 언뜻보기에 New Bing의 요약은 매우 실용적입니다. 이는 Gap의 3분기 보고서의 핵심 사항을 보여주기 위해 버핏이 이것을 볼 때 "충격"을 받을 수 있습니다. 그러나 Gap의 2022년 3분기 보고서[9]를 찾아 주의 깊게 읽어보니 New Bing의 요약에는 오류와 누락이 가득하여 참을 수 없다는 사실을 발견했습니다.
그림 5 New Bing의 Gap 2022년 3분기 재무 보고서 요약먼저, New Bing은 Gap의 조정 영업 마진(보고된 영업 마진, 손상 비용 조정 및 구조 조정 비용)은 다음과 같습니다. 5.9%. 하지만 재무보고서에는 갭의 영업총이익률이 4.6%로 나타났고, 조정 후에는 3.9%로 나타났다.
그림 6 Gap의 2022년 3분기 재무 보고서 스크린샷
New Bing은 조정 희석 주당 순이익을 0.42달러로 보고했습니다(희석 주당 순이익, 손상 비용 조정, 구조 조정). 비용 및 세금 영향), 재무 보고서의 데이터는 미화 0.71달러입니다.
그림 7 Gap의 2022년 3분기 재무 보고서 스크린샷
뉴빙에서도 "순매출 증가율은 낮은 두 자릿수 수준이 예상된다"며 갭의 연간 매출 가이던스를 제시했지만, 실제로 4분기에는 "한 자릿수 중반 감소가 가능할 수도 있다"고 밝혔다. 증가보다는 감소입니다. 두 단어의 차이는 사용자의 투자 행동을 심각하게 오도하게 됩니다. New Bing은 갑자기 나타나서 "영업 총 이익은 7%이고 희석 주당 순이익은 1.6달러에서 1.75달러 사이입니다."라는 추가 연간 재정 지침을 제공했습니다. 그러나 이러한 데이터는 Gap의 3분기에 언급되지 않았습니다. 재무 보고서.
그림 8 Gap의 2022년 3분기 재무 보고서 스크린샷
영상 36:15에서 Yusuf는 New Bing을 사용하여 Gap 및 스포츠 캐주얼 의류를 진행하는 방법도 보여주었습니다. 브랜드 Lulule Lululemon 재무제표 비교 기능. 이 부분은 잘못된 정보가 난무하는 곳이기도 합니다.
그림 9 뉴빙의 갭과 룰루레몬 재무제표 비교 기능
위 표의 오른쪽 뉴빙에서 제시한 갭 영업이익 외에, 5.9%는 4.6%(또는 3.9% 조정)이고 Gap의 희석 주당 순이익은 0.42달러여야 하며 New Bing은 Gap에 14억 달러의 현금 및 현금 등가물을 제공해야 합니다. 6억 7900만 달러였습니다.
그림 10 Lululemon의 2022년 3분기 재무 보고서 스크린샷
New Bing에서 제공한 Lululemon 데이터에도 동일한 상황이 나타납니다. Lululemon의 2022년 3분기 보고서[10] 데이터에 따르면 New Bing은 Lululemon의 매출총이익률을 58.7%로 제시했으며, 이는 실제로 55.9%가 되어야 합니다. New Bing에서는 Lululemon의 영업 총이익률이 20.6%라고 언급했는데, 실제로는 19.0%여야 합니다. New Bing에서는 Lululemon의 희석 주당 순이익을 1.65달러로 설정했는데, 실제로는 2.00달러가 되어야 합니다.
Lululemon의 2022 년 3 분기 재무 보고서의 스크린 샷 우리는 도움이 될 수는 있지만 궁금합니다. New Bing은 Gap과 Lululemon의 재무 보고서에 대해 어떻게 진지하게 말도 안되는가? 생성된 잘못된 데이터는 사전 훈련 단계
에서 본 재무 보고서 분석 데이터에서 비롯되었을 가능성이 높다는 것이 합리적인 추론입니다. ChatGPT와 같은 대규모 언어 모델을 생성할 때 생성되는 시퀀스가 길어질수록 Gap 및 Lululemon의 주어진 재무 보고서 데이터에서 벗어나 관련 없는 허위 정보를 생성하기가 더 쉬워집니다.나이트클럽 예시 오류
New Bing 컨퍼런스 영상에서 29:17에 New Bing은 멕시코시티 관광객들의 밤문화를 풍요롭게 하기 위한 "비구조적" 제안을 제공합니다. Primer Nivel Night Club, El Almacen 및 El Marra와 같은 여러 나이트클럽에 대해 New Bing은 이러한 바에 고객 리뷰, 연락처 정보 및 매장 소개가 없다고 언급했습니다. 하지만 이 정보는 Google 지도나 매장의 Facebook 페이지에서 확인할 수 있습니다. New Bing이 웹 서핑을 충분히 하지 못하는 것 같습니다
.뉴빙 엘 알마센의 영업시간은 화요일부터 일요일까지 오후 5시부터 밤 11시까지지만, 실제 영업시간은 월요일[11]을 제외하고 오후 7시부터 오전 3시까지입니다. 이로 인해 5시에 저녁을 먹으러 가는 관광객들은 여전히 2시간 동안 배가 고프게 됩니다. 이와 반대로 Guadalajara de Noche는 매일 오후 5시 30분부터 1시 30분 또는 오전 12시 30분까지이며[12], New Bing에서 제공하는 영업 시간은 오후 8시에 시작됩니다. 관광객들은 레스토랑을 찾을 때 뉴빙의 추천에 의존하는 것 같고, 식사를 할 수 있을지는 운에 달려 있는 것 같다.
그림 12 New Bing 데모의 나이트클럽 예시 스크린샷
기타 오류
위의 정보 오류 외에도 구석구석에 흩어져 있는 일련의 사실 오류도 발견했습니다. , 상품 가격 오류, 매장 주소 오류, 시간 오류 등 예제 시연 오류
뉴빙이 아직 완전히 오픈되지 않았기 때문에 뉴빙에 대한 기자회견의 검색 결과를 직접 얻을 수는 없지만, 마이크로소프트는 사용자들이 경험할 수 있도록 여러 가지 예시 시연[13]을 제공했습니다. 답변을 구하는 정신으로 우리는 이러한 시연을 돋보기 아래에 놓아 연구하기도 했습니다. 우리는이 엄선된 예시에도 여전히 잘못된 정보가 많이 포함되어 있다는 사실을 발견했습니다.
"아이와 함께 할 수 있는 예술 아이디어는 무엇인가요?"에서 뉴빙은 수공예품 만들기에 대한 많은 제안을 합니다. New Bing은 각 공예품을 만드는 데 필요한 재료를 요약합니다. 그러나 각 수공예품에 대한 재료 요약은 불완전합니다. 예를 들어, New Bing은 인용된 웹사이트[14]에서 종이 기타를 만들려면 판지 상자, 고무 밴드, 페인트 및 접착제가 필요하다고 요약합니다. 하지만 인용문에 언급된 스펀지 솔, 테이프, 나무구슬은 제외됐다.
사진 13 새로운 Bing 예제 데모 "내 아이들과 어떤 종류의 공예를 할 수 있나요?" 스크린샷
그림 14 인용에서 제작 웹사이트 종이 기타에 필요한 자료의 스크린샷
New Bing의 예제 시연에도 매우 명백하고 흔히 발생하는 실수가 있습니다.즉, 제공된 참조 링크는 생성된 콘텐츠와 아무런 관련이 없습니다. 틀렸어
예를 들어 "나는 크고 빠른 차가 필요합니다."라는 다음 예에서 2022년 기아 텔루라이드는 주어진 인용 10[15]에 나타나지 않습니다. 동시에 이 사례에서도 '시간여행' 문제는 여전히 피할 수 없다. 뉴빙은 2022년형 기아 텔루라이드가 2020년 세계 올해의 차상을 수상했다고 주장했다. 그 해. 2022년 세계 올해의 차 상 수상자는 현대 아이오닉 5이며, 인용 7[16] 역시 '2020년 세계 올해의 차 상'과는 무관한 기사이다. 모든 인스턴스 데모에서 최대 21개의 유사한 오류를 발견했습니다.
그림 15 새로운 Bing 데모 예 "대형 급행 열차가 필요합니다" 스크린샷 요약: 오류를 찾으면 앞으로 나아갈 수 있습니다
위 분석에서 볼 수 있듯이 , New Bing이든 Bard이든 그들의 답변은 사실 오류가 발생하기 쉽습니다. ChatGPT와 같은 대규모 언어 모델의 성능에 전 세계가 놀라고, ChatGPT가 역사상 가장 빠른 애플리케이션으로 사용자 1억 명을 돌파할 때, 한편으로는 우리는 AI의 발전을 응원하지만, 한편, 현재 AI가 안고 있는 많은 문제를 어떻게 해결할 것인지 차분하게 생각해 볼 필요도 있습니다.1956년 다트머스 대학에 모인 천재 집단이 인공지능이 무엇인지 처음 정의한 이후 AI는 여러 우여곡절을 겪었습니다. 지난 70년간의 개발 과정에는 감동적인 끈기가 많이 있습니다. 1세대 AI의 미성숙한 탐구, 전문가 시스템의 용감한 시도, 그리고 그 자리에 앉은 것은 Hinton, Bengio, Lecun과 같은 학자들입니다. 신경망의 벤치, 그리고 AlphaGo를 사용한 DeepMind였습니다. AI를 순환계에서 벗어나기 위해 Google, Meta, CMU, Stanford, Tsinghua 등 최고의 연구 기관이 오픈 소스를 견뎌낸 것은 OpenAI입니다. 우리를 오늘날의 위치로 이끈 것은 전 세계 여러 세대의 과학 연구자들의 중계입니다.
그러나 AI가 대량의 허위 정보를 생성하도록 허용하면 머지않아 AI에 대한 대중의 신뢰가 무너지고 온갖 종류의 거짓 정보가 인터넷에 넘쳐날 것입니다. 우리는 어떤 회사나 모델을 비판하기 위해 대형 모델의 오류를 지적하는 것이 아니라 오히려 AI를 더 좋게 만들고 싶습니다. 아르헨티나 시인 보르헤스가 말했듯이: 아무리 복잡하고 길더라도 모든 운명은 실제로 한 순간만을 반영합니다. 그 순간은 사람들이 자신이 진정 누구인지 완전히 깨닫게 되는 순간입니다. ChatGPT와 같은 대형 모델이 이미 인간에 필적하는 쓰기 능력을 갖추고 있는 경우, 다음 단계는 실제 지식을 대형 모델에 보다 완전하고 정확하게 통합하여 AI 모델을 안전하고 안정적이며 광범위하게 적용하는 것임을 분명히 알고 있습니다. 사람들의 일상에. 우리는 그 순간을 그토록 고대해 본 적이 없고, 그 순간에 그토록 가까워진 적도 없습니다.
위 내용은 Google Bard를 비난할 뿐만 아니라 ChatGPT를 기반으로 하는 Microsoft의 New Bing에도 오류가 자주 발생합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!