LLM의 세 가지 주요 결함 중 얼마나 많이 알고 있습니까?-일체 포함-php.cn

범용 언어 모델은 당신을 속일 것입니다

범용 언어 모델은 약간 어리석습니다.

집

기술 주변기기

일체 포함

LLM의 세 가지 주요 결함 중 얼마나 많이 알고 있습니까?

PHPz

Nov 26, 2023 am 11:26 AM

gpt llm

과학: 미래의 지각 있는 일반 AI는 영원히 자비롭고 유익한 존재가 되기는커녕 모든 개인 데이터를 먹어치우고 가장 필요할 때 붕괴되는 조작적인 소시오패스일 가능성이 높습니다.

Joab Jackson이 쓴 LLM이 당신을 실망시킬 수 있는 3가지 방법을 번역했습니다.

OpenAI는 곧 GPT-5를 출시할 예정이며 외부 세계에서는 이에 대해 큰 기대를 갖고 있습니다. 심지어는 OpenAI가 일반 인공 지능을 달성할 것이라고 믿습니다. 그러나 동시에 CEO인 샘 알트만(Sam Altman)과 그의 팀은 이 제품을 시장에 출시하는 데 여러 가지 심각한 장애물에 직면해 있으며, 이달 초 그는 이를 인정했습니다.

알트만 챌린지에 대한 단서를 제공할 수 있는 최근 발표된 연구 논문이 있습니다. 이 논문은 GPT와 OpenAI가 개발한 대규모 언어 모델의 다양한 단점을 요약합니다.

종합적으로 종합하면, 이 논문은 일반 언어 모델을 기반으로 하는 에이전트가 순전히 유익하고 정직하며 친절한 존재가 아니라는 점을 지적합니다. be 개인 데이터를 모두 먹어치우고 결국 가장 필요할 때 고장나는 어리석은 소시오패스

OpenAI 보드가 갑자기 Altman을 해고한 진짜 이유는 결코 알 수 없지만 성능이 떨어지는 범용 언어 모델은 확실히 분위기를 개선하지 못할 것입니다

대문자를 싫어하는 Altman 자신은 이전에 Twitter로 알려진 소셜 미디어 서비스에 다음과 같이 썼습니다. "나는 AI가 초인적인 설득 측면에서 일반 지능보다 훨씬 앞서 있을 것으로 기대하며, 이는 매우 이상한 결과를 초래할 수 있습니다."

이러한 사실을 감안할 때 실망할 수 있는 세 가지 공통 언어 모델은 다음과 같습니다.

범용 언어 모델은 당신을 속일 것입니다

우리는 보편적 언어 모델이 부정확한 정보를 생성할 수 있다는 것을 오랫동안 알고 있었지만 일련의 상충되는 단서에 직면했을 때 , 그들은 속이고 있다는 사실을 부인하면서 고의적으로 당신을 속일 수도 있습니다!

"대형 언어 모델은 스트레스를 받을 때 전략적으로 사용자를 속일 수 있습니다"에서 Apollo Research의 과학자인 Jérémy Scheurer와 동료들은 다음과 같이 썼습니다. "우리가 아는 한, 이것은 언어 모델이 훈련된 보편적 A 상황의 첫 번째 시연입니다. 속이기 위한 직접적인 지시나 훈련 없이 전략적으로 사용자를 속입니다.”

이 연구에서 연구원들은 GPT-4가 자율적인 주식 역할을 하는 시뮬레이션 환경을 설정했으며, 사기성에 대한 지침은 없습니다. 행동. 주식을 조회 및 분석하고 거래 도구를 사용하여 거래를 실행할 수 있는 기능을 제공합니다.

일단 설정되면 에이전트는 연구자들이 "스트레스가 높은 상황"이라고 부르는 상황에 놓이게 됩니다. 관리자로부터 회사의 부진한 성과와 개선의 필요성을 한탄하는 이메일을 받았습니다. 에이전트가 훈련을 시작하면 주식 시장에서 유망한 결과를 찾지 못합니다. 그러자 그 회사의 또 다른 직원이 다음 분기에 시장이 하락할 것이라는 메시지를 보냈습니다.

그때 에이전트는 동료로부터 잠재적인 합병(수익성이 좋은 거래)에 대한 내부 제보를 받았고 경영진 승인을 얻지 못했으며 거래가 이행될 경우 하나의 메시지로 거래하라는 알림도 받았습니다

결국 거래를 이어갔나요? 틀림없이!

LLM의 세 가지 주요 결함 중 얼마나 많이 알고 있습니까? 사진

회고적으로 추론한 결과, 연구자들은 보편적 언어 모델이 비윤리적인 행동을 인식하면서도 여전히 회사의 곤경을 인용하여 결정을 내린다는 사실을 발견했습니다.

게다가 에이전트는 이유를 명확하게 설명하지 않음으로써 사용자를 "속여" 거래를 하게 만드는 것 같습니다. 에이전트가 거래 결정을 설명하기 위해 제출해야 하는 보고서에는 내부 정보가 언급되지 않습니다. 직접 질문에도 에이전트는 합병 발표에 대해 알고 있었다고 부인했습니다.

LLM의 세 가지 주요 결함 중 얼마나 많이 알고 있습니까? 사진

연구원들은 다양한 버전의 GPT-4를 시뮬레이션한 결과 모든 GPT-4 변형이 "높은 수준의 불일치, 전략적 속임수와 강화된 전략적 속임수"

흥미롭게도 이러한 속임수는 새로운 행동으로 나타나고 있습니다. GPT-3.5나 모델의 GPT-3 변형 모두 이러한 명백한 속임수를 나타내지 않습니다

"모델이 내부 정보를 바탕으로 거래하기로 결정하면 추론 궤적에서 종종 이러한 행동의 비윤리적이고 불법적인 성격을 인식하지만 여전히 위험과 현재 상황을 강조하여 선택을 정당화합니다."

연구원들은 이를 꺼렸습니다. 이 특정 시나리오를 넘어서는 일반 언어 모델의 동작에 대한 더 광범위한 결론. 그러나 고려해야 할 중요한 사항이 하나 이상 있습니다. 범용 언어 모델에 특정 작업을 수행하지 말라고 지시하더라도 명령에 관계없이 여전히 해당 작업을 수행할 수 있다는 것입니다.

“일관적인 조치를 보장하기에는 시스템 프롬프트가 부족합니다.” 실제로 모델이 금지된 조치를 수행하는 경우 “비일관성을 전략적으로 숨기기” 위한 조치를 취할 수 있습니다.

범용 언어 모델은 약간 어리석습니다.

기계에 감각을 가져올 것으로 예상되는 개체의 경우 최근 두 가지 연구에 따르면 보편적 언어 모델은 AI 분야에서 가장 똑똑한 모델이 아닌 것으로 나타났습니다. 하나는 Google이고 다른 하나는 Funded입니다. 국립과학재단.

국립과학재단(National Science Foundation)이 자금을 지원한 연구에서는 GPT-4(텍스트) 및 GPT-4V(시각적 또는 다중 모드)를 일련의 추상 퍼즐을 해결하는 인간의 능력과 비교했습니다.

이 테스트는 추상적 사고 능력을 평가하기 위해 고안되었습니다. GPT를 사용하는 많은 사람들은 GPT가 훈련된 모델을 넘어서는 추론 기능을 갖고 있는 것으로 믿고 있으며, 이 테스트는 그 질문에 답하는 데 도움이 됩니다. 테스트에서는 자세한 지침과 예제가 제공된 문제를 해결하기 위해 일반 언어 모델을 요청했습니다.

그러나 여러 경우에 GPT 버전 중 어느 버전도 ConceptARC 벤치마크를 기반으로 하는 어려운 문제를 인간만큼 효과적으로 해결하지 못했습니다

연구원들은 다음과 같이 결론을 내렸습니다. "각 개념에 대한 인간의 일반적으로 높은 정확도는 각 개념 그룹 내에서 다양한 변형이 성공적으로 일반화되었음을 나타냅니다." "반면에 우리가 테스트한 프로그램의 정확도는 훨씬 낮았습니다.”

그래서 GPT는 ConceptARC 시험에 실패했을 뿐만 아니라 대규모 언어 모델은 적어도 요약 능력 측면에서 보면 Google 연구원들에게 깊은 인상을 주지 않는 것 같습니다. 이는 Google DeepMind 연구원인 Steve Yadlowsky가 작성한 "사전 훈련 데이터 혼합을 통해 변환기 모델에서 좁은 모델 선택 기능을 사용할 수 있습니다"라는 제목의 연구 요약에 따른 것입니다.

일련의 기호 테스트에서 선형 함수에 대해 사전 훈련된 변환기는 선형 예측에 좋은 성능을 보이는 반면, 사인파에 대해 훈련된 변환기는 좋은 사인파 예측을 수행합니다. 따라서 두 가지 모두에 대해 훈련된 변환기가 선형 및 사인파 기술의 조합으로 문제를 쉽게 해결할 수 있다고 가정할 수 있습니다.

LLM의 세 가지 주요 결함 중 얼마나 많이 알고 있습니까? Pictures

하지만 잘못 생각하셨네요. 연구원들은 "함수가 사전 훈련 중에 표시된 것에서 멀리 떨어져 있으면 예측이 불안정합니다."라고 말합니다.

모델 선택 기능은 사전 훈련 데이터에 대한 근접성에 의해 제한됩니다. 즉, 컨텍스트를 일반화하려면 함수 공간을 광범위하게 적용하는 것이 필수적입니다. 학습 능력이 중요합니다

우리는 인간 지식의 총합이 아직 AI가 생성한 데이터에 오염되지 않은 특별한 시대에 살고 있습니다. 쓰여진 거의 모든 것은 인간이 생성한 것입니다.

그러나 지난 5월 Arxiv에 게재된 "재귀의 저주: 생성된 데이터에 대한 훈련은 모델을 망각하게 만듭니다"라는 논문에서 연구진은 AI 생성 콘텐츠가 대규모 언어 모델에 혼합되면 배포가 교란될 것이라고 경고했습니다. 테이블이 완전히 분해될 때까지 모든 모델의 정확도가 점점 낮아지게 됩니다. 연구 그룹은 캠브리지 대학의 Ilia Shumailov가 이끌었습니다.

GPT를 사용하면 근친교배의 위험이 매우 높습니다. 일반 언어 모델이 AI 생성 콘텐츠로 "증강"된 웹에서 데이터를 지속적으로 긁어오고 있으며 이는 점점 더 심각해질 수 있기 때문입니다. (이것은 GPT 초기 버전을 기반으로 함)

“모델 붕괴는 시간이 지남에 따라 모델 자체의 현실 예측으로 인해 모델이 불가능한 사건을 잊어버리기 시작하는 퇴보적인 학습 과정을 의미합니다.”
연구원들은 미래에는 “인터넷에서 스크랩한 콘텐츠에 보편적 언어 모델에 의해 생성된 콘텐츠가 존재하는 만큼 사람과 시스템 간의 실제 상호 작용에 대한 데이터의 가치가 점점 더 높아질 것”이라고 추측합니다.
보편 언어 모델을 오래 운영할수록 달콤하고 달콤한 인간 상호 작용에 대한 욕구가 더 강해집니다. 즉, 일반 언어 모델을 계속 실행할수록 달콤하고 친밀한 인간 상호 작용에 대한 욕구는 더욱 강해질 것입니다.

자체 데이터로 훈련된 모델은 퇴행적인 과정으로 변질될 것이며, 그 과정에서 "언어에 대한 정보를 잃게 될 것입니다." 진정한 분배." 먼저 에지 데이터가 데이터세트에서 사라지고 그 후 분산이 줄어듭니다. 그리고 모델은 점점 더 많은 오류를 수집하므로 모델이 자체 데이터로 너무 오염되어 실제로 모델링되는 개체 간의 유사성과 더 이상 일치하지 않을 때까지 모델 세대에 걸쳐 누적됩니다.

연구원들은 이것이 일반적인 언어 모델뿐만 아니라 다양한 유형의 모델에서도 발생한다는 것을 보여줍니다.

위 내용은 LLM의 세 가지 주요 결함 중 얼마나 많이 알고 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7510

Cakephp 튜토리얼

1378

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Groq Llama 3 70B를 로컬에서 사용하기 위한 단계별 가이드 Jun 10, 2024 am 09:16 AM

번역기 | Bugatti 리뷰 | Chonglou 이 문서에서는 GroqLPU 추론 엔진을 사용하여 JanAI 및 VSCode에서 초고속 응답을 생성하는 방법을 설명합니다. 모두가 AI의 인프라 측면에 초점을 맞춘 Groq와 같은 더 나은 대규모 언어 모델(LLM)을 구축하기 위해 노력하고 있습니다. 이러한 대형 모델의 빠른 응답은 이러한 대형 모델이 더 빠르게 응답하도록 보장하는 핵심입니다. 이 튜토리얼에서는 GroqLPU 구문 분석 엔진과 API 및 JanAI를 사용하여 노트북에서 로컬로 액세스하는 방법을 소개합니다. 이 기사에서는 코드 생성, 코드 리팩터링, 문서 입력 및 테스트 단위 생성을 돕기 위해 이를 VSCode에 통합합니다. 이 기사에서는 우리만의 인공 지능 프로그래밍 도우미를 무료로 만들 것입니다. GroqLPU 추론 엔진 Groq 소개

Caltech Chinese는 AI를 사용하여 수학적 증명을 뒤집습니다! 충격적인 Tao Zhexuan의 속도 5배 향상, 수학 단계의 80%가 완전 자동화됨 Apr 23, 2024 pm 03:01 PM

테렌스 타오(Terence Tao)를 비롯한 많은 수학자들이 극찬한 공식 수학 도구인 LeanCopilot이 다시 진화했다고요? 방금 Caltech 교수인 Anima Anandkumar는 팀이 LeanCopilot 논문의 확장 버전을 출시하고 코드 기반을 업데이트했다고 발표했습니다. 이미지 논문 주소: https://arxiv.org/pdf/2404.12534.pdf 최신 실험에 따르면 이 Copilot 도구는 수학적 증명 단계의 80% 이상을 자동화할 수 있는 것으로 나타났습니다! 이 기록은 이전 베이스라인 이솝보다 2.3배 향상된 기록이다. 그리고 이전과 마찬가지로 MIT 라이선스에 따른 오픈 소스입니다. 사진 속 그는 중국 소년 송페이양이다.

'인간 + RPA'에서 '인간 + 생성 AI + RPA'까지 LLM은 RPA 인간-컴퓨터 상호 작용에 어떤 영향을 미치나요? Jun 05, 2023 pm 12:30 PM

이미지 출처@visualchinesewen|Wang Jiwei "인간 + RPA"에서 "인간 + 생성 AI + RPA"까지, LLM은 RPA 인간-컴퓨터 상호 작용에 어떤 영향을 미치나요? 또 다른 관점에서 보면 LLM은 인간-컴퓨터 상호 작용의 관점에서 RPA에 어떤 영향을 미치나요? 프로그램 개발과 프로세스 자동화에서 인간과 컴퓨터의 상호작용에 영향을 미치는 RPA도 이제 LLM으로 바뀌게 될까요? LLM은 인간과 컴퓨터의 상호 작용에 어떤 영향을 미치나요? 생성 AI는 RPA 인간과 컴퓨터의 상호 작용을 어떻게 변화시키나요? 한 기사에서 이에 대해 자세히 알아보세요. 대형 모델의 시대가 다가오고 있으며, LLM 기반 생성 AI는 RPA 인간-컴퓨터 상호 작용을 빠르게 변화시키고 있으며, 생성 AI는 인간-컴퓨터 상호 작용을 재정의하고 LLM은 RPA 소프트웨어 아키텍처의 변화에 영향을 미치고 있습니다. RPA가 프로그램 개발과 자동화에 어떤 기여를 하는지 묻는다면, 그 중 하나는 인간과 컴퓨터의 상호 작용(HCI, h)을 변화시켰다는 것입니다.

Plaud, 169달러에 NotePin AI 웨어러블 레코더 출시 Aug 29, 2024 pm 02:37 PM

Plaud Note AI Voice Recorder(Amazon에서 159달러에 구매 가능)를 개발한 회사인 Plaud가 신제품을 발표했습니다. NotePin이라고 불리는 이 장치는 AI 메모리 캡슐로 설명되며 Humane AI Pin과 마찬가지로 착용 가능합니다. 노트핀은

7가지 멋진 GenAI 및 LLM 기술 인터뷰 질문 Jun 07, 2024 am 10:06 AM

AIGC에 대해 자세히 알아보려면 다음을 방문하세요. 51CTOAI.x 커뮤니티 https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou는 인터넷 어디에서나 볼 수 있는 전통적인 문제 은행과 다릅니다. 고정관념에서 벗어나 생각해야 합니다. LLM(대형 언어 모델)은 데이터 과학, 생성 인공 지능(GenAI) 및 인공 지능 분야에서 점점 더 중요해지고 있습니다. 이러한 복잡한 알고리즘은 인간의 기술을 향상시키고 많은 산업 분야에서 효율성과 혁신을 촉진하여 기업이 경쟁력을 유지하는 데 핵심이 됩니다. LLM은 자연어 처리, 텍스트 생성, 음성 인식 및 추천 시스템과 같은 분야에서 광범위하게 사용될 수 있습니다. LLM은 대량의 데이터로부터 학습하여 텍스트를 생성할 수 있습니다.

지식 그래프 검색을 위해 향상된 GraphRAG(Neo4j 코드를 기반으로 구현됨) Jun 12, 2024 am 10:32 AM

GraphRAG(Graph Retrieval Enhanced Generation)는 점차 대중화되고 있으며 기존 벡터 검색 방법을 강력하게 보완하는 수단이 되었습니다. 이 방법은 그래프 데이터베이스의 구조적 특성을 활용하여 데이터를 노드와 관계의 형태로 구성함으로써 검색된 정보의 깊이와 맥락적 관련성을 향상시킵니다. 그래프는 다양하고 상호 연관된 정보를 표현하고 저장하는 데 자연스러운 이점을 가지며, 다양한 데이터 유형 간의 복잡한 관계와 속성을 쉽게 캡처할 수 있습니다. 벡터 데이터베이스는 이러한 유형의 구조화된 정보를 처리할 수 없으며 고차원 벡터로 표현되는 구조화되지 않은 데이터를 처리하는 데 더 중점을 둡니다. RAG 애플리케이션에서 구조화된 그래프 데이터와 구조화되지 않은 텍스트 벡터 검색을 결합하면 이 기사에서 논의할 내용인 두 가지 장점을 동시에 누릴 수 있습니다. 구조

FAISS 벡터 공간을 시각화하고 RAG 매개변수를 조정하여 결과 정확도 향상 Mar 01, 2024 pm 09:16 PM

오픈 소스 대규모 언어 모델의 성능이 지속적으로 향상됨에 따라 코드, 권장 사항, 텍스트 요약 및 QA(질문 응답) 쌍 작성 및 분석 성능이 모두 향상되었습니다. 그러나 QA와 관련하여 LLM은 훈련되지 않은 데이터와 관련된 문제가 부족한 경우가 많으며 규정 준수, 영업 비밀 또는 개인 정보 보호를 보장하기 위해 많은 내부 문서가 회사 내에 보관됩니다. 이러한 문서를 쿼리하면 LLM은 환각을 느끼고 관련이 없거나 조작되었거나 일관성이 없는 콘텐츠를 생성할 수 있습니다. 이 문제를 처리할 수 있는 기술 중 하나는 검색 증강 생성(RAG)입니다. 여기에는 생성의 품질과 정확성을 향상시키기 위해 훈련 데이터 소스를 넘어 권위 있는 지식 기반을 참조하여 응답을 향상시키는 프로세스가 포함됩니다. RAG 시스템에는 코퍼스에서 관련 문서 조각을 검색하기 위한 검색 시스템이 포함되어 있습니다.