


Chen Danqi의 ACL 학술 보고서가 나왔습니다! 대형 모델 '플러그인' 데이터베이스의 7가지 주요 방향과 3가지 주요 과제에 대한 자세한 설명, 유용한 정보가 가득한 3시간
Tsinghua Yao Class 졸업생 Chen Danqi가 ACL 2023에서 최근 연설을 했습니다!
이 주제는 최근에도 여전히 매우 뜨거운 연구 방향입니다 -
GPT-3, PaLM 및 기타 (big)언어 모델과 같이 자신의 단점을 보완하기 위해 검색에 의존해야 하는지, 애플리케이션을 더 잘 구현하기 위해?
이 연설에서 그녀와 다른 세 명의 연사는 훈련 방법, 적용 및 과제를 포함하여 이 주제에 대한 몇 가지 주요 연구 방향을 공동으로 소개했습니다.
사진
연설 중 청중들의 반응도 매우 뜨거웠습니다. 많은 네티즌들이 진지하게 질문을 제기했고, 몇몇 연사들은 그들의 질문에 최선을 다해 답변해 주었습니다.
Pictures
이 연설의 구체적인 효과는 무엇입니까? 일부 네티즌들은 댓글창에 직접 '추천'이라는 댓글을 달기도 했다.
Pictures
그럼 3시간에 걸친 연설에서 두 사람은 정확히 무슨 이야기를 나눴을까요? 또 어떤 곳에서 들을 만한 가치가 있나요?
대형 모델에 "플러그인" 데이터베이스가 필요한 이유는 무엇입니까?
이 연설의 핵심 주제는 "검색 기반 언어 모델"이며, 여기에는 검색과 언어 모델이라는 두 가지 요소가 포함됩니다.
정의에서 데이터 검색 데이터베이스를 언어 모델에 "플러그인"하고, 추론(및 기타 작업)을 수행할 때 이 데이터베이스를 검색하고, 최종적으로 검색 결과를 기반으로 출력하는 것을 의미합니다.
이러한 유형의 플러그인 데이터 저장소를 반모수적 모델 또는 비모수적 모델이라고도 합니다.
Pictures
이 방향을 연구해야 하는 이유는 GPT-3, PaLM 등의 (대형)언어 모델이 좋은 결과를 보여주었지만 골치 아픈 부분도 있었기 때문입니다.", 세 가지 주요 문제가 있습니다:
1, 매개변수 수가 너무 많고, 새로운 데이터를 기반으로 재학습하면 계산 비용이 너무 높습니다.
2, 메모리가 좋지 않습니다(직면) 긴 텍스트로 인해 다음 내용을 기억하는 것을 잊어버렸습니다. 위) 시간이 지남에 따라 환각을 일으키고 데이터가 유출되기 쉽습니다.
3 현재 매개 변수의 양으로는 모든 지식을 기억하는 것이 불가능합니다.
이 경우, 대형 언어 모델용 데이터베이스를 "플러그인"하여 언제든지 정보를 검색하여 질문에 답할 수 있고 이 데이터베이스를 업데이트할 수 있는 외부 검색 코퍼스가 제안되었습니다. 언제든지 재교육 비용 문제에 대해 걱정할 필요가 없습니다.
정의와 배경을 소개한 후에는 이 연구 방향의 구체적인 아키텍처, 교육, 다중 양식, 응용 및 과제에 대해 논의할 시간입니다.
아키텍처에서는 주로 언어 모델 검색을 기반으로 한 콘텐츠, 검색 방법 및 검색 "타이밍"을 소개합니다.
구체적으로 이 유형의 모델은 주로 토큰, 텍스트 블록 및 엔터티 단어(엔티티 언급)를 검색합니다. 검색을 사용하는 방법과 시기도 매우 다양하여 매우 유연한 모델 아키텍처입니다.
사진
훈련방법으로는 독립적 훈련(독립 훈련, 언어 모델, 검색 모델이 별도로 훈련됨), 연속 학습(순차 훈련), 다중 작업에 중점을 둡니다. 학습(합동 훈련) 및 기타 방법.
Pictures
application의 경우 이러한 유형의 모델은 코드 생성, 분류, 지식 집약적 NLP 및 기타 작업에 사용될 수 있을 뿐만 아니라 미세 조정, 강화를 통해서도 사용될 수 있습니다. 학습, 검색 프롬프트 단어 등의 방법을 기반으로 사용할 수 있습니다.
롱테일 시나리오, 지식 업데이트가 필요한 시나리오, 개인 정보 보호 및 보안과 관련된 시나리오 등 애플리케이션 시나리오도 매우 유연합니다. 이러한 유형의 모델은 사용할 수 있는 곳이 있습니다.
물론 텍스트에만 국한되는 것은 아닙니다. 이러한 유형의 모델은 다중 모드 확장 가능성도 있어 텍스트 이외의 작업에도 사용할 수 있습니다.
Pictures
이 유형의 모델에는 많은 장점이 있는 것처럼 들리지만 검색 기반 언어 모델을 기반으로 하는 몇 가지 도전과제도 있습니다.
마지막 "결말" 연설에서 Chen Danqi는 이 연구 방향에서 해결해야 할 몇 가지 주요 문제를 강조했습니다.
첫째, 작은 언어 모델 + (지속적 확장) 대규모 데이터베이스, 이는 본질적으로 언어 모델의 매개변수 수가 여전히 매우 크다는 것을 의미합니까? 이 문제를 해결하는 방법?
예를 들어, 이러한 유형의 모델의 매개변수 수는 매우 작아서 70억 개의 매개변수에 불과하지만 플러그인 데이터베이스는 2T에 도달할 수 있습니다...
Pictures
두 번째, 유사성의 효율성 찾다. 검색 효율성을 극대화하기 위한 알고리즘을 설계하는 방법은 현재 매우 활발한 연구 방향입니다.
Pictures
셋째, 복잡한 언어 작업을 완료하세요. 개방형 텍스트 생성 작업과 복잡한 텍스트 추론 작업을 포함하여 검색 기반 언어 모델을 사용하여 이러한 작업을 완료하는 방법도 지속적인 탐구가 필요한 방향입니다.
Pictures
물론 Chen Danqi도 이러한 주제가 도전일 뿐만 아니라 연구 기회라고 언급했습니다. 아직도 논문 주제를 찾고 있는 친구들은 연구 목록에 추가할지 고려해 보세요~
이 연설은 "무작위" 주제가 아니라는 점을 언급할 가치가 있습니다. 네 명의 발표자가 공식에서 신중하게 언급했습니다. 웹사이트 연설에서 언급된 논문에 대한 링크가 공개되었습니다.
모델 아키텍처, 훈련 방법, 애플리케이션, 다중 양식부터 과제까지, 이러한 주제의 어느 부분에든 관심이 있다면 공식 웹사이트로 이동하여 해당 고전 논문을 찾을 수 있습니다:
Pictures
현장 청중의 혼란에 답하다
이렇게 유익한 연설을 위해 4명의 기조연설자들은 연설 중에도 청중들이 제기한 질문에 인내심을 갖고 답변해 주었습니다.
먼저 강강의 연사가 누구인지부터 이야기해보겠습니다.
첫 번째는 이번 연설을 주도한 프린스턴 대학교 컴퓨터 공학과 조교수 Chen Danqi입니다.
Pictures
그녀는 최근 컴퓨터 과학 분야에서 가장 인기 있는 중국 젊은 학자 중 한 명이며, 2008년 칭화 야오 클래스 졸업생이기도 합니다.
정보학 경쟁계에서 그녀는 매우 전설적입니다. CDQ 분할 정복 알고리즘은 그녀의 이름을 따서 명명되었습니다. 2008년에는 중국 대표팀을 대표해 IOI 금메달을 획득했다.
그리고 그녀의 156페이지 분량의 박사 논문 "신경 독해 및 그 너머"는 한때 큰 인기를 끌었습니다. 그 해 스탠포드 최우수 박사 논문 상을 수상했을 뿐만 아니라 지난 10년 동안 스탠포드 대학에서 가장 인기 있는 주제가 되기도 했습니다. .졸업 논문 중 하나입니다.
현재 Chen Danqi는 프린스턴 대학의 컴퓨터 과학 조교수일 뿐만 아니라 학교 NLP 팀의 공동 리더이자 AIML 팀의 멤버이기도 합니다.
그녀의 연구 방향은 주로 자연어 처리와 기계 학습에 중점을 두고 있으며, 실제 문제에서 실행 가능하고 확장 가능하며 일반화 가능한 간단하고 신뢰할 수 있는 방법에 관심이 있습니다.
또한 프린스턴 대학교 출신인 Chen Danqi의 제자인 Zhong Zexuan(Zexuan Zhong)이 있습니다.
Pictures
Zhong Zexuan은 프린스턴 대학의 4년차 박사 과정 학생입니다. 저는 Xie Tao의 지도 하에 일리노이 대학교 Urbana-Champaign에서 석사 학위를 취득했으며 북경 대학교에서 컴퓨터 공학과를 학사 학위로 졸업하고 Microsoft Research Asia의 감독 하에 인턴으로 일했습니다. 니에 자이칭.
그의 최근 연구는 비정형 텍스트에서 구조화된 정보 추출, 사전 훈련된 언어 모델에서 사실 정보 추출, 밀집 검색 모델의 일반화 기능 분석, 검색 기반 언어 모델 기술을 위한 교육 개발에 중점을 두고 있습니다.
또한 기조 연설자로는 워싱턴 대학교의 Akari Asai와 Sewon Min이 포함됩니다.
Pictures
Akari Asai는 워싱턴 대학에서 자연어 처리를 전공하는 4년차 박사 과정 학생입니다. 그는 일본 도쿄 대학에서 학사 학위를 받았습니다.
그녀는 정보 획득 능력을 향상시키기 위해 안정적이고 적응 가능한 자연어 처리 시스템을 개발하는 데 주로 관심이 있습니다.
최근 그녀의 연구는 주로 일반 지식 검색 시스템, 효율적인 적응형 NLP 모델 및 기타 분야에 중점을 두고 있습니다.
Pictures
민세원은 워싱턴 대학 자연어 처리 그룹의 박사과정 학생입니다. 그는 박사과정 동안 Meta AI에서 연구원으로 4년 동안 일했습니다. 서울대학교에서 학사 학위를 받았습니다.
최근 그녀는 주로 언어 모델링, 검색 및 둘의 교차점에 중점을 두고 있습니다.
연설이 진행되는 동안 청중들은 왜 당황(perplexity)이 연설의 주요 지표로 사용되는지 등 많은 질문을 열성적으로 했습니다.
Pictures
화자는 조심스럽게 대답했습니다.
매개변수화된 언어 모델을 비교할 때 perplexity(PPL)이 자주 사용됩니다. 그러나 복잡성의 개선이 다운스트림 애플리케이션으로 전환될 수 있는지 여부는 여전히 연구 문제로 남아 있습니다.
이제 연구 결과에 따르면 Perplexity는 다운스트림 작업 (특히 생성 작업) 과 잘 연관되어 있으며 Perplexity는 종종 매우 안정적인 결과를 제공하며 대규모 평가 데이터로 평가할 수 있습니다 (평가 데이터는 다운스트림 작업에 비해 라벨이 지정되지 않음) , 큐 민감도 및 대규모 레이블 데이터 부족으로 인해 영향을 받아 불안정한 결과가 발생할 수 있음) .
Pictures
일부 네티즌들이 이 질문을 제기했습니다:
"언어 모델의 훈련 비용이 높으며 검색을 도입하면 이 문제가 해결될 수 있습니다"라는 진술에 대해 시간 복잡도를 공간으로 바꾸면 됩니다. 복잡성 (데이터 저장) ?
화자의 답변은 Jiang 이모님의 답변입니다.
우리 토론의 초점은 언어 모델을 더 작은 크기로 줄여 시간과 공간 요구 사항을 줄이는 방법입니다. 그러나 데이터 저장은 실제로 추가 오버헤드를 추가하므로 신중하게 평가하고 연구해야 하며 이것이 현재의 과제라고 믿습니다.
100억 개가 넘는 매개변수를 가진 언어 모델을 훈련시키는 것에 비해, 지금 가장 중요한 것은 훈련 비용을 줄이는 것이라고 생각합니다.
Pictures
이 연설의 PPT를 찾거나 특정 재생을 보려면 공식 웹사이트로 이동하세요~
공식 웹사이트: https://acl2023-retrieval- lm.github.io /
위 내용은 Chen Danqi의 ACL 학술 보고서가 나왔습니다! 대형 모델 '플러그인' 데이터베이스의 7가지 주요 방향과 3가지 주요 과제에 대한 자세한 설명, 유용한 정보가 가득한 3시간의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

대규모 언어 모델(LLM)을 인간의 가치와 의도에 맞추려면 인간의 피드백을 학습하여 유용하고 정직하며 무해한지 확인하는 것이 중요합니다. LLM 정렬 측면에서 효과적인 방법은 인간 피드백 기반 강화 학습(RLHF)입니다. RLHF 방법의 결과는 훌륭하지만 몇 가지 최적화 문제가 있습니다. 여기에는 보상 모델을 훈련한 다음 해당 보상을 극대화하기 위해 정책 모델을 최적화하는 것이 포함됩니다. 최근 일부 연구자들은 더 간단한 오프라인 알고리즘을 탐구했는데, 그 중 하나가 직접 선호 최적화(DPO)입니다. DPO는 RLHF의 보상 기능을 매개변수화하여 선호도 데이터를 기반으로 직접 정책 모델을 학습하므로 명시적인 보상 모델이 필요하지 않습니다. 이 방법은 간단하고 안정적입니다.

소프트웨어 기술의 선두에 있는 UIUC Zhang Lingming 그룹은 BigCode 조직의 연구원들과 함께 최근 StarCoder2-15B-Instruct 대규모 코드 모델을 발표했습니다. 이 혁신적인 성과는 코드 생성 작업에서 획기적인 발전을 이루었으며 CodeLlama-70B-Instruct를 성공적으로 능가하고 코드 생성 성능 목록의 최상위에 올랐습니다. StarCoder2-15B-Instruct의 독창성은 순수한 자체 정렬 전략에 있습니다. 전체 훈련 프로세스는 개방적이고 투명하며 완전히 자율적이고 제어 가능합니다. 이 모델은 값비싼 수동 주석에 의존하지 않고 StarCoder-15B 기본 모델을 미세 조정한 것에 대한 응답으로 StarCoder2-15B를 통해 수천 개의 명령을 생성합니다.

Apple의 최신 iOS18, iPadOS18 및 macOS Sequoia 시스템 릴리스에는 사진 애플리케이션에 중요한 기능이 추가되었습니다. 이 기능은 사용자가 다양한 이유로 손실되거나 손상된 사진과 비디오를 쉽게 복구할 수 있도록 설계되었습니다. 새로운 기능에는 사진 앱의 도구 섹션에 '복구됨'이라는 앨범이 도입되었습니다. 이 앨범은 사용자가 기기에 사진 라이브러리에 포함되지 않은 사진이나 비디오를 가지고 있을 때 자동으로 나타납니다. "복구된" 앨범의 출현은 데이터베이스 손상으로 인해 손실된 사진과 비디오, 사진 라이브러리에 올바르게 저장되지 않은 카메라 응용 프로그램 또는 사진 라이브러리를 관리하는 타사 응용 프로그램에 대한 솔루션을 제공합니다. 사용자는 몇 가지 간단한 단계만 거치면 됩니다.

1. 소개 지난 몇 년 동안 YOLO는 계산 비용과 감지 성능 간의 효과적인 균형으로 인해 실시간 객체 감지 분야에서 지배적인 패러다임이 되었습니다. 연구원들은 YOLO의 아키텍처 설계, 최적화 목표, 데이터 확장 전략 등을 탐색하여 상당한 진전을 이루었습니다. 동시에 사후 처리를 위해 NMS(비최대 억제)에 의존하면 YOLO의 엔드투엔드 배포가 방해되고 추론 대기 시간에 부정적인 영향을 미칩니다. YOLO에서는 다양한 구성 요소의 설계에 포괄적이고 철저한 검사가 부족하여 상당한 계산 중복이 발생하고 모델 기능이 제한됩니다. 이는 최적이 아닌 효율성을 제공하며 성능 향상을 위한 상대적으로 큰 잠재력을 제공합니다. 이 작업의 목표는 사후 처리와 모델 아키텍처 모두에서 YOLO의 성능 효율성 경계를 더욱 향상시키는 것입니다. 이를 위해

OpenAI를 겨냥한 프랑스 AI 유니콘 MistralAI가 새로운 행보를 보였습니다. 최초의 대형 코드 모델인 Codestral이 탄생했습니다. 코드 생성 작업을 위해 특별히 설계된 개방형 생성 AI 모델인 Codestral은 지침 및 완성 API 엔드포인트를 공유하여 개발자가 코드를 작성하고 코드와 상호 작용할 수 있도록 돕습니다. Codestral의 코딩 및 영어 능력을 통해 소프트웨어 개발자는 고급 AI 애플리케이션을 설계할 수 있습니다. Codestral의 매개변수 크기는 22B이며 새로운 MistralAINon-ProductionLicense를 준수하며 연구 및 테스트 목적으로 사용할 수 있지만 상업적인 사용은 금지됩니다. 현재 해당 모델은 HuggingFace에서 다운로드 가능합니다. 다운로드 링크

표적 탐지 시스템의 벤치마크 YOLO 시리즈가 다시 한 번 대대적인 업그레이드를 받았습니다. 올해 2월 YOLOv9이 출시된 이후 YOLO(YouOnlyLookOnce) 시리즈의 지휘봉은 칭화대학교 연구진의 손에 넘어갔다. 지난 주말 YOLOv10 출시 소식이 AI 커뮤니티의 관심을 끌었다. 컴퓨터 비전 분야의 획기적인 프레임워크로 간주되며 실시간 엔드투엔드 개체 감지 기능으로 유명하며 효율성과 정확성을 결합한 강력한 솔루션을 제공함으로써 YOLO 시리즈의 유산을 이어갑니다. 논문 주소: https://arxiv.org/pdf/2405.14458 프로젝트 주소: https://github.com/THU-MIG/yo

MySQLi를 사용하여 PHP에서 데이터베이스 연결을 설정하는 방법: MySQLi 확장 포함(require_once) 연결 함수 생성(functionconnect_to_db) 연결 함수 호출($conn=connect_to_db()) 쿼리 실행($result=$conn->query()) 닫기 연결( $conn->close())
