목차
1. 제너레이티브 모델 상용화
2. 생성 모델 소개
1. 주류 대형 언어 모델: LaMDA
2. 주류 대형 언어 모델: InstructGPT
3. 주류 대형 언어 모델: Cluade
3. 대형 언어 모델의 성능
4. 생성 모델 식별
V. 요약 및 전망
References
기술 주변기기 일체 포함 ChatGPT 특별 주제: 대규모 언어 모델의 기능과 미래

ChatGPT 특별 주제: 대규모 언어 모델의 기능과 미래

May 02, 2023 pm 09:34 PM
일체 포함 chatgpt 언어 모델

1. 제너레이티브 모델 상용화

요즘 제너레이티브 AI 트랙이 뜨겁습니다. PitchBook 통계에 따르면 생성 AI 트랙은 2022년에 총 약 14억 달러의 자금 조달을 받게 되며 이는 지난 5년간의 총액에 거의 도달합니다. OpenAI, Stability AI 등 스타 기업과 Jasper, Regie.AI, Replika 등 기타 스타트업도 모두 자본 지원을 받았습니다.

ChatGPT 특별 주제: 대규모 언어 모델의 기능과 미래

금융 금액과 시간의 관계 그래프

Stability AI는 2022년 10월 약 1억 달러의 자금 조달을 받아 사용자가 입력한 텍스트 설명을 기반으로 이미지를 생성할 수 있는 오픈 소스 모델 Stable Diffusion을 출시했습니다. AI 회화 분야를 폭발시킨다. ChatGPT가 공개 베타를 발표한 지 5일 만인 2022년 11월 30일, 전 세계 사용자 수가 100만 명을 넘어섰습니다. 출시된 지 40일도 채 되지 않아 일일 활성 사용자가 1,000만 명을 넘어섰습니다. 2023년 3월 15일 이른 아침, OpenAI는 현재 가장 강력한 GPT 시리즈 모델인 GPT-4를 출시했습니다. 이는 이미지와 텍스트 입력을 수용하고 텍스트 출력을 생성할 수 있는 대규모 다중 모드 모델을 제공하며 이는 파괴적인 영향을 미칩니다. 업계에서. 2023년 3월 17일 Microsoft는 Microsoft 365 Copilot 컨퍼런스를 개최하고 OpenAI의 GPT-4 모델을 Office 제품군에 공식 설치하고 새로운 AI 기능인 Copilot을 출시했습니다. PPT를 만들고 카피를 작성할 수 있을 뿐만 아니라 분석을 수행하고 비디오를 생성할 수도 있습니다. 또한 국내 주요 제조사들도 ChatGPT와 유사한 제품 출시를 발표했다. 2월 8일, 알리바바 전문가들은 다모 아카데미가 ChatGPT와 유사한 대화형 로봇을 개발하고 있으며 테스트를 위해 회사 내 직원들에게 공개했다는 소식을 전했습니다. AI 대형 모델 기술과 DingTalk 생산성 도구의 긴밀한 결합이 가능합니다. 2월 8일, JD.com 부사장 He Xiaodong은 다음과 같이 솔직하게 말했습니다. JD.com은 ChatGPT 분야에서 풍부한 시나리오와 고품질 데이터를 보유하고 있습니다. 2월 9일 텐센트 관계자는 “텐센트도 현재 ChatGPT 및 AI 기반 콘텐츠와 유사한 제품에 대한 계획을 갖고 있으며, 특별 연구도 순조롭게 진행되고 있다”고 말했다. NetEase는 자사의 교육 사업이 AI 말하기 교사, 에세이 채점 및 평가 등을 포함하되 이에 국한되지 않는 AI 생성 콘텐츠를 통합할 것이라고 밝혔습니다. 3월 16일, Baidu는 대규모 언어 모델 및 생성 AI 제품인 "Wen Xin Yi Yan"을 공식 출시했습니다. 출시 이틀 후 12개 회사가 첫 번째 계약 협력을 완료하고 Baidu 지능형 클라우드 Wen Xin Yi Yan API 호출을 신청했습니다. 테스트한 회사 수는 90,000개에 달했습니다.

현재 대형 모델은 점차 우리 생활 속으로 파고들고 있습니다. 앞으로는 사회 각계각층이 지각변동을 겪을 가능성이 높습니다. ChatGPT를 예로 들면 다음과 같은 측면이 포함됩니다.

  • ChatGPT+ 미디어: 지능적인 뉴스 작성을 실현하고 뉴스의 효율성을 향상할 수 있습니다.
  • ChatGPT+ 영화 및 텔레비전: 공익을 기반으로 영화 및 TV 콘텐츠를 맞춤화하고 더 높은 수준의 정보를 얻습니다. 영화 및 TV 제작팀은 콘텐츠 제작 비용을 절감하고 창작 효율성을 향상시킵니다.
  • ChatGPT+ 마케팅: 제품 마케팅을 지원하는 가상 고객 서비스 역할을 합니다. 예를 들어, 24시간 제품 소개 및 온라인 서비스를 통해 마케팅 비용을 절감할 수 있으며, 고객 요구 사항을 신속하게 파악하고 강력한 제어 가능성과 보안을 통해 안정적이고 신뢰할 수 있는 컨설팅 서비스를 제공할 수 있습니다.
  • ChatGPT+Entertainment: 실시간 채팅 개체로 우정과 재미를 향상합니다.
  • ChatGPT+ 교육: 셀프 서비스 질문을 통해 빠르게 부족한 점을 확인하고 채울 수 있는 새로운 교육 도구를 제공합니다.
  • ChatGPT+ 금융: 금융 정보를 실현하고 금융 상품 생산을 자동화하며 가상 금융 자문가를 생성합니다.
  • ChatGPT+Medical: 환자의 상태를 빠르게 이해하고 적시에 피드백을 제공하여 즉각적인 정서적 지원을 제공합니다.

여기서 주요 논의는 대규모 언어 모델의 구현이지만 실제로 다른 대규모 다중 모드 모델(오디오, 비디오, 그림)에도 광범위한 적용 시나리오가 있다는 점에 유의해야 합니다.

2. 생성 모델 소개

1. 주류 대형 언어 모델: LaMDA

Google에서 출시. LaMDA 모델은 변환기 프레임워크를 기반으로 하며 1,370억 개의 모델 매개변수를 갖고 있으며 텍스트로 장거리 종속성을 모델링할 수 있는 기능을 갖추고 있습니다. 모델은 대화를 통해 학습됩니다. 이는 주로 사전 훈련과 미세 조정의 두 가지 프로세스를 포함합니다. 사전 훈련 단계에서는 언어 모델(LM)을 훈련의 목적 함수로 사용하여 최대 1.56T의 공개 대화 데이터 세트와 웹 페이지 텍스트를 사용했습니다. 즉, 목표는 다음 문자(토큰)를 예측하는 것입니다. 미세 조정 단계에서 그들은 언어 모델에 인간의 선호도를 부여하기 위해 응답 속성(민감도, 안전성 등) 점수 매기기와 같은 여러 작업을 설계했습니다. 아래 그림은 미세 조정 작업의 한 유형을 보여줍니다.

ChatGPT 특별 주제: 대규모 언어 모델의 기능과 미래

LaMDA 모델 사전 훈련 단계

ChatGPT 특별 주제: 대규모 언어 모델의 기능과 미래

LaMDA 모델 미세 조정 단계의 작업 중 하나

LaMDA 모델은 대화 생성 작업에 중점을 두지만 종종 사실 오류를 범합니다. Google은 올해 LaMDA 모델을 기반으로 하는 Bard(실험적인 대화형 AI 서비스)를 출시했습니다. 그러나 바드의 기자회견에서 바드는 사실적 오류를 범해 수요일 구글 주가가 폭락해 장중 8% 이상 하락해 리프레시 당일 약 98달러까지 떨어졌고, 시가총액은 1100억 달러 증발했다. 실망스럽다.

2. 주류 대형 언어 모델: InstructGPT

InstructGPT 모델은 GPT 아키텍처를 기반으로 하며 주로 지도형 미세 조정(Supervise Fune-Tuning, SFT)과 인간 피드백 강화 학습(Reinforce Learning Human Fune-tuning, RLHF) . InstructGPT가 제공하는 대화형 제품인 ChatGPT는 언어 텍스트 생성에 중점을 두고 있으며 코드를 생성하고 간단한 수학 연산을 수행할 수도 있습니다. 특정 기술 세부 사항은 이전 두 호에서 자세히 논의되었습니다. 독자는 여기에서 읽을 수 있으며 여기서 반복하지는 않습니다.

ChatGPT 특별 주제: 대규모 언어 모델의 기능과 미래

InstructGPT 모델 훈련 흐름도

3. 주류 대형 언어 모델: Cluade

ChatGPT 특별 주제: 대규모 언어 모델의 기능과 미래

Cluade 모델 훈련 흐름도

Cluade는 Anthropic Company의 대화형 제품입니다. ChatGPT와 마찬가지로 Cluade는 GPT 프레임워크를 기반으로 하며 단방향 언어 모델입니다. 그러나 ChatGPT와 달리 감독된 미세 조정 및 AI 피드백을 통한 강화 학습을 통해 주로 훈련됩니다. 감독 미세 조정 단계에서는 먼저 유해 정보 금지, 인종 편견 금지 등과 같은 일련의 규칙(헌법)을 공식화한 다음 이러한 규칙을 기반으로 감독 데이터를 얻습니다. 그런 다음 AI가 응답의 품질을 판단하고 강화 학습을 위한 데이터 세트를 자동으로 훈련하게 합니다.

ChatGPT에 비해 Claude는 부적절한 요청을 더 명확하게 거부할 수 있고 문장 간의 연결도 더 자연스럽습니다. 클로드는 자신의 능력을 넘어서는 문제에 직면했을 때 기꺼이 목소리를 높였습니다. 현재 Cluade는 아직 내부 테스트 단계에 있습니다. 그러나 Scale Sepllbook 팀원의 내부 테스트 결과에 따르면 ChatGPT와 비교하여 Claude는 테스트된 12개 작업 중 8개에서 더 강했습니다.

3. 대형 언어 모델의 성능

국내외 대형 언어 모델에 대한 통계와 모델 성능, 오픈소스 현황 등을 보유하고 있습니다.

ChatGPT 특별 주제: 대규모 언어 모델의 기능과 미래

중국에서 인기 있는 대형 언어 모델

ChatGPT 특별 주제: 대규모 언어 모델의 기능과 미래

해외에서 인기 있는 대형 언어 모델

대형 언어 모델에는 퓨샷 학습, 제로샷을 포함하되 이에 국한되지 않는 다양한 기능이 있음을 알 수 있습니다. 마이그레이션 등 기다려주세요. 그러면 매우 자연스러운 질문이 생깁니다. 이러한 능력은 어떻게 나타나는가? 대규모 언어 모델의 힘은 어디에서 오는가? 다음으로 우리는 위의 의문점에 답하려고 노력합니다.

다음 그림은 성숙한 대형 언어 모델과 그 진화 과정을 보여줍니다. 요약하면 대부분의 모델은 사전 훈련, 지침 미세 조정 및 정렬의 세 단계를 거칩니다. 대표적인 모델로는 Deepmind의 Sparrow와 OpenAI의 ChatGPT가 있습니다.

ChatGPT 특별 주제: 대규모 언어 모델의 기능과 미래

인기 있는 대형 언어 모델의 진화 다이어그램

그럼 각 단계 뒤에는 모델이 어떤 종류의 기능을 달성할 수 있나요? 에든버러 대학의 푸 야오(Fu Yao) 박사는 걸음과 능력 사이의 상응 관계에 대해 자신이 믿는 바를 요약하여 우리에게 영감을 주었습니다.

1. 사전 훈련 단계의 목표는 강력한 기본 모델을 얻는 것입니다. 이에 따라 이 단계에서 모델이 입증하는 기능에는 언어 생성, 상황 학습 기능, 세계 지식, 추론 기능 등이 포함됩니다. 이 단계의 대표적인 모델로는 GPT-3, PaLM 등이 있습니다.

2. 지시 미세 조정 단계. 이 단계의 목표는 몇 가지 긴급 능력을 잠금 해제하는 것입니다. 여기서 창발능력이란 구체적으로 소형모델에는 없고 대형모델만이 갖고 있는 능력을 말한다. 명령어 미세 조정을 거친 모델은 기본 모델에 없는 기능을 갖습니다. 예를 들어, 새로운 지침을 구성함으로써 모델은 새로운 작업을 해결할 수 있습니다. 또 다른 예는 사고 사슬의 능력입니다. 즉, 모델에 추론 과정을 보여줌으로써 모델은 올바른 추론을 모방할 수도 있습니다. 대표적인 모델은 다음과 같습니다. InstructGPT, Flan 등

정렬 단계. 이 단계의 목표는 모델이 유익한 답변을 생성하고 차별적 발언을 생성하지 않는 등 인간적인 가치를 갖도록 만드는 것입니다. 정렬 단계는 모델에 "개성"을 부여한다고 생각할 수 있습니다. 이러한 유형의 대표적인 모델이 ChatGPT이다.

ChatGPT 특별 주제: 대규모 언어 모델의 기능과 미래

대형 언어 모델의 3단계. 사진은 "푸야오: 대형 언어 모델 능력의 근원에 대하여"에서 가져온 것입니다

일반적으로 위의 세 단계는 서로 보완적이며 필수입니다. 사전 학습 단계에서 충분히 강력한 기본 모델을 확보한 경우에만 명령어 미세 조정을 통해 언어 모델의 다른 기능을 자극(또는 향상)할 수 있습니다. 정렬 단계에서는 인간 사회의 일부 요구 사항을 더 잘 준수할 수 있도록 모델에 특정 "특성"을 제공합니다.

4. 생성 모델 식별

대규모 언어 모델 기술은 편리함을 제공하지만 위험과 과제도 내포하고 있습니다. 기술적 수준에서는 유해한 발언 등 GPT에서 생성된 콘텐츠의 신뢰성을 보장할 수 없습니다. 사용 수준에서 사용자는 교육 및 과학 연구와 같은 분야에서 AI 생성 텍스트를 남용할 수 있습니다. 현재 많은 기업과 기관에서 ChatGPT 사용을 제한하기 시작했습니다. Microsoft와 Amazon은 기밀 정보 유출에 대한 우려로 인해 회사 직원이 ChatGPT에 민감한 데이터를 공유하는 것을 금지합니다. 홍콩 대학교는 홍콩 대학교의 모든 수업, 과제 및 평가에서 ChatGPT 또는 기타 인공 지능 도구를 사용하는 것을 금지합니다. 주로 업계 관련 업무를 소개합니다.

GPTZero: GPTZero는 최초의 텍스트 생성 및 식별 도구입니다. Edward Tian(미국 프린스턴 대학 CS 학부생)이 운영하는 온라인 웹사이트(https://gptzero.me/)입니다. 그 원칙은 주어진 콘텐츠를 작성한 사람을 결정하는 지표로 PPL(텍스트 혼란)에 의존합니다. 그 중 Perplexity는 본질적으로 문장이 나타날 확률을 계산하는 언어 모델의 품질을 평가하는 데 사용됩니다.

ChatGPT 특별 주제: 대규모 언어 모델의 기능과 미래

GPTZero 웹사이트 인터페이스

(여기에서는 ChatGPT를 사용하여 뉴스 보고서를 생성하고 GPTZero가 텍스트 생성 여부를 결정하도록 합니다.)

GPT2 출력 감지기: 이 도구는 OpenAI에서 출시되었습니다. RoBerta에서 미세 조정된 "GPT2 생성 콘텐츠" 및 Reddit 데이터 세트를 활용하여 탐지 분류기를 학습합니다. 즉, "마법으로 마술과 싸우다"이다. 또한 공식 홈페이지에서는 텍스트(토큰)가 50자를 초과해야 예측 결과의 신뢰성이 더 높아진다는 점을 상기시킵니다.

ChatGPT 특별 주제: 대규모 언어 모델의 기능과 미래

GPT2 출력 감지기 웹사이트 인터페이스

AI 텍스트 분류기: 이 도구는 OpenAI에서 출시되었습니다. 동일한 주제에 대한 인간의 글쓰기 텍스트와 AI 글쓰기 텍스트를 수집하는 것이 원칙입니다. 각 텍스트를 프롬프트와 응답 쌍으로 나누고, 미세 조정(예: GPT가 예/아니요를 생성하도록 허용) 후 GPT가 답변을 생성할 확률을 결과 임계값으로 둡니다. 도구의 분류는 매우 상세하며 결과에는 AI에 의해 생성될 가능성이 매우 낮음(임계값 0.98).

ChatGPT 특별 주제: 대규모 언어 모델의 기능과 미래

AI Text Classifier 웹사이트 인터페이스

V. 요약 및 전망

대형 언어 모델에는 뛰어난 제로샷 학습, 도메인 마이그레이션, 사고 체인 기능 등 소규모 모델에는 없는 새로운 기능이 있습니다. 대형 모델의 기능은 실제로 사전 훈련, 명령어 미세 조정 및 정렬에서 비롯됩니다. 이 세 가지 프로세스는 밀접하게 연관되어 있으며 오늘날의 매우 강력한 대형 언어 모델을 가능하게 했습니다.

대형 언어 모델(GPT 시리즈)에는 현재 신뢰도 업데이트, 형식적 추론, 인터넷 검색 등의 기능이 없습니다. 일부 전문가들은 지식을 모델 외부로 오프로드할 수 있다면 매개변수 수가 크게 줄어들 것이라고 믿고 있으며, 그래야만 대규모 언어 모델이 진정으로 한 단계 더 나아갈 수 있습니다.

합리적인 감독과 거버넌스 하에서만 인공지능 기술은 사람들에게 더 나은 서비스를 제공할 수 있습니다. 중국에서 대규모 모델을 개발하려면 갈 길이 멀다!

References

[1] https://stablediffusionweb.com

[2] https://openai.com/product/gpt-4

[3] LaMDA: 대화 상자 응용 프로그램을 위한 언어 모델, Arxiv 2022.10

[4] 헌법적 AI: AI 피드백의 무해함, Arxiv 2022.12

[5] https://scale.com/blog/chatgpt-vs-claude#Calculation

[6] Guolian Securities: "ChatGPT 트렌드가 도래했습니다. 상용화 가속화"

[7] Guotai Junan Securities: "ChatGPT Research Framework 2023"

[8] Fu Yao: 사전 훈련, 지침 미세 조정, 정렬, 전문화: 대규모 언어 모델 기능의 소스 https:/ / www.bilibili.com/video/BV1Qs4y1h7pn/?spm_id_from=333.880.my_history.page.click&vd_source=da8bf0b993cab65c4de0f26405823475

[9] 10,000 단어 길이의 기사 분석! 꼭 알아야 할 GPT-3/ChatGPT 재현 및 사용 https://mp.weixin.qq.com/s/ILpbRRNP10Ef1z3lb2CqmA

위 내용은 ChatGPT 특별 주제: 대규모 언어 모델의 기능과 미래의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 채팅 명령 및 사용 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

이제 ChatGPT를 사용하면 무료 사용자가 일일 한도가 있는 DALL-E 3를 사용하여 이미지를 생성할 수 있습니다. 이제 ChatGPT를 사용하면 무료 사용자가 일일 한도가 있는 DALL-E 3를 사용하여 이미지를 생성할 수 있습니다. Aug 09, 2024 pm 09:37 PM

DALL-E 3는 이전 모델보다 대폭 개선된 모델로 2023년 9월 공식 출시되었습니다. 복잡한 디테일의 이미지를 생성할 수 있는 현재까지 최고의 AI 이미지 생성기 중 하나로 간주됩니다. 그러나 출시 당시에는 제외되었습니다.

Bytedance Cutting, SVIP 슈퍼 멤버십 출시: 연간 연속 구독료 499위안, 다양한 AI 기능 제공 Bytedance Cutting, SVIP 슈퍼 멤버십 출시: 연간 연속 구독료 499위안, 다양한 AI 기능 제공 Jun 28, 2024 am 03:51 AM

이 사이트는 6월 27일에 Jianying이 ByteDance의 자회사인 FaceMeng Technology에서 개발한 비디오 편집 소프트웨어라고 보도했습니다. 이 소프트웨어는 Douyin 플랫폼을 기반으로 하며 기본적으로 플랫폼 사용자를 위한 짧은 비디오 콘텐츠를 제작합니다. Windows, MacOS 및 기타 운영 체제. Jianying은 멤버십 시스템 업그레이드를 공식 발표하고 지능형 번역, 지능형 하이라이트, 지능형 패키징, 디지털 인간 합성 등 다양한 AI 블랙 기술을 포함하는 새로운 SVIP를 출시했습니다. 가격면에서 SVIP 클리핑 월 요금은 79위안, 연간 요금은 599위안(본 사이트 참고: 월 49.9위안에 해당), 월간 연속 구독료는 월 59위안, 연간 연속 구독료는 59위안입니다. 연간 499위안(월 41.6위안)입니다. 또한, 컷 관계자는 "사용자 경험 향상을 위해 기존 VIP에 가입하신 분들도

Rag 및 Sem-Rag를 사용한 상황 증강 AI 코딩 도우미 Rag 및 Sem-Rag를 사용한 상황 증강 AI 코딩 도우미 Jun 10, 2024 am 11:08 AM

검색 강화 생성 및 의미론적 메모리를 AI 코딩 도우미에 통합하여 개발자 생산성, 효율성 및 정확성을 향상시킵니다. EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG에서 번역됨, 저자 JanakiramMSV. 기본 AI 프로그래밍 도우미는 자연스럽게 도움이 되지만, 소프트웨어 언어에 대한 일반적인 이해와 소프트웨어 작성의 가장 일반적인 패턴에 의존하기 때문에 가장 관련성이 높고 정확한 코드 제안을 제공하지 못하는 경우가 많습니다. 이러한 코딩 도우미가 생성한 코드는 자신이 해결해야 할 문제를 해결하는 데 적합하지만 개별 팀의 코딩 표준, 규칙 및 스타일을 따르지 않는 경우가 많습니다. 이로 인해 코드가 애플리케이션에 승인되기 위해 수정되거나 개선되어야 하는 제안이 나타나는 경우가 많습니다.

미세 조정을 통해 LLM이 실제로 새로운 것을 배울 수 있습니까? 새로운 지식을 도입하면 모델이 더 많은 환각을 생성할 수 있습니다. 미세 조정을 통해 LLM이 실제로 새로운 것을 배울 수 있습니까? 새로운 지식을 도입하면 모델이 더 많은 환각을 생성할 수 있습니다. Jun 11, 2024 pm 03:57 PM

LLM(대형 언어 모델)은 대규모 텍스트 데이터베이스에서 훈련되어 대량의 실제 지식을 습득합니다. 이 지식은 매개변수에 내장되어 필요할 때 사용할 수 있습니다. 이러한 모델에 대한 지식은 훈련이 끝나면 "구체화"됩니다. 사전 훈련이 끝나면 모델은 실제로 학습을 중단합니다. 모델을 정렬하거나 미세 조정하여 이 지식을 활용하고 사용자 질문에 보다 자연스럽게 응답하는 방법을 알아보세요. 그러나 때로는 모델 지식만으로는 충분하지 않을 때도 있으며, 모델이 RAG를 통해 외부 콘텐츠에 접근할 수 있더라도 미세 조정을 통해 모델을 새로운 도메인에 적응시키는 것이 유익한 것으로 간주됩니다. 이러한 미세 조정은 인간 주석 작성자 또는 기타 LLM 생성자의 입력을 사용하여 수행됩니다. 여기서 모델은 추가적인 실제 지식을 접하고 이를 통합합니다.

대형 모델에 대한 새로운 과학적이고 복잡한 질문 답변 벤치마크 및 평가 시스템을 제공하기 위해 UNSW, Argonne, University of Chicago 및 기타 기관이 공동으로 SciQAG 프레임워크를 출시했습니다. 대형 모델에 대한 새로운 과학적이고 복잡한 질문 답변 벤치마크 및 평가 시스템을 제공하기 위해 UNSW, Argonne, University of Chicago 및 기타 기관이 공동으로 SciQAG 프레임워크를 출시했습니다. Jul 25, 2024 am 06:42 AM

편집자 |ScienceAI 질문 응답(QA) 데이터 세트는 자연어 처리(NLP) 연구를 촉진하는 데 중요한 역할을 합니다. 고품질 QA 데이터 세트는 모델을 미세 조정하는 데 사용될 수 있을 뿐만 아니라 LLM(대형 언어 모델)의 기능, 특히 과학적 지식을 이해하고 추론하는 능력을 효과적으로 평가하는 데에도 사용할 수 있습니다. 현재 의학, 화학, 생물학 및 기타 분야를 포괄하는 과학적인 QA 데이터 세트가 많이 있지만 이러한 데이터 세트에는 여전히 몇 가지 단점이 있습니다. 첫째, 데이터 형식이 비교적 단순하고 대부분이 객관식 질문이므로 평가하기 쉽지만 모델의 답변 선택 범위가 제한되고 모델의 과학적 질문 답변 능력을 완전히 테스트할 수 없습니다. 이에 비해 개방형 Q&A는

SOTA 성능, 샤먼 다중 모드 단백질-리간드 친화성 예측 AI 방법, 최초로 분자 표면 정보 결합 SOTA 성능, 샤먼 다중 모드 단백질-리간드 친화성 예측 AI 방법, 최초로 분자 표면 정보 결합 Jul 17, 2024 pm 06:37 PM

Editor | KX 약물 연구 및 개발 분야에서 단백질과 리간드의 결합 친화도를 정확하고 효과적으로 예측하는 것은 약물 스크리닝 및 최적화에 매우 중요합니다. 그러나 현재 연구에서는 단백질-리간드 상호작용에서 분자 표면 정보의 중요한 역할을 고려하지 않습니다. 이를 기반으로 Xiamen University의 연구자들은 처음으로 단백질 표면, 3D 구조 및 서열에 대한 정보를 결합하고 교차 주의 메커니즘을 사용하여 다양한 양식 특징을 비교하는 새로운 다중 모드 특징 추출(MFE) 프레임워크를 제안했습니다. 조정. 실험 결과는 이 방법이 단백질-리간드 결합 친화도를 예측하는 데 있어 최첨단 성능을 달성한다는 것을 보여줍니다. 또한 절제 연구는 이 프레임워크 내에서 단백질 표면 정보와 다중 모드 기능 정렬의 효율성과 필요성을 보여줍니다. 관련 연구는 "S"로 시작된다

SK하이닉스가 8월 6일 12단 HBM3E, 321고 NAND 등 AI 관련 신제품을 선보인다. SK하이닉스가 8월 6일 12단 HBM3E, 321고 NAND 등 AI 관련 신제품을 선보인다. Aug 01, 2024 pm 09:40 PM

1일 본 사이트 소식에 따르면 SK하이닉스는 오늘(1일) 블로그 게시물을 통해 8월 6일부터 8일까지 미국 캘리포니아주 산타클라라에서 열리는 글로벌 반도체 메모리 서밋 FMS2024에 참가한다고 밝혔다. 많은 새로운 세대의 제품. 인공지능 기술에 대한 관심이 높아지고 있는 가운데, 이전에는 주로 NAND 공급업체를 대상으로 한 플래시 메모리 서밋(FlashMemorySummit)이었던 미래 메모리 및 스토리지 서밋(FutureMemoryandStorage) 소개를 올해는 미래 메모리 및 스토리지 서밋(FutureMemoryandStorage)으로 명칭을 변경했습니다. DRAM 및 스토리지 공급업체와 더 많은 플레이어를 초대하세요. SK하이닉스가 지난해 출시한 신제품

AI와 같은 시장을 개척하는 GlobalFoundries는 Tagore Technology의 질화 갈륨 기술 및 관련 팀을 인수합니다. AI와 같은 시장을 개척하는 GlobalFoundries는 Tagore Technology의 질화 갈륨 기술 및 관련 팀을 인수합니다. Jul 15, 2024 pm 12:21 PM

7월 5일 이 웹사이트의 소식에 따르면 글로벌파운드리는 올해 7월 1일 보도자료를 통해 타고르 테크놀로지(Tagore Technology)의 전력질화갈륨(GaN) 기술 및 지적재산권 포트폴리오 인수를 발표하고 자동차와 인터넷 시장 점유율 확대를 희망하고 있다고 밝혔다. 더 높은 효율성과 더 나은 성능을 탐구하기 위한 사물 및 인공 지능 데이터 센터 응용 분야입니다. 생성 AI와 같은 기술이 디지털 세계에서 계속 발전함에 따라 질화갈륨(GaN)은 특히 데이터 센터에서 지속 가능하고 효율적인 전력 관리를 위한 핵심 솔루션이 되었습니다. 이 웹사이트는 이번 인수 기간 동안 Tagore Technology의 엔지니어링 팀이 GLOBALFOUNDRIES에 합류하여 질화갈륨 기술을 더욱 개발할 것이라는 공식 발표를 인용했습니다. G

See all articles