목차
대조적 비우도 훈련
실험 평가
요약 및 과제
기술 주변기기 일체 포함 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

Feb 04, 2024 am 09:20 AM
데이터 모델

기존 대형 모델 정렬 방법에는 예제 기반 지도 미세 조정(SFT) 및 점수 피드백 기반 강화 학습(RLHF)이 있습니다. 그러나 점수는 현재 응답의 품질만 반영할 수 있으며 모델의 단점을 명확하게 나타낼 수는 없습니다. 대조적으로, 우리 인간은 일반적으로 언어적 피드백을 통해 행동 패턴을 배우고 조정합니다. 리뷰 댓글이 단순한 점수가 아닌 것처럼, 승인 또는 거부에 대한 다양한 이유도 포함됩니다.

그렇다면 대규모 언어 모델이 인간처럼 자신을 향상시키기 위해 언어 피드백을 사용할 수 있을까요?

홍콩중문대학교와 Tencent AI Lab의 연구원들은 최근 CUT(Contrastive Likelihood Learning)라는 혁신적인 연구를 제안했습니다. 이 연구는 언어 피드백을 사용하여 언어 모델을 조정하여 인간처럼 다양한 비판으로부터 학습하고 개선할 수 있도록 합니다. 이 연구의 목표는 언어 모델의 품질과 정확성을 향상하여 인간이 생각하는 방식과 더욱 일치하도록 만드는 것입니다. 연구자들은 비가능성 훈련을 비교함으로써 언어 모델이 다양한 언어 사용 상황을 더 잘 이해하고 적응할 수 있게 하여 자연어 처리 작업의 성능을 향상시키기를 희망합니다. 이 혁신적인 연구는 언어 모델에 대한 간단하고 효과적인 방법이 될 것을 약속합니다.

CUT은 간단하고 효과적인 방법입니다. CUT는 1317개의 언어 피드백 데이터만을 사용하여 AlpacaEval에서 LLaMA2-13b의 승률을 1.87%에서 62.56%로 대폭 향상시켜 175B DaVinci003을 물리치는 데 성공했습니다. 흥미로운 점은 CUT가 다른 강화 학습 및 RLHF(강화 학습 강화 피드백) 프레임워크처럼 탐구, 비판, 개선의 반복적인 주기를 수행할 수도 있다는 것입니다. 이 과정에서 자동 평가 모델을 통해 비판 단계를 완료하여 자체 평가와 전체 시스템 개선을 달성할 수 있습니다.

저자는 LLaMA2-chat-13b에서 4번의 반복을 수행하여 AlpacaEval의 모델 성능을 81.09%에서 91.36%로 점차 향상시켰습니다. 점수 피드백(DPO) 기반 정렬 기술과 비교하여 CUT는 동일한 데이터 크기에서 더 나은 성능을 발휘합니다. 결과는 언어 피드백이 정렬 분야에서 발전할 수 있는 큰 잠재력을 가지고 있으며 향후 정렬 연구에 새로운 가능성을 열어준다는 것을 보여줍니다. 이 발견은 정렬 기술의 정확성과 효율성을 향상시키는 데 중요한 의미를 가지며 더 나은 자연어 처리 작업을 달성하기 위한 지침을 제공합니다.

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

  • 논문 제목: Reasons to Reject? Aligning Language Models with Judgments
  • 논문 링크: https://arxiv.org/abs/2312.14591
  • Github 링크: https://github.com/wwxu21/CUT

Alignment of Large models

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

기존 작업을 기반으로 연구자들은 대형 모델을 정렬하는 두 가지 일반적인 방법을 요약했습니다.

1. 데모를 통해 학습: 미리 만들어진 지침-응답 쌍을 기반으로 감독 교육 방법을 사용하여 대규모 모델을 정렬합니다.

장점: 안정적인 교육, 간단한 구현.
  • 단점: 고품질의 다양한 예시 데이터를 수집하는 데 비용이 많이 듭니다. 예시 데이터는 종종 모델과 관련이 없습니다.
  • 2.
점수 피드백

에서 학습(보상에서 학습): 지시-응답 쌍에 점수를 매기고 강화 학습을 사용하여 모델을 훈련하여 응답 점수를 최대화합니다.

장점: 올바른 응답과 오류 응답을 모두 활용할 수 있습니다. 피드백 신호는 모델과 관련이 있습니다.
  • 단점: 피드백 신호가 드물고 훈련 과정이 복잡한 경우가 많습니다.
  • 본 연구는
Language Feedback

(판단으로부터 학습): 지시 제공 - 언어 피드백을 기반으로 댓글 작성에 대한 응답, 모델의 결함 개선, 모델의 장점 유지를 통해 학습에 중점을 둡니다. 모델 성능을 향상시킵니다. 언어 피드백이 점수 피드백의 장점을 계승하고 있음을 알 수 있습니다. 점수 피드백과 비교할 때 구두 피드백은 더 많은 정보를 제공합니다. 즉, 모델이 옳은 점과 잘못된 점을 추측하도록 하는 대신 구두 피드백은 자세한 결함과 개선 방향을 직접 지적할 수 있습니다. 그러나 불행하게도 연구자들은 현재 언어적 피드백을 완전히 활용할 수 있는 효과적인 방법이 없다는 사실을 발견했습니다. 이를 위해 연구자들은 언어 피드백을 최대한 활용하도록 설계된 혁신적인 프레임워크인 CUT를 제안했습니다.

대조적 비우도 훈련

CUT의 핵심 아이디어는 대조를 통해 학습하는 것입니다. 연구자들은 다양한 조건에서 대형 모델의 반응을 비교하여 어떤 부분이 만족스럽고 유지되어야 하는지, 어떤 부분에 결함이 있어 수정이 필요한지 알아냅니다. 이를 바탕으로 연구자들은 최대 우도 추정(MLE)을 사용하여 만족스러운 부분을 훈련시키고, 가능성 없는 훈련(UT)을 사용하여 응답의 결함을 수정합니다.

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

1. 정렬 시나리오: 위 그림에서 볼 수 있듯이 연구원들은 두 가지 정렬 시나리오를 고려했습니다.

a)인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승이 시나리오에서는 다음이 일반적으로 이해됩니다. , 대응은 지침을 충실히 따르고 인간의 기대 및 가치와 일치해야 합니다.

b)인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승: 이 시나리오에서는 추가 조건으로 구두 피드백이 도입됩니다. 이 시나리오에서 응답은 지침과 구두 피드백을 모두 충족해야 합니다. 예를 들어 부정적인 피드백을 받으면 대형 모델은 해당 피드백에서 언급된 문제를 기반으로 실수를 해야 합니다.

2. 정렬 데이터: 위 그림과 같이 위의 두 가지 정렬 시나리오를 기반으로 연구원들은 세 가지 유형의 정렬 데이터를 구성했습니다.

a) Align-P: 생성된 대형 모델 정말 만족스럽습니다. 답변이 긍정적인 피드백입니다. 분명히 Align-P는 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 시나리오 모두에서 정렬을 만족합니다.

b) Align-N: 대형 모델은 결함이 있는(굵은 파란색) 응답을 생성하므로 부정적인 피드백을 받습니다. Align-N의 경우 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승에서 정렬이 만족되지 않습니다. 그러나 이러한 부정적인 피드백을 고려한 후에도 Align-N은 여전히 ​​인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 시나리오에 부합합니다.

c) Misalign: Align-N의 실제 부정적인 피드백이 가짜 긍정적인 피드백으로 대체됩니다. 분명히 Misalign은 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 시나리오 모두에서 정렬을 만족하지 않습니다.

3. 비교를 통해 알아보기:

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

a) Align-N 대 Misalign: 둘 사이의 차이점은 주로 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 아래의 정렬 정도에 있습니다. 대규모 모델의 강력한 상황 내 학습 기능을 고려할 때 Align-N에서 Misalign으로의 정렬 극성 반전은 일반적으로 특정 단어, 특히 실제 부정적인 피드백과 밀접하게 관련된 단어의 생성 확률에 상당한 변화를 동반합니다. 위 그림에서 볼 수 있듯이 Align-N(왼쪽 채널) 조건에서는 대형 모델이 "a"를 생성할 확률이 Misalign(오른쪽 채널)보다 훨씬 높습니다. 그리고 확률이 크게 변하는 곳은 큰 모델이 실수를 하는 곳입니다.

이 비교를 통해 학습하기 위해 연구원들은 Align-N 및 Misalign 데이터를 대형 모델에 동시에 입력하여 각각 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 두 가지 조건에서 출력 단어의 생성 확률을 얻었습니다. 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 조건보다 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 조건에서 생성 확률이 훨씬 높은 단어는 부적절한 단어로 표시됩니다. 특히 연구원들은 부적절한 단어의 정의를 정량화하기 위해 다음 표준을 사용했습니다.

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

여기서 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승은 부적절한 단어 인식 과정에서 정밀도와 재현율을 평가하는 하이퍼 매개변수입니다.

연구원들은 이렇게 식별된 부적절한 단어에 대해 가능성이 낮은 훈련(UT)을 사용하여 대규모 모델이 더 만족스러운 응답을 탐색하도록 했습니다. 다른 응답 단어의 경우 연구원은 여전히 ​​최대 우도 추정(MLE)을 사용하여 최적화합니다.

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

여기서 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승는 비우도 훈련의 비율을 제어하는 ​​하이퍼파라미터이고, 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승는 응답 단어의 수입니다. .

b) Align-P 대 Align-N: 둘 사이의 차이점은 주로 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승 아래의 정렬 정도에 있습니다. 기본적으로 대형 모델은 서로 다른 극성의 언어 피드백을 도입하여 출력 응답의 품질을 제어합니다. 따라서 두 가지를 비교하면 대규모 모델에 영감을 주어 만족스러운 응답과 결함이 있는 응답을 구별할 수 있습니다. 특히 연구원들은 다음과 같은 최대 우도 추정(MLE) 손실을 통해 이 비교 세트에서 학습했습니다.

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

여기서 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승는 표시 함수이며, 데이터가 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승alignment를 만족하면 1을 반환하고, 그렇지 않으면 반환합니다. 0.

CUT 최종 훈련 목표는 위의 두 비교 세트 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승를 결합합니다.

실험 평가

1. 오프라인 정렬

연구원들은 비용을 절약하기 위해 먼저 기성 언어 피드백 데이터를 사용하여 대형 모델을 정렬하려고 했습니다. 이 실험은 CUT의 언어 피드백 활용 능력을 입증하는 데 사용되었습니다.

a) 만능모델

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

위 표와 같이 일반 모델 정렬을 위해 연구진은 Shepherd에서 제공한 1317 정렬 데이터를 사용하여 CUT를 콜드 스타트(LLaMA2) 및 핫 스타트(LLaMA2-chat) 조건에서 기존 슬레이브 모델과 비교했습니다. .

LLaMA2를 기반으로 한 콜드 스타트 ​​실험에서 CUT는 AlpacaEval 테스트 플랫폼의 기존 정렬 방법을 크게 뛰어넘어 언어 피드백 활용에 대한 장점을 충분히 입증했습니다. 또한 CUT은 기본 모델에 비해 TruthfulQA에서도 상당한 개선을 달성했으며, 이는 CUT가 대형 모델의 환각 문제를 완화하는 데 큰 잠재력이 있음을 보여줍니다.

LLaMA2 채팅을 기반으로 한 핫 스타트 시나리오에서 기존 방법은 LLaMA2 채팅을 개선하는 데 성능이 좋지 않으며 부정적인 영향을 미치기까지 합니다. 그러나 CUT은 이를 바탕으로 기본 모델의 성능을 더욱 향상시킬 수 있으며, 언어 피드백 활용에 있어서 CUT의 큰 잠재력을 다시 한 번 검증합니다.

b) 전문가 모델

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

연구원들은 특정 전문가 작업(텍스트 요약)에 대한 CUT의 정렬 효과도 테스트했습니다. 위 표에서 볼 수 있듯이 CUT은 전문가 작업에 대한 기존 정렬 방법에 비해 상당한 개선을 달성합니다.

2. 온라인 정렬

오프라인 정렬에 대한 연구는 CUT의 강력한 정렬 성능을 성공적으로 입증했습니다. 이제 연구자들은 실제 적용에 더 가까운 온라인 정렬 시나리오를 추가로 탐색하고 있습니다. 이 시나리오에서 연구자들은 대상 모델과 관련된 언어 피드백을 기반으로 대상 모델을 보다 정확하게 정렬할 수 있도록 대상 대형 모델의 응답에 언어 피드백을 반복적으로 주석을 추가합니다. 구체적인 프로세스는 다음과 같습니다.

  • 1단계: 지침을 수집인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승하고 대상 대형 모델로부터 응답인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승을 받습니다.
  • 2단계: 위의 명령-응답 쌍에 대한 응답으로 언어 피드백을 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승으로 표시합니다.
  • 3단계: CUT을 사용하여 수집된 삼중항 데이터를 기반으로 대상 대형 모델을 미세 조정합니다인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승.

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승


위 그림에 표시된 것처럼 4회에 걸쳐 온라인 정렬을 반복한 후에도 CUT는 4000개의 훈련 데이터와 91.36포인트의 작은 모델 크기로 여전히 인상적인 결과를 얻을 수 있습니다. 이번 성과는 CUT의 탁월한 성능과 엄청난 잠재력을 더욱 입증합니다.

3. AI 댓글 모델

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

연구원들은 언어 피드백 라벨링 비용을 고려하여 대상 대형 모델에 대한 언어 피드백을 자동으로 라벨링하는 판단 모델을 훈련하려고 합니다. 위 그림에서 볼 수 있듯이, 연구진은 언어 피드백 데이터 5,000개(AI Judge-5000)와 3,000개(AI Judge-3000)를 사용하여 두 가지 리뷰 모델을 훈련했습니다. 두 검토 모델 모두 대상 대규모 모델, 특히 AI Judge-5000의 효과를 최적화하는 데 놀라운 결과를 얻었습니다.

이는 AI 검토 모델을 사용하여 대상 대형 모델을 정렬하는 타당성을 입증하고 전체 정렬 프로세스에서 검토 모델 품질의 중요성을 강조합니다. 이 실험 세트는 향후 주석 비용 절감을 위한 강력한 지원도 제공합니다.

4. 언어 피드백 vs 점수 피드백

대규모 모델 정렬에서 언어 피드백의 엄청난 잠재력을 심층적으로 탐색하기 위해 연구자들은 언어 피드백 기반 CUT와 점수 피드백(DPO) 기반 방법을 비교했습니다. 공정한 비교를 보장하기 위해 연구자들은 동일한 지시-응답 쌍의 4,000개 세트를 실험 샘플로 선택하여 CUT와 DPO가 각각 이러한 데이터에 해당하는 점수 피드백과 언어 피드백으로부터 학습할 수 있도록 했습니다.

인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승

위 표에서 볼 수 있듯이 콜드 스타트(LLaMA2) 실험에서는 CUT가 DPO보다 훨씬 좋은 성능을 보였습니다. 핫 스타트(LLaMA2-chat) 실험에서 CUT는 ARC, HellaSwag, MMLU 및 TruthfulQA와 같은 작업에서 DPO와 비슷한 결과를 얻을 수 있으며 AlpacaEval 작업에서는 DPO보다 훨씬 앞서 있습니다. 이 실험은 대규모 모델 정렬 중 부분 피드백에 비해 언어 피드백의 더 큰 잠재력과 이점을 확인했습니다.

요약 및 과제

이 연구에서 연구자들은 대규모 모델 정렬에서 언어 피드백의 현재 상황을 체계적으로 탐구하고 언어 피드백 기반 정렬 프레임워크 CUT를 혁신적으로 제안하여 언어 피드백이 큰 잠재력과 이점을 가지고 있음을 밝혔습니다. 대형 모델 정렬 분야에서. 또한, 언어 피드백 연구에는 다음과 같은 몇 가지 새로운 방향과 과제가 있습니다.

1. 댓글 모델의 품질: 연구자들은 댓글 모델 교육의 타당성을 성공적으로 확인했지만, 관찰 모델이 출력되었을 때 그들은 여전히 ​​검토 모델이 종종 부정확한 평가를 제공한다는 것을 발견했습니다. 따라서 검토 모델의 품질을 향상시키는 것은 향후 정렬을 위해 언어 피드백을 대규모로 사용하는 데 큰 의미가 있습니다.

2. 새로운 지식의 도입: 언어 피드백에 대형 모델이 부족한 지식이 포함될 경우 대형 모델이 오류를 정확하게 식별할 수 있더라도 수정 방향이 명확하지 않습니다. 따라서 대형모델이 정렬을 하면서 부족한 지식을 보완하는 것이 매우 중요하다.

3. 다중 모드 정렬 : 언어 모델의 성공으로 인해 언어, 음성, 이미지 및 비디오의 조합과 같은 다중 모드 대형 모델 연구가 촉진되었습니다. 이러한 다중 모드 시나리오에서 언어 피드백과 해당 양식의 피드백을 연구하면 새로운 정의와 과제가 발생합니다.

위 내용은 인간다운 비판을 통해 배우고 성장하다 댓글 1317개로 LLaMA2 승률 30배 상승의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. 크로스 플레이가 있습니까?
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

오픈 소스! ZoeDepth를 넘어! DepthFM: 빠르고 정확한 단안 깊이 추정! 오픈 소스! ZoeDepth를 넘어! DepthFM: 빠르고 정확한 단안 깊이 추정! Apr 03, 2024 pm 12:04 PM

0. 이 글은 어떤 내용을 담고 있나요? 우리는 다재다능하고 빠른 최첨단 생성 단안 깊이 추정 모델인 DepthFM을 제안합니다. DepthFM은 전통적인 깊이 추정 작업 외에도 깊이 인페인팅과 같은 다운스트림 작업에서 최첨단 기능을 보여줍니다. DepthFM은 효율적이며 몇 가지 추론 단계 내에서 깊이 맵을 합성할 수 있습니다. 이 작품을 함께 읽어보아요~ 1. 논문 정보 제목: DepthFM: FastMoncularDepthEstimationwithFlowMatching 저자: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. 중국의 기능은 GPT-4와 비슷하며 가격은 GPT-4-Turbo의 거의 1%에 불과합니다. 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. 중국의 기능은 GPT-4와 비슷하며 가격은 GPT-4-Turbo의 거의 1%에 불과합니다. May 07, 2024 pm 04:13 PM

기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

AI가 수학적 연구를 전복시킨다! 필즈상 수상자이자 중국계 미국인 수학자, Terence Tao가 좋아하는 11개 논문 발표 | AI가 수학적 연구를 전복시킨다! 필즈상 수상자이자 중국계 미국인 수학자, Terence Tao가 좋아하는 11개 논문 발표 | Apr 09, 2024 am 11:52 AM

AI는 실제로 수학을 변화시키고 있습니다. 최근 이 문제에 주목하고 있는 타오저쉬안(Tao Zhexuan)은 '미국수학회지(Bulletin of the American Mathematical Society)' 최신호를 게재했다. '기계가 수학을 바꿀 것인가?'라는 주제를 중심으로 많은 수학자들이 그들의 의견을 표현했습니다. 저자는 필즈상 수상자 Akshay Venkatesh, 중국 수학자 Zheng Lejun, 뉴욕대학교 컴퓨터 과학자 Ernest Davis 등 업계의 유명 학자들을 포함해 강력한 라인업을 보유하고 있습니다. AI의 세계는 극적으로 변했습니다. 이 기사 중 상당수는 1년 전에 제출되었습니다.

안녕하세요, 일렉트릭 아틀라스입니다! 보스턴 다이나믹스 로봇 부활, 180도 이상한 움직임에 겁먹은 머스크 안녕하세요, 일렉트릭 아틀라스입니다! 보스턴 다이나믹스 로봇 부활, 180도 이상한 움직임에 겁먹은 머스크 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas가 공식적으로 전기 로봇 시대에 돌입했습니다! 어제 유압식 Atlas가 역사의 무대에서 "눈물을 흘리며" 물러났습니다. 오늘 Boston Dynamics는 전기식 Atlas가 작동 중이라고 발표했습니다. 상업용 휴머노이드 로봇 분야에서는 보스턴 다이내믹스가 테슬라와 경쟁하겠다는 각오를 다진 것으로 보인다. 새 영상은 공개된 지 10시간 만에 이미 100만 명이 넘는 조회수를 기록했다. 옛 사람들은 떠나고 새로운 역할이 등장하는 것은 역사적 필연이다. 올해가 휴머노이드 로봇의 폭발적인 해라는 것은 의심의 여지가 없습니다. 네티즌들은 “로봇의 발전으로 올해 개막식도 인간처럼 생겼고, 자유도도 인간보다 훨씬 크다. 그런데 정말 공포영화가 아닌가?”라는 반응을 보였다. 영상 시작 부분에서 아틀라스는 바닥에 등을 대고 가만히 누워 있는 모습입니다. 다음은 입이 떡 벌어지는 내용이다

iPhone의 느린 셀룰러 데이터 인터넷 속도: 수정 사항 iPhone의 느린 셀룰러 데이터 인터넷 속도: 수정 사항 May 03, 2024 pm 09:01 PM

지연이 발생하고 iPhone의 모바일 데이터 연결 속도가 느립니까? 일반적으로 휴대폰의 셀룰러 인터넷 강도는 지역, 셀룰러 네트워크 유형, 로밍 유형 등과 같은 여러 요소에 따라 달라집니다. 더 빠르고 안정적인 셀룰러 인터넷 연결을 얻기 위해 할 수 있는 일이 몇 가지 있습니다. 수정 1 – iPhone 강제 다시 시작 때로는 장치를 강제로 다시 시작하면 셀룰러 연결을 포함한 많은 항목이 재설정됩니다. 1단계 – 볼륨 높이기 키를 한 번 눌렀다가 놓습니다. 그런 다음 볼륨 작게 키를 눌렀다가 다시 놓습니다. 2단계 - 프로세스의 다음 부분은 오른쪽에 있는 버튼을 누르는 것입니다. iPhone이 다시 시작되도록 하세요. 셀룰러 데이터를 활성화하고 네트워크 속도를 확인하세요. 다시 확인하세요 수정 2 – 데이터 모드 변경 5G는 더 나은 네트워크 속도를 제공하지만 신호가 약할 때 더 잘 작동합니다

MLP를 대체하는 KAN은 오픈소스 프로젝트를 통해 컨볼루션으로 확장되었습니다. MLP를 대체하는 KAN은 오픈소스 프로젝트를 통해 컨볼루션으로 확장되었습니다. Jun 01, 2024 pm 10:03 PM

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

초지능의 생명력이 깨어난다! 하지만 자동 업데이트 AI가 등장하면서 엄마들은 더 이상 데이터 병목 현상을 걱정할 필요가 없습니다. 초지능의 생명력이 깨어난다! 하지만 자동 업데이트 AI가 등장하면서 엄마들은 더 이상 데이터 병목 현상을 걱정할 필요가 없습니다. Apr 29, 2024 pm 06:55 PM

세상은 미친 듯이 큰 모델을 만들고 있습니다. 인터넷의 데이터만으로는 충분하지 않습니다. 훈련 모델은 '헝거게임'처럼 생겼고, 전 세계 AI 연구자들은 이러한 데이터를 탐식하는 사람들에게 어떻게 먹이를 줄지 고민하고 있습니다. 이 문제는 다중 모드 작업에서 특히 두드러집니다. 아무것도 할 수 없던 시기에, 중국 인민대학교 학과의 스타트업 팀은 자체 새로운 모델을 사용하여 중국 최초로 '모델 생성 데이터 피드 자체'를 현실화했습니다. 또한 이해 측면과 생성 측면의 두 가지 접근 방식으로 양측 모두 고품질의 다중 모드 새로운 데이터를 생성하고 모델 자체에 데이터 피드백을 제공할 수 있습니다. 모델이란 무엇입니까? Awaker 1.0은 중관촌 포럼에 최근 등장한 대형 멀티모달 모델입니다. 팀은 누구입니까? 소폰 엔진. 런민대학교 힐하우스 인공지능대학원 박사과정 학생인 Gao Yizhao가 설립했습니다.

공장에서 일하는 테슬라 로봇, 머스크 : 올해 손의 자유도가 22도에 달할 것! 공장에서 일하는 테슬라 로봇, 머스크 : 올해 손의 자유도가 22도에 달할 것! May 06, 2024 pm 04:13 PM

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라

See all articles