지역 사회

배우다

도구 라이브러리

AI 도구

여가

한국어

집 > 하드웨어 튜토리얼 > 하드웨어 검토 > 10줄의 코드로 대형 모델의 수학이 20% 향상되었습니다. 'Yeluzi'에 대한 연구도 Google에서 테스트했습니다. 주 저자는 모두 독학했습니다.

10줄의 코드로 대형 모델의 수학이 20% 향상되었습니다. 'Yeluzi'에 대한 연구도 Google에서 테스트했습니다. 주 저자는 모두 독학했습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

풀어 주다： 2024-08-27 15:31:33

원래의

914명이 탐색했습니다.

只要不到 10 行代码，就能让大模型数学能力（GSM8k）提升 20%！

几名独立学者提出了大模型采样的改进方案，引起了开源社区的关注。

目前该方法已在 Mistral-7B 上取得成效，在 Llama3-70B 上的测试也正在进行。

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

这种方法叫做最小 p 采样（min-p sampling），目的是平衡生成文本的连贯性和多样性。

简单说就是让模型在不同场合发挥不同的特性，例如在事实问题上保持性能稳定，在写作等场景中又能发挥创意。

目前该方法已在 Mistral-7B 上取得成效，在 Llama-70B 上的测试也即将进行。

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

在论文中作者提到，该方法已经获得了开源社区的广泛应用。

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

同时作者还透露，Anthropic 和谷歌等闭源模型厂商也已经或正在针对 min-p 进行测试。

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

消息也得到了谷歌方面的确认，从 OpenAI 跳槽到谷歌的开发者社区负责人Logan Kilpatrick已经回复说 "On it"（在做了）。

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

微软 Copilot 的研究人员Abram Jackson看了后表示，这是他看到的首个有关推理过程 token 采样的改进，未来还有很大进步空间。

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

值得一提的是，这项受到广泛关注的研究，主要作者 Minh Nhat Nguyen 根本没系统学过 CS，而是靠自学成才。

在一家名为 Apart Research 的 AI 安全研究机构帮助下，Minh 和团队其他成员一起完成了该项目。

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

动态调整抽样阈值

min-p 是一种动态截断抽样方法，其核心是根据每一步 token 分布的最大概率，来缩放最小概率阈值。

这样做的目的，主要在于平衡生成文本的连贯性和多样性，特别是在 temperature 较高的条件下。

具体来说，min-p 引入了一个基础概率阈值p_base，表示进入采样池的最低概率要求。

在每一步生成 token 时，min-p 会将 p_base 与当前概率分布中最大的 token 概率 p_max 相乘，得到一个缩放后的绝对阈值p_scaled。

只有概率大于等于 p_scaled 的 token，才能够进入采样池。

当模型对某个 token 的预测概率非常高（即 p_max 很大）时，p_scaled 的值也会很高，导致采样池大幅缩小，绝大多数低概率 token 被过滤，只留下少数高把握的选择，确保了输出的连贯性；

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

而当模型对所有 token 的预测概率都比较接近（p_max 较低）时，p_scaled 的值也会相应变低，放宽了对采样池的要求，纳入更多中等概率的 token，给予模型更多发挥空间，生成更加多样化的内容。

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

在确定采样池后，min-p 会根据 temperature 对 token 概率分布进行缩放。

它将 token 的对数概率除以一个温度参数 τ，并进行归一化后，就得到了 temperature 缩放后的概率分布。

大于 1 的 τ 值会使概率分布更加平缓，增加低概率 token 被选中的机会；

τ 小于 1 时则会使分布更加尖锐，强化高概率 token 的优势。

마지막으로 min-p는 조정된 확률 분포에 따라 조정된 샘플링 풀에서 다음 토큰을 무작위로 선택합니다.

안정성과 창의성, "다 갖고 싶다"

민피법의 효과는 무엇인가요? 저자는 테스트를 위한 기본 모델로 Mistral-7B를 사용했다. 시나리오별 결과를 살펴보자.

추론 작업에서 저자는 GPQA 데이터 세트를 사용합니다. 온도가 1일 때 min-p가 과거 top-p에 비해 약간 우위에 있음을 알 수 있습니다.

온도가 상승함에 따라 GPQA 점수는 전체적으로 하락 추세를 보이지만 min-p는 top-p에 비해 상당히 느리게 감소하는 것을 관찰할 수 있습니다.

min-p의 하향 추세는 온도가 3에 도달하고 top-p 점수가 0에 가까워질 때까지 명확해지지 않습니다.

즉, top-p에 비해 min-p는 추론 작업에서 필요한 안정성을 더 잘 유지합니다.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

수학 작업도 안정적인 성능을 유지해야 합니다. 여기에서 저자는 테스트를 위해 GSM8K 데이터 세트를 사용했습니다.

결과적으로 min-p에 해당하는 점수는 온도에 따라 GPQA보다 빠르게 감소하지만 여전히 top-p 방법보다는 느립니다.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

세 번째 유형의 작업은 창의적인 글쓰기입니다. 이때 안정성에 대한 요구 사항은 그다지 높지 않지만 모델은 더욱 창의적이어야 합니다.

이 테스트는 AlpacaEval 데이터 세트를 사용하여 수행되었으며 실험 데이터는 오픈 소스 커뮤니티의 독립적인 평가자로부터 얻은 것입니다.

실험 결과, 온도=1.5, min-p=0.1 설정에서 min-p의 성능이 특히 뛰어나며, top-p 방식으로는 생성하기 어려운 창의적인 글쓰기 콘텐츠를 생성할 수 있는 것으로 나타났습니다.

이 매개변수에서 min-p 방법으로 얻은 텍스트는 58.12%의 인간 판단 선호도를 달성했는데, 이는 유사한 설정에서 다른 방법의 성능보다 훨씬 높습니다.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

논문 주소:

https://arxiv.org/abs/2407.01082

GitHub:

https://github.com/menhguin/minp_paper/

참조 링크:

https:// x.com/menhguin/status/1826132708508213629

위 내용은 10줄의 코드로 대형 모델의 수학이 20% 향상되었습니다. 'Yeluzi'에 대한 연구도 Google에서 테스트했습니다. 주 저자는 모두 독학했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨：

Google 모델 연구 수학 오픈 소스 작가 기본

이전 기사：아이폰16 출시를 하루 앞두고 해당 관계자는 해당 제품의 판매를 중단했다. 다음 기사：천 위안 기계를 선택하는 방법은 무엇입니까? 배터리 수명이 매우 좋습니다. vivo Y37 Pro에는 6000mAh가 탑재되어 있습니다.

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

휴대 전화에서 Photoshop을 사용하는 방법

2025-02-24 12:36:12
스트리밍 서비스에 많은 돈을 쓰지 마십시오

2025-02-24 12:11:09
휴대 전화와 대화를 중지하십시오 : Siri에 유형을 사용하는 방법

2025-02-24 12:06:10
아마존 사물함을 사용하여 시간을 절약하고 현관 해적을 치는 방법

2025-02-24 12:04:13
Windows의 이미지에서 텍스트를 읽는 방법

2025-02-24 12:03:10
Spotify에 연결하는 유용한 앱 9 개

2025-02-24 12:02:09
Chatgpt 내부에서 작업 및 알림을 사용하는 방법

2025-02-24 12:01:10
Apple Intelligence를 사용하여 이메일을 정렬하는 방법

2025-02-24 12:00:16
안드로이드에서 새로운 도난 감지 기능을 설정하는 방법

2025-02-24 11:59:10
Gemini가 모든 것을 기억하거나 잊어 버리는 방법 ’ ve

2025-02-24 11:58:14

최신 이슈

Symfony POST 요청이 유효성 검사를 통과했지만 오류가 발생해야 합니다.

에서 1970-01-01 08:00:00

0

0

0

thinkphp3.2와 ajax 퍼지 쿼리를 사용하는 방법

에서 1970-01-01 08:00:00

0

0

0

Antd React의 탭 페이지에서 useState를 사용하는 방법

에서 1970-01-01 08:00:00

0

0

0

url-rewrite - nginx 디렉토리 이후의 슬래시 문제

에서 1970-01-01 08:00:00

0

0

0

개발 환경 서버인 Nginx는 정적 파일 캐시를 지울 수 없습니다.

에서 1970-01-01 08:00:00

0

0

0

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿