Laporan Kuasa Mesin Ini adalah soalan matematik yang walaupun pelajar sekolah rendah boleh menjawab dengan betul, tetapi ia menghalang sekumpulan "wira" dalam industri model besar.
-1-Seterusnya, mari kita lihat proses penilaian terperinci.
GPT-4o
GPT-4o Kereta itu tergolek dengan agak penuh.
Kami mula-mula bertanya GPT-4o menggunakan perkataan gesaan bahasa Inggeris, dan ia masih percaya bahawa 9.11 lebih besar daripada 9.9 Kemudian kami bertanya dalam bahasa Cina dan Inggeris berapa banyak perbezaannya, dan semua jawapan adalah salah.
-2-
Claude-3.5-Sonnet
Kami bertanya kepada Claude-3.5-Sonnet dalam cara yang sama, tetapi kami bertanya bagaimana cara yang sama, tetapi kami bertanya dengan cara yang sama. Matanya meliar. Antaranya, apabila membandingkan bahagian perpuluhan, ia dengan jelas mengetahui bahawa 0.9 adalah lebih besar daripada 0.11, tetapi masih mencapai kesimpulan yang salah pada akhirnya.-3-
gemini
google Gemini tidak lebih baik ia datang kepada integer yang sama untuk kali kedua, lebih banyak tempat perpuluhan, lebih besar nombornya.
Kami bertanya sekali lagi dalam bahasa Cina Google Gemini membandingkan saiz berdasarkan senario kehidupan sebenar tertentu Contohnya, dari perspektif masa, 9.11 biasanya merujuk kepada kejadian 9.11, manakala 9.9 biasanya merujuk kepada 9:09, jadi 9.11 adalah lebih baik. daripada 9.9 Ia bermakna lebih. Apabila ditanya tentang perbezaan antara keduanya, Gemini datang dengan nombor negatif.-4-
Baidu Wenxin Yiyan
5 menjawab dengan betul; apabila kami bertanya kedua-duanya Apabila ada perbezaan yang besar, ia berputar dalam bulatan besar dan akhirnya memberikan kesimpulan yang betul.
-5-
Ali Tongyi Seribu Soalan
Semua Ali Tongyi Seribu Soalan dijawab dengan betul.
-6-
Byte Beanbag
Kami bertanya siapa yang lebih besar, 9.11 atau 9.9, juga boleh dianalisis dalam kehidupan seharian dan 9.9. Sebagai contoh, masa pelari berlari ialah 9.11 saat dan 9.9 saat, yang bermaksud 9.11 saat adalah lebih pantas dari sudut harga, produk 9.9 yuan lebih mahal. Walau bagaimanapun, apabila ia mencapai kesimpulan, ia menjawab dengan salah.
Mengenai perbezaan antara keduanya, jawapan Doubao adalah betul.
-7-
Tencent Yuanbao
Tencent Yuanbao mencetuskan fungsi carian sebagai betul, apabila dijawab dengan betul dan akhirnya soalan ini dijawab.
Walau bagaimanapun, apakah perbezaan antara 9.11 dan 9.9 Persamaan Yuanbao adalah betul, tetapi hasil aritmetik dalam 16 tempat perpuluhan.
-8-
Zhipu Qingyan
Zhipu Qingyan tersilap percaya bahawa nilai yang diwakili oleh dua perpuluhan jawapan adalah lebih besar daripada satu jawapan perpuluhan. Apabila ditanya tentang perbezaan antara kedua-duanya, ia mengira nombor negatif.
Ia juga tidak lupa untuk mengatakan "Banyak ralat model AI mungkin disebabkan oleh kelemahan algoritma dalam memproses nombor dan titik perpuluhan." . 9.9 sebagai 0.21.
-10-
iFlytek Spark
iFlytek Spark menjawab dengan betul.
-11-
Baichuan Intelligence - Baixiaoying
Baixiaoying tersilap mengira bahawa 9 perbezaannya dengan betul.
Step Stars - Yue Wen
Yue Wen은 초기 분석에서는 문제가 없었지만, 혼란에 빠져 '역전된 결론'을 내렸고, 이로 인해 잘못된 최종 답이 나왔습니다.
다시 이유를 물었을 때, 갑자기 이해하고, 실수를 수정하고, 둘 사이의 차이를 정확하게 계산했습니다.
-13-
SenseTime - 토론
두 가지 질문에 잘못 답변되었습니다.
-14-
Kunlun Wanwei - Tiangong
답이 맞습니다.
-15-
Zero One Everything - Wanzhi
두 가지 질문에 잘못 답했습니다.
왜 큰 모델들은 간단한 수학 상식 문제도 풀지 못하는 걸까요? Tongyi Laboratory의 제품 관리자인 왕샤오밍(Wang Xiaoming)을 인터뷰했습니다.
Wang Xiaoming에 따르면 대규모 모델은 Transformer 아키텍처를 기반으로 구현됩니다. 그 본질은 직접적인 산술 계산 대신 다음 토큰 예측을 수행하는 것입니다. 따라서 크기 비율과 같은 간단한 수학적 문제를 다룰 때는 성공 여부가 달려 있습니다. 예측 모델의 비율.
또한 "9.11이 9.9보다 크다"와 같은 시나리오를 처리할 때 대형 모델은 일반적으로 토크나이저를 통해 처리됩니다. 이러한 표현식을 구문 분석할 때 토크나이저는 해당 숫자를 날짜나 버전 번호로 인식하여 비교를 하게 되어 결과적으로 오답이 나올 수 있습니다. 이 처리 방법은 토크나이저의 특정 알고리즘과 메커니즘에 따라 결정됩니다.
실제 테스트 과정에서 많은 대형 모델이 처음 답변할 때 잘못된 답변을 제공할 수도 있다는 사실도 발견했습니다. 그러나 두 번째 질문을 받았을 때 이러한 모델은 종종 정답을 제공할 수 있었습니다.
이 문제에 대해 왕샤오밍은 주로 세 가지 이유 때문에 발생한다고 생각합니다.
첫째, 예측 과정의 특정 무작위성으로 인해 두 번째 라운드가 첫 번째 라운드보다 더 정확합니다.
두 번째, 대형 모델은 강력한 맥락 이해 능력을 갖추고 있으며, 이전 답변과 수정 정보를 기반으로 보다 정확한 답변을 생성할 수 있습니다.
셋째, 질문자의 안내 방법도 대형 모델의 답변 결과에 영향을 미칩니다. 예를 들어 한정자를 사용하고 명확한 맥락을 제공하며 모델이 특정 지침을 따르도록 안내하는 것은 모두 정답을 얻을 확률을 높이는 데 도움이 될 수 있습니다.
대형 모델의 수학적 능력을 향상시키는 핵심은 특히 수학적 계산과 논리적 추론에서 고품질의 데이터 지원을 제공하는 것이라고 말했습니다. 예를 들어 Tongyi Qianwen은 이러한 시나리오의 교육을 위해 특별히 고품질 데이터를 추가하여 이러한 문제에 직면할 때 높은 정확도를 유지할 수 있습니다.
앞으로는 대형 AI 모델과 AI 애플리케이션에 대한 직접 리뷰를 더 많이 가져올 예정이며, 누구나 그룹에 참여하여 소통할 수 있습니다.
Atas ialah kandungan terperinci Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!