> 기술 주변기기 > 일체 포함 > Grok 3 Action : 게임 개발, 추론 등

Grok 3 Action : 게임 개발, 추론 등

Joseph Gordon-Levitt
풀어 주다: 2025-03-04 09:36:13
원래의
265명이 탐색했습니다.
Xai의 Grok-3의 초기 액세스 단계에서 AI 애호가, 개발자 및 연구원들은 한계를 뛰어 넘고 능력을 탐색하는 데 시간을 낭비하지 않았습니다. 게임 개발에서 추론 테스트에 이르기까지 첫 번째 인상은 Grok-3이 AI 공간의 심각한 경쟁자이며 OpenAi의 최고 계층 모델, DeepSeek-R1 및 Google의 Gemini와 경쟁하고 있음을 시사합니다.

그러나 그로크가 다른 AI 모델과 다른 점은 무엇입니까? 그리고 왜 그렇게 많은 관심을 받고 있습니까? Grok 3 Action : 게임 개발, 추론 등 목차

grok-3 성능 : 파리에서의 게임 개발

Grok-3 성능 : 추론 및 문제 해결 : 진정한 "사고"ai?

Andrej Karpathy의 "Vibe Check": angrok-3 ai

먼저, Grok 3은 예술적 사고 모델 ( "생각"버튼) 주위에 분명히 내 정착민의 Catan에서 상자를 펼쳤습니다. (@karpathy) 2025 년 2 월 18 일
Andrej Karpathy의 "Vibe Check": Grok-3을 생각할 수 있습니까? ai 개척자 Andrej Karpathy는 복잡한 추론과 문제 해결 작업으로 Grok-3을 테스트에 넣었습니다. 그의 가장 큰 테이크 아웃? Grok-3의 "Think"모드는 게임 체인저입니다.


“Grok 3에는 주변의 최첨단 사고 모델 (“Think”버튼)이 분명히 있으며, 내 정착민의 Catan 질문에 대해 상자에서 훌륭했습니다. 이 모델을 믿을 수 없게하는 모델은 거의 없습니다. 최상위 Openai 모델 (O1-Pro, $ 200/월)은 Deepseek-R1, Gemini 2.0 Flash Thinking 및 Claude는 그렇지 않습니다. 그는 또한 논리 퍼즐, TIC-TAC-TOE 보드 생성 및 수학적 추정 (GPT-2의 훈련 플롭 계산)을 테스트했습니다. 깊은 추론이 필요한 작업에서 Grok-3은 GPT-4O 및 O1-PRO를 능가했으며, 이는 자체 추론 기능으로도 추정 작업에 실패했습니다.
“내가 얻은 인상은 Grok-3이 O1-Pro 기능에 어딘가에 있고 DeepSeek-R1보다 앞서 있다는 것입니다.” 그러나 Grok-3은 완벽하지 않습니다. 그것은 퍼즐 생성 작업, 이모티콘 인코딩 도전 과제로 어려움을 겪었지만 여전히 정보 검색에 환각이 가끔 있습니다.
.

내 테이크 "생각"모드는 Grok-3의 가장 큰 강점 중 하나 인 것으로 보입니다. 대부분의 챗봇이 실시간 문제 해결으로 어려움을 겪고있는 시대에 Grok-3의 복잡한 쿼리를 논리적으로 "일하는"능력 (단지 답변을 되풀이하지 않고)은 많은 경쟁자들보다 앞서 있습니다. 그러나 Karpathy가 언급 한 것처럼 실제 벤치 마크와 평가는 전체 이야기를 들려 줄 것입니다. 도 읽으십시오 : Andrej Karpathy의 첫 번째 Grok 3! Grok-3 vs. 다른 AI 모델 : 어떻게 쌓인가?
단지 추론을 넘어서, Grok-3은 지식 검색, 깊은 검색, 유머 및 윤리적 의사 결정에 대한 주요 모델에 대해 테스트되었습니다. 깊은 검색 : 연구 및 실제 쿼리를위한 AI Karpathy는 Grok-3의 "Deep Search"기능이 OpenAi의 Deep Research 및 Perplexity의 검색 모델과 비교하여 다음과 같은 실시간 쿼리에서 잘 수행된다고 언급했습니다.
  • “다가오는 Apple 출시는 무엇입니까?” “팔랑 티어 주가가 급증하는 이유는 무엇입니까?”
  • “흰색 연꽃 시즌 3이 어디에서 촬영 되었습니까?”
  • 그러나 그러나 환각과 같은 약점, X (Twitter)를 소스로 피하고 특정 주장에 대한 인용이 누락되었습니다. 수학 및 논리 추론 grok-3은 성공적으로 다루었습니다. with!)
  • ✅ riemann 가설을 해결하려고
(gemini & claude와 달리!) . 그러나 그러나 여전히 오류가 발생했습니다. 더 나은!)

유머 이해
(농담은 일반적인 느낌, 재치가 부족합니다!) 내 테이크 Grok-3은 특정 추론 작업에서 Gemini 및 DeepSeek-R1을 능가하는 동안 OpenAi의 최고의 모델 (O1-Pro, $ 200/월)과 동등한 것으로 보입니다. 그러나 여전히 유머, 실시간 연구 정확도 및 퍼즐 생성의 개선이 필요합니다. Grok-3 성능 : 실제 물리 시뮬레이션 Grok 3은 실제 물리학에 가장 적합한 기본 LLM 일 수 있습니다!
프롬프트 : "회전하는 테세 팩 안에 튀는 공의 파이썬 스크립트를 작성하십시오". 나는 그들의 추론 모델을 시도하는 데 매우 관심이 있습니다. pic.twitter.com/fv2rfebb4j ai 연구원 Yuchen Jin Grok-3 테스트 물리 기반 코딩 문제 . “Grok 3은 실제 물리학을위한 최고의 기본 LLM 일 수 있습니다! 프롬프트 :‘회전하는 Tesseract 안에 튀는 공의 파이썬 스크립트를 작성하십시오.’‘사고’모드는 기본 모델 만 가능하지 않습니다. 나는 그들의 추론 모델을 시도하는 데 매우 관심이 있습니다.”
내 테이크 Grok-3이 물리 시뮬레이션을 효과적으로 처리 할 수 ​​있다면, 이는 시뮬레이션이 많은 필드의 연구원, 엔지니어 및 개발자에게 큰 승리가 될 수 있습니다. 는 Grok-3가 깨어 났습니까? 방금 Grok 3을 얻었고 지금 가지고있는 정확도로 날아 갔습니까? pic.twitter.com/poeigyfnml - mond️Dezmond Oliver⚡️ (@dezmondoliver) 2025 년 2 월 18 일 이것은 시각적 모델에서 AI 편향에 대한 흥미로운 토론을 제기합니다. Grok-3은 고도로 진보 된 것으로 보이지만 AI 모델은 여전히 ​​미묘한 정체성 표현으로 어려움을 겪고 있습니다. 이것은 Midjourney, Dall · e 및 안정적인 확산을 포함한 Many AI 시스템에 고유하지 않습니다. 편견이없는 표현에서 비슷한 도전에 직면 해 있습니다. 최종 평결 : Grok-3은 진정한 ai 경쟁자입니까?

강점

✅ 최첨단 추론 ( "사고"모드는 OpenAi의 최고와 경쟁합니다)

✅ ✅ 물리 기반 코딩은 유망한 결과를 보여줍니다. 약점

❌ ❌ ❌은 여전히 ​​환각을 느끼고 가짜 URL을 생성합니다

❌ 농담 생성에서 유머와 창의성으로 어려움을 겪고 있습니다 Grok-3은 또한 1400 점을 넘어서는 최초의 모델이며, LLM (Lange Language Models)에 대한 새로운 벤치 마크를 설정합니다. 그러나 현재 Chabot Arena-웹 버전에서 Grok-3을 보여주지 않습니다!

도 읽기 : Grok-3 (CodeName“Chocolate”)은 이제 Chatbot Arena에서 1 위입니다.

결론 Grok-3의 성능은 의심 할 여지없이 인상적입니다. 단 1 년 만에 Xai는 OpenAi의 가장 강력한 LLM과 경쟁하고 DeepSeek-R1과 Gemini보다 성능이 우수한 모델을 구축했습니다. 그러나 완벽하지는 않습니다. "사고"모드는 추론을 향상 시키지만 사실 확인, 유머 및 복잡한 창조적 인 작업의 개선의 여지가 있습니다. Grok-3은 깊은 검색, 개발자 통합 및 실제 추론의 개선을 통해 OpenAi와 Google에 도전하는 획기적인 AI가 될 가능성이 있습니다. Grok-3은 공식적으로 게임에 있습니다. 이제 어떻게 진화하는지 봅시다.

아래의 의견 섹션에서 Grok-3에 대한 귀하의 생각을 알려주세요!

Xai Grok 3 : 지구상에서 가장 똑똑한 AI로 미래를 잠금 해제하십시오! 게임 개발, 고급 추론 및 실제 작업에 빠져들게됩니다. 지금 등록하고 ai 혁신을 마스터하십시오!”

위 내용은 Grok 3 Action : 게임 개발, 추론 등의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿