Xai의 Grok-3의 초기 액세스 단계에서 AI 애호가, 개발자 및 연구원들은 한계를 뛰어 넘고 능력을 탐색하는 데 시간을 낭비하지 않았습니다. 게임 개발에서 추론 테스트에 이르기까지 첫 번째 인상은 Grok-3이 AI 공간의 심각한 경쟁자이며 OpenAi의 최고 계층 모델, DeepSeek-R1 및 Google의 Gemini와 경쟁하고 있음을 시사합니다.
그러나 그로크가 다른 AI 모델과 다른 점은 무엇입니까? 그리고 왜 그렇게 많은 관심을 받고 있습니까?
목차
grok-3 성능 : 파리에서의 게임 개발
Grok-3 성능 : 추론 및 문제 해결 : 진정한 "사고"ai? Andrej Karpathy의 "Vibe Check": angrok-3 ai -
연구 및 실제 검색 쿼리를위한 AI 수학 및 논리 추론 -
grok-3 성능 : 실제 물리 시뮬레이션
- 강점
- 약점
- 결론
-
Grok : 개방적이고 제한되지 않은 ai
에 대한 Xai의 비전
Grok은 Elon Musk가 설립 한 인공 지능 회사 인 Xai가 개발 한 고급 AI 모델입니다. 많은 주류 언어 모델과 달리 Grok은 Chatgpt (Openai) 또는 Claude (Anthropic)에 비해 덜 제한적이고 응답이 더 열려 있도록 설계되었습니다. 편견없는 진실을 찾는 AI 경험을 제공하여 오늘날 가장 강력하고 독특한 대형 언어 모델 (LLM) 중 하나입니다.
의 출시와 함께,이 비전은 이제 현실이되고 있습니다.
Grok의 기원 : Openai에서 Xai 까지
Grok이 왜 존재하는지 이해하려면 Openai의 초기를 되돌아보아야합니다. Sam Altman, Greg Brockman 등의 공동 창립자 중 한 명인 Elon Musk에 의해 Openai가 처음에 형성되었음을 알게 된 사람은 거의 없습니다.
Musk는 Openai의 초기 연구의 주요 투자자였으며, 개발에 자금을 지원하고 오픈 소스 비영리 단체 접근법을 옹호했습니다.
그러나 OpenAi는 영리의 폐쇄 소스 회사로 전환함에 따라 Musk는 이러한 변화에 동의하지 않고 조직과의 일부를 나누었습니다. - .
이것은 AI 연구에서 차이를 남겼습니다. AI가 인류의 미래를 정의 할 5 가지 핵심 기술 중 하나라는 그의 신념을 감안할 때, 머스크는 실망 스러웠습니다.
머스크의 컴백 : Xai & Grok의 탄생
Chatgpt의 폭발적인 성공을 목격 한 후 Musk는 자신이 행동해야한다는 것을 알았습니다. 2023 년 3 월, 그는 공식적으로 Xai를 출시하여 그의 재입국을 AI 개발에 표시했습니다. (오늘 아침에 일찍 액세스 할 수있었습니다). 이 게임은 Grok에 의해 100%로 만들어졌으며, 방금 내가 원하는 것을 말하고 코드를 올바른 장소에 넣었습니다. 나는 그냥 조정을 계속 요청하고 계속 침을 뱉고…
“방금 내가 원하는 것을 말했고 게임을 만들었습니다.”
가장 눈에 띄는 초기 사용 사례 중 하나는 Penny2X에서 나온다. Penny2X는 접근 후 몇 시간 내에 Grok-3 만 사용하여 전체 게임을 처음부터 구축했다.
“이 게임은 100% Grok에 의해 만들어졌습니다. 방금 내가 원하는 것을 말했고 코드를 올바른 위치에 넣었습니다. 나는 조정을 계속 요구하고 실행할 수있는 단일 파일로 게임을 계속 뱉어냅니다.”
이것은 개발자에게 엄청납니다. AI 생성 게임 코드는 새로운 것이 아니지만 Grok-3이 API 통합없이이를 완벽하게 수행한다는 사실은 GPT-4O 및 Sonet과 같은 모델과 비슷합니다. Grok-3이 개발자 워크 플로에 더 잘 통합 될 수 있다면 인디 개발자와 스튜디오가 게임을 만드는 방식을 바꿀 수 있습니다.
내 테이크
이것은 흥미로운 이정표입니다. Grok-3의 실시간 조정 및 실행 가능한 게임 코드를 생성하는 능력은 개발자에게 더 빠른 프로토 타이핑을 의미 할 수 있습니다. XAI가 생산 사용을 위해 API를 최적화하면 AI-ASSISTED 게임 개발의 주요 변화를 볼 수 있습니다.Grok-3 성능 : 추론 및 문제 해결 : 진정한“사고”ai?
나는 오늘 일찍 Grok 3에 일찍 접근 할 수 있었는데, 나는 빠른 분위기 점검을 실행할 수있는 최초의 몇 사람 중 한 명을 생각하게 만들었습니다.
먼저, Grok 3은 예술적 사고 모델 ( "생각"버튼) 주위에 분명히 내 정착민의 Catan에서 상자를 펼쳤습니다. (@karpathy) 2025 년 2 월 18 일
Andrej Karpathy의 "Vibe Check": Grok-3을 생각할 수 있습니까?
ai 개척자 Andrej Karpathy는 복잡한 추론과 문제 해결 작업으로 Grok-3을 테스트에 넣었습니다. 그의 가장 큰 테이크 아웃? Grok-3의 "Think"모드는 게임 체인저입니다.
“Grok 3에는 주변의 최첨단 사고 모델 (“Think”버튼)이 분명히 있으며, 내 정착민의 Catan 질문에 대해 상자에서 훌륭했습니다. 이 모델을 믿을 수 없게하는 모델은 거의 없습니다. 최상위 Openai 모델 (O1-Pro, $ 200/월)은 Deepseek-R1, Gemini 2.0 Flash Thinking 및 Claude는 그렇지 않습니다.
그는 또한 논리 퍼즐, TIC-TAC-TOE 보드 생성 및 수학적 추정 (GPT-2의 훈련 플롭 계산)을 테스트했습니다. 깊은 추론이 필요한 작업에서 Grok-3은 GPT-4O 및 O1-PRO를 능가했으며, 이는 자체 추론 기능으로도 추정 작업에 실패했습니다.
“내가 얻은 인상은 Grok-3이 O1-Pro 기능에 어딘가에 있고 DeepSeek-R1보다 앞서 있다는 것입니다.”
그러나 Grok-3은 완벽하지 않습니다. 그것은 퍼즐 생성 작업, 이모티콘 인코딩 도전 과제로 어려움을 겪었지만 여전히 정보 검색에 환각이 가끔 있습니다.
.
내 테이크
"생각"모드는 Grok-3의 가장 큰 강점 중 하나 인 것으로 보입니다. 대부분의 챗봇이 실시간 문제 해결으로 어려움을 겪고있는 시대에 Grok-3의 복잡한 쿼리를 논리적으로 "일하는"능력 (단지 답변을 되풀이하지 않고)은 많은 경쟁자들보다 앞서 있습니다. 그러나 Karpathy가 언급 한 것처럼 실제 벤치 마크와 평가는 전체 이야기를 들려 줄 것입니다.
도 읽으십시오 : Andrej Karpathy의 첫 번째 Grok 3!
Grok-3 vs. 다른 AI 모델 : 어떻게 쌓인가?
단지 추론을 넘어서, Grok-3은 지식 검색, 깊은 검색, 유머 및 윤리적 의사 결정에 대한 주요 모델에 대해 테스트되었습니다.
깊은 검색 : 연구 및 실제 쿼리를위한 AI
Karpathy는 Grok-3의 "Deep Search"기능이 OpenAi의 Deep Research 및 Perplexity의 검색 모델과 비교하여 다음과 같은 실시간 쿼리에서 잘 수행된다고 언급했습니다.
- “다가오는 Apple 출시는 무엇입니까?”
“팔랑 티어 주가가 급증하는 이유는 무엇입니까?”
-
“흰색 연꽃 시즌 3이 어디에서 촬영 되었습니까?”
그러나 그러나 환각과 같은 약점, X (Twitter)를 소스로 피하고 특정 주장에 대한 인용이 누락되었습니다.
수학 및 논리 추론
grok-3은 성공적으로 다루었습니다. with!) - ✅ riemann 가설을 해결하려고
(gemini & claude와 달리!) .
그러나 그러나 여전히 오류가 발생했습니다. 더 나은!)
유머 이해
(농담은 일반적인 느낌, 재치가 부족합니다!)
내 테이크
Grok-3은 특정 추론 작업에서 Gemini 및 DeepSeek-R1을 능가하는 동안 OpenAi의 최고의 모델 (O1-Pro, $ 200/월)과 동등한 것으로 보입니다. 그러나 여전히 유머, 실시간 연구 정확도 및 퍼즐 생성의 개선이 필요합니다.
Grok-3 성능 : 실제 물리 시뮬레이션
Grok 3은 실제 물리학에 가장 적합한 기본 LLM 일 수 있습니다!
프롬프트 : "회전하는 테세 팩 안에 튀는 공의 파이썬 스크립트를 작성하십시오". 나는 그들의 추론 모델을 시도하는 데 매우 관심이 있습니다. pic.twitter.com/fv2rfebb4j
ai 연구원 Yuchen Jin Grok-3 테스트 물리 기반 코딩 문제 .
“Grok 3은 실제 물리학을위한 최고의 기본 LLM 일 수 있습니다! 프롬프트 :‘회전하는 Tesseract 안에 튀는 공의 파이썬 스크립트를 작성하십시오.’‘사고’모드는 기본 모델 만 가능하지 않습니다. 나는 그들의 추론 모델을 시도하는 데 매우 관심이 있습니다.”
내 테이크
Grok-3이 물리 시뮬레이션을 효과적으로 처리 할 수 있다면, 이는 시뮬레이션이 많은 필드의 연구원, 엔지니어 및 개발자에게 큰 승리가 될 수 있습니다.
는 Grok-3가 깨어 났습니까?
방금 Grok 3을 얻었고 지금 가지고있는 정확도로 날아 갔습니까? pic.twitter.com/poeigyfnml - mond️Dezmond Oliver⚡️ (@dezmondoliver) 2025 년 2 월 18 일
이것은 시각적 모델에서 AI 편향에 대한 흥미로운 토론을 제기합니다. Grok-3은 고도로 진보 된 것으로 보이지만 AI 모델은 여전히 미묘한 정체성 표현으로 어려움을 겪고 있습니다. 이것은 Midjourney, Dall · e 및 안정적인 확산을 포함한 Many AI 시스템에 고유하지 않습니다. 편견이없는 표현에서 비슷한 도전에 직면 해 있습니다.
최종 평결 : Grok-3은 진정한 ai 경쟁자입니까?
강점
✅ 최첨단 추론 ( "사고"모드는 OpenAi의 최고와 경쟁합니다)
✅ ✅ ✅ ✅ 물리 기반 코딩은 유망한 결과를 보여줍니다.
약점
❌ ❌ ❌은 여전히 환각을 느끼고 가짜 URL을 생성합니다 ❌ 농담 생성에서 유머와 창의성으로 어려움을 겪고 있습니다
Grok-3은 또한 1400 점을 넘어서는 최초의 모델이며, LLM (Lange Language Models)에 대한 새로운 벤치 마크를 설정합니다. 그러나 현재 Chabot Arena-웹 버전에서 Grok-3을 보여주지 않습니다!
도 읽기 : Grok-3 (CodeName“Chocolate”)은 이제 Chatbot Arena에서 1 위입니다.
결론
Grok-3의 성능은 의심 할 여지없이 인상적입니다. 단 1 년 만에 Xai는 OpenAi의 가장 강력한 LLM과 경쟁하고 DeepSeek-R1과 Gemini보다 성능이 우수한 모델을 구축했습니다.
그러나 완벽하지는 않습니다. "사고"모드는 추론을 향상 시키지만 사실 확인, 유머 및 복잡한 창조적 인 작업의 개선의 여지가 있습니다.
Grok-3은 깊은 검색, 개발자 통합 및 실제 추론의 개선을 통해 OpenAi와 Google에 도전하는 획기적인 AI가 될 가능성이 있습니다. Grok-3은 공식적으로 게임에 있습니다. 이제 어떻게 진화하는지 봅시다.
아래의 의견 섹션에서 Grok-3에 대한 귀하의 생각을 알려주세요!
Xai Grok 3 : 지구상에서 가장 똑똑한 AI로 미래를 잠금 해제하십시오! 게임 개발, 고급 추론 및 실제 작업에 빠져들게됩니다. 지금 등록하고 ai 혁신을 마스터하십시오!”
위 내용은 Grok 3 Action : 게임 개발, 추론 등의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!