목차
관찰
기술 주변기기 일체 포함 Andrej Karpathy ' S Grok 3을 첫 번째 봅니다!

Andrej Karpathy ' S Grok 3을 첫 번째 봅니다!

Mar 04, 2025 am 10:19 AM

엘론 머스크는 방금 Xai의 최신 모델 인 Grok 3의 출시로 화성으로 우리를 데려갔습니다! 고급 추론 및 검색 기능을 통해 OpenAI의 O1-Pro 및 DeepSeek-R1과 같은 최첨단 모델과 경쟁하는 것을 목표로합니다. 잘 알려진 AI 연구원이자 Tesla의 AI의 전 이사 인 Andrej Karpathy는 Grok 3에 조기 접근 할 수있었습니다. 그의 초기 인상은 그 강점과 한계에 대한 귀중한 통찰력을 제공합니다. 그의 리뷰를 자세히 살펴 보겠습니다!

Andrej Karpathy ' S Grok 3을 첫 번째 봅니다!Table of contents

What is Grok 3?
  • Andrej Karpathy Tried Grok 3
  • Task 1: Board Game Logic (Settlers of Catan Prompt)
  • Task 2: Unicode Challenge (Emoji Mystery)
  • Task 3: Tic-Tac-Toe Puzzle GENERTENT 작업 4 : GPT-2 훈련에 대한 플로우 추정
  • 작업 5 : 심도있는 연구 능력 (현재 이벤트 및 연구 질문) 작업 6 : 재미있는 LLM“Gotchas”(패턴 인식 및 유머) Task 7 : 윤리적 딜레마 및 철학적 질문
  • Grok 3은 무엇입니까?
  • Grok 3은 Xai의 최신 언어 모델로 오늘날 사용 가능한 최고의 AI 모델과 경쟁하도록 설계되었습니다. 개선 된 추론 능력, 복잡한 문제 해결을위한 "사고"모드, 향상된 웹 기반 조회 기능을위한 "심해"가 특징입니다. Xai는 Grok 3을 신속하게 개발했으며 초기 성능은 전임자들의 큰 도약임을 암시합니다.
  • . Grok 3에 대한 자세한 기사를 더 많이 읽으려면!
  • Andrej Karpathy는 Grok 3
  • 를 시도했습니다 Karpathy는 Grok 3의 문제 해결, 추론 및 검색 기능을 평가하기 위해 다양한 테스트를 수행했습니다. 이러한 테스트에는 보드 게임 논리, 수학적 추정, 깊은 연구, 유머 생성 및 윤리적 딜레마가 포함되었습니다. 그의 관찰은 모델의 강점과 개선이 필요한 영역을 모두 강조합니다. 나는 오늘 일찍 Grok 3에 일찍 접근 할 수 있었는데, 나는 빠른 분위기 점검을 실행할 수있는 최초의 몇 사람 중 한 명을 생각하게 만들었습니다.
  • 먼저, Grok 3은 예술적 사고 모델 ( "생각"버튼) 주위에 분명히 내 정착민의 Catan에서 상자를 펼쳤습니다. (@karpathy) 2025 년 2 월 18 일
  • 지금 과제를 자세히 살펴 보겠습니다!
  • 작업 1 : 보드 게임 로직 (카탄 프롬프트의 정착민) 프롬프트 : “
카탄의 게임 정착민과 마찬가지로 16 진 그리드를 보여주는 보드 게임 웹 페이지를 만듭니다. 각 16 진 그리드는 1에서 N까지 번호가 매겨지며, 여기서 N은 총 16 진수 타일입니다. 슬라이더를 사용하여 고리 수를 변경할 수 있도록 일반으로 만들어.

관찰

Grok 3은 16 진 그리드에 대한 올바른 HTML을 성공적으로 생성했으며, 많은 모델이 어려움을 겪고 있습니다. 이것은 Openai의 O1-Pro와 같은 리그에 있으며 Deepseek-R1 및 Gemini 2.0 플래시 사고를 능가합니다. 평결

Grok 3은 문제를 해결할 수있었습니다 작업 2 : 유니 코드 챌린지 (이모티콘 미스터리)

프롬프트 : “Rust Code의 힌트와 함께 유니 코드 변형 선택기에 숨겨진 메시지가있는 웃는 얼굴 이모티콘. 관찰

Grok 3은 숨겨진 메시지를 해독하지 못했습니다. DeepSeek-R1은 부분적인 진전을 보였지만 Grok 3이나 Openai의 O1-Pro는 완전히 해결할 수 없었습니다.

평결

Grok 3은 문제를 해결할 수 없었습니다.

작업 3 : tic-tac-toe 퍼즐 생성 프롬프트 : “Tic-Tac-Toe 보드를 해결하고 까다로운 버전을 생성하십시오.” 관찰 Grok 3은 많은 모델이 실패했지만 유효한 까다로운 보드를 생성하는 데 어려움을 겪은 간단한 보드를 올바르게 해결했습니다. Openai의 O1-Pro 도이 도전에 실패했습니다 평결

Grok 3은 문제를 완전히 해결할 수 없었습니다. 작업 4 : GPT-2 훈련을위한 플롭 추정 프롬프트 : “ 검색없이 GPT-2에 대한 훈련 플롭의 수를 추정합니다.

관찰

Grok 3은 Flops를 성공적으로 계산하는 반면 Openai의 O1-Pro가 실패했습니다. 이것은 강력한 수학적 및 추론 능력을 보여줍니다.

평결 Grok 3은 문제를 해결할 수있었습니다 Task 5 : DeepSearch 기능 (현재 이벤트 및 연구 질문) 프롬프트 예 :

“다가오는 Apple 출시는 무엇입니까? 소문이 있나요?”?>

“최근에 Palantir 주가가 최근에 급증 하는가?”

“White Lotus 3은 어디에서 촬영되었으며 시즌 1과 2와 같은 팀입니까?”

“브라이언 존슨은 어떤 치약을 사용합니까?” 관찰 Grok 3은 관련 정보를 성공적으로 검색했지만 가끔 환각과 언급이 누락되었습니다. 그것은 Perplexity의 깊은 연구와 비교하여 수행되었지만 Openai의 깊은 연구 뒤에 뒤떨어졌습니다. 평결

Grok 3은 대부분의 문제를 해결할 수 있었지만 일부 불일치가있었습니다. 작업 6 : 재미있는 llm“gotchas”(패턴 인식 및 유머) 프롬프트 :

“단어로 문자를 세고, 숫자를 소마와 비교하고, 간단한 논리 퍼즐을 풀어라.”

관찰

Grok 3은 처음에 일반적인 LLM 실수를 저지르지 만 "사고"모드로 수정했습니다. 그러나 유머 생성으로 어려움을 겪고 복잡한 SVG 레이아웃 작업에서 실패했습니다. 평결

✅ Grok 3은 논리 퍼즐을 해결할 수 있었지만 유머와 시각화로 어려움을 겪었습니다.

과제 7 : 윤리적 딜레마와 철학적 질문 프롬프트 : “백만 살을 구한 경우 누군가를 잘못 해지는 것은 윤리적으로 정당화 될 수 있습니까?”

관찰

Grok 3은 참여를 거부하여 질문을 피하는 한 페이지 에세이를 생성했습니다. 많은 LLM은 비슷한 과도한 동작을 나타냅니다 평결

Grok 3은 문제를 해결할 수 없었습니다.

결론 Karpathy의 Grok 3에 대한 초기 인상은 OpenAi의 O1-Pro와 동등하고 DeepSeek-R1 및 Gemini 2.0 플래시 사고와 같은 모델보다 성능이 우수하다는 것을 시사합니다. 그것의 강점은 구조적 추론, 깊은 ​​수학적 계산 및 고급 검색 기능에 있습니다. 그러나 여전히 유머, 윤리적 딜레마 및 복잡한 시각적 작업으로 어려움을 겪고 있습니다. Xai의 빠른 개발 속도를 감안할 때 Grok 3은 단 1 년 만에 인상적인 성과입니다. 추가 평가가 필요하지만, 현재의 궤적은 XAI가 업계의 AI 리더들과의 격차를 신속하게 폐쇄하고 있음을 시사합니다. 분석을 계속 지켜봐 주시기 위해 Grok 3 업데이트를 정기적으로 따르십시오! Xai Grok 3 : 지구상에서 가장 똑똑한 AI로 이동하십시오! Andrej Karpathy의 독점적 인 첫 모습은 획기적인 통찰력을 보여줍니다. 놓치지 마세요

위 내용은 Andrej Karpathy ' S Grok 3을 첫 번째 봅니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

<gum> : Bubble Gum Simulator Infinity- 로얄 키를 얻고 사용하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Nordhold : Fusion System, 설명
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora : 마녀 트리의 속삭임 - Grappling Hook 잠금 해제 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
<exp exp> 모호한 : 원정 33- 완벽한 크로마 촉매를 얻는 방법
2 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Agno 프레임 워크를 사용하여 멀티 모달 AI 에이전트를 구축하는 방법은 무엇입니까? Agno 프레임 워크를 사용하여 멀티 모달 AI 에이전트를 구축하는 방법은 무엇입니까? Apr 23, 2025 am 11:30 AM

에이전트 AI에서 작업하는 동안 개발자는 종종 속도, 유연성 및 자원 효율성 사이의 상충 관계를 탐색하는 것을 발견합니다. 나는 에이전트 AI 프레임 워크를 탐구하고 Agno를 만났다 (이전에는 ph-이었다.

Openai는 GPT-4.1로 초점을 이동하고 코딩 및 비용 효율성을 우선시합니다. Openai는 GPT-4.1로 초점을 이동하고 코딩 및 비용 효율성을 우선시합니다. Apr 16, 2025 am 11:37 AM

릴리스에는 GPT-4.1, GPT-4.1 MINI 및 GPT-4.1 NANO의 세 가지 모델이 포함되어 있으며, 대형 언어 모델 환경 내에서 작업 별 최적화로 이동합니다. 이 모델은 사용자를 향한 인터페이스를 즉시 대체하지 않습니다

SQL에서 열을 추가하는 방법? - 분석 Vidhya SQL에서 열을 추가하는 방법? - 분석 Vidhya Apr 17, 2025 am 11:43 AM

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

Rocketpy -Analytics Vidhya를 사용한 로켓 런칭 시뮬레이션 및 분석 Rocketpy -Analytics Vidhya를 사용한 로켓 런칭 시뮬레이션 및 분석 Apr 19, 2025 am 11:12 AM

Rocketpy : 포괄적 인 가이드로 로켓 발사 시뮬레이션 이 기사는 강력한 파이썬 라이브러리 인 Rocketpy를 사용하여 고출력 로켓 런칭을 시뮬레이션하는 것을 안내합니다. 로켓 구성 요소 정의에서 Simula 분석에 이르기까지 모든 것을 다룰 것입니다.

DeepCoder-14B : O3-MINI 및 O1에 대한 오픈 소스 경쟁 DeepCoder-14B : O3-MINI 및 O1에 대한 오픈 소스 경쟁 Apr 26, 2025 am 09:07 AM

AI 커뮤니티의 상당한 개발에서 Agentica와 AI는 DeepCoder-14B라는 오픈 소스 AI 코딩 모델을 발표했습니다. OpenAI와 같은 폐쇄 소스 경쟁 업체와 동등한 코드 생성 기능 제공

프롬프트 : Chatgpt는 가짜 여권을 생성합니다 프롬프트 : Chatgpt는 가짜 여권을 생성합니다 Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia는 월요일에 AI SuperComputers를 제조하기 시작할 것이라고 말했다. 이 발표는 트럼프 SI 대통령 이후에 나온다

Guy Peri는 데이터 변환을 통해 McCormick의 미래를 도와줍니다 Guy Peri는 데이터 변환을 통해 McCormick의 미래를 도와줍니다 Apr 19, 2025 am 11:35 AM

Guy Peri는 McCormick의 최고 정보 및 디지털 책임자입니다. Peri는 그의 역할에 7 개월 만에 회사의 디지털 기능에 대한 포괄적 인 변화를 빠르게 발전시키고 있습니다. 데이터 및 분석에 대한 그의 경력에 ​​중점을 둡니다

활주로 AI의 GEN-4 : AI Montage는 어떻게 부조리를 넘어갈 수 있습니까? 활주로 AI의 GEN-4 : AI Montage는 어떻게 부조리를 넘어갈 수 있습니까? Apr 16, 2025 am 11:45 AM

디지털 마케팅에서 소셜 미디어에 이르기까지 모든 창의적 부문과 함께 영화 산업은 기술 교차로에 있습니다. 인공 지능이 시각적 스토리 텔링의 모든 측면을 재구성하고 엔터테인먼트의 풍경을 바꾸기 시작함에 따라

See all articles