Andrej Karpathy ' S Grok 3을 첫 번째 봅니다!
Table of contents
- Andrej Karpathy Tried Grok 3
- Task 1: Board Game Logic (Settlers of Catan Prompt)
- Task 2: Unicode Challenge (Emoji Mystery)
- Task 3: Tic-Tac-Toe Puzzle GENERTENT 작업 4 : GPT-2 훈련에 대한 플로우 추정 작업 5 : 심도있는 연구 능력 (현재 이벤트 및 연구 질문) 작업 6 : 재미있는 LLM“Gotchas”(패턴 인식 및 유머) Task 7 : 윤리적 딜레마 및 철학적 질문
-
Grok 3은 무엇입니까?
Grok 3은 Xai의 최신 언어 모델로 오늘날 사용 가능한 최고의 AI 모델과 경쟁하도록 설계되었습니다. 개선 된 추론 능력, 복잡한 문제 해결을위한 "사고"모드, 향상된 웹 기반 조회 기능을위한 "심해"가 특징입니다. Xai는 Grok 3을 신속하게 개발했으며 초기 성능은 전임자들의 큰 도약임을 암시합니다. - .
Grok 3에 대한 자세한 기사를 더 많이 읽으려면!
Andrej Karpathy는 Grok 3 - 를 시도했습니다 Karpathy는 Grok 3의 문제 해결, 추론 및 검색 기능을 평가하기 위해 다양한 테스트를 수행했습니다. 이러한 테스트에는 보드 게임 논리, 수학적 추정, 깊은 연구, 유머 생성 및 윤리적 딜레마가 포함되었습니다. 그의 관찰은 모델의 강점과 개선이 필요한 영역을 모두 강조합니다. 나는 오늘 일찍 Grok 3에 일찍 접근 할 수 있었는데, 나는 빠른 분위기 점검을 실행할 수있는 최초의 몇 사람 중 한 명을 생각하게 만들었습니다. 먼저, Grok 3은 예술적 사고 모델 ( "생각"버튼) 주위에 분명히 내 정착민의 Catan에서 상자를 펼쳤습니다. (@karpathy) 2025 년 2 월 18 일
-
지금 과제를 자세히 살펴 보겠습니다!
관찰
Grok 3은 16 진 그리드에 대한 올바른 HTML을 성공적으로 생성했으며, 많은 모델이 어려움을 겪고 있습니다. 이것은 Openai의 O1-Pro와 같은 리그에 있으며 Deepseek-R1 및 Gemini 2.0 플래시 사고를 능가합니다. 평결
Grok 3은 문제를 해결할 수있었습니다
프롬프트 : “Rust Code의 힌트와 함께 유니 코드 변형 선택기에 숨겨진 메시지가있는 웃는 얼굴 이모티콘. 관찰
Grok 3은 숨겨진 메시지를 해독하지 못했습니다. DeepSeek-R1은 부분적인 진전을 보였지만 Grok 3이나 Openai의 O1-Pro는 완전히 해결할 수 없었습니다.
평결Grok 3은 문제를 해결할 수 없었습니다.
Grok 3은 문제를 완전히 해결할 수 없었습니다. 작업 4 : GPT-2 훈련을위한 플롭 추정 프롬프트 : “ 검색없이 GPT-2에 대한 훈련 플롭의 수를 추정합니다.
관찰Grok 3은 Flops를 성공적으로 계산하는 반면 Openai의 O1-Pro가 실패했습니다. 이것은 강력한 수학적 및 추론 능력을 보여줍니다.
평결
Grok 3은 문제를 해결할 수있었습니다
“다가오는 Apple 출시는 무엇입니까? 소문이 있나요?”?>
“최근에 Palantir 주가가 최근에 급증 하는가?”
“White Lotus 3은 어디에서 촬영되었으며 시즌 1과 2와 같은 팀입니까?”“브라이언 존슨은 어떤 치약을 사용합니까?” 관찰 Grok 3은 관련 정보를 성공적으로 검색했지만 가끔 환각과 언급이 누락되었습니다. 그것은 Perplexity의 깊은 연구와 비교하여 수행되었지만 Openai의 깊은 연구 뒤에 뒤떨어졌습니다. 평결
Grok 3은 대부분의 문제를 해결할 수 있었지만 일부 불일치가있었습니다.
관찰
결론
Karpathy의 Grok 3에 대한 초기 인상은 OpenAi의 O1-Pro와 동등하고 DeepSeek-R1 및 Gemini 2.0 플래시 사고와 같은 모델보다 성능이 우수하다는 것을 시사합니다. 그것의 강점은 구조적 추론, 깊은 수학적 계산 및 고급 검색 기능에 있습니다. 그러나 여전히 유머, 윤리적 딜레마 및 복잡한 시각적 작업으로 어려움을 겪고 있습니다. Xai의 빠른 개발 속도를 감안할 때 Grok 3은 단 1 년 만에 인상적인 성과입니다. 추가 평가가 필요하지만, 현재의 궤적은 XAI가 업계의 AI 리더들과의 격차를 신속하게 폐쇄하고 있음을 시사합니다.
Grok 3은 문제를 해결할 수 없었습니다.
위 내용은 Andrej Karpathy ' S Grok 3을 첫 번째 봅니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

에이전트 AI에서 작업하는 동안 개발자는 종종 속도, 유연성 및 자원 효율성 사이의 상충 관계를 탐색하는 것을 발견합니다. 나는 에이전트 AI 프레임 워크를 탐구하고 Agno를 만났다 (이전에는 ph-이었다.

릴리스에는 GPT-4.1, GPT-4.1 MINI 및 GPT-4.1 NANO의 세 가지 모델이 포함되어 있으며, 대형 언어 모델 환경 내에서 작업 별 최적화로 이동합니다. 이 모델은 사용자를 향한 인터페이스를 즉시 대체하지 않습니다

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

Rocketpy : 포괄적 인 가이드로 로켓 발사 시뮬레이션 이 기사는 강력한 파이썬 라이브러리 인 Rocketpy를 사용하여 고출력 로켓 런칭을 시뮬레이션하는 것을 안내합니다. 로켓 구성 요소 정의에서 Simula 분석에 이르기까지 모든 것을 다룰 것입니다.

AI 커뮤니티의 상당한 개발에서 Agentica와 AI는 DeepCoder-14B라는 오픈 소스 AI 코딩 모델을 발표했습니다. OpenAI와 같은 폐쇄 소스 경쟁 업체와 동등한 코드 생성 기능 제공

Chip Giant Nvidia는 월요일에 AI SuperComputers를 제조하기 시작할 것이라고 말했다. 이 발표는 트럼프 SI 대통령 이후에 나온다

Guy Peri는 McCormick의 최고 정보 및 디지털 책임자입니다. Peri는 그의 역할에 7 개월 만에 회사의 디지털 기능에 대한 포괄적 인 변화를 빠르게 발전시키고 있습니다. 데이터 및 분석에 대한 그의 경력에 중점을 둡니다

디지털 마케팅에서 소셜 미디어에 이르기까지 모든 창의적 부문과 함께 영화 산업은 기술 교차로에 있습니다. 인공 지능이 시각적 스토리 텔링의 모든 측면을 재구성하고 엔터테인먼트의 풍경을 바꾸기 시작함에 따라
