OpenAI는 앞발로 GPT4o를 출시해 경기 전체를 장악했지만 뒷발로 최대 경쟁자인 Anthropic에게 추월당했습니다.
방금 Anthropic은 지금까지 가장 똑똑한 모델이라고 주장되는 새로운 대형 모델 Claude 3.5 Sonnet을 출시했습니다.
보도에 따르면 Claude 3.5 Sonnet은 Anthropic의 곧 출시될 Claude 3.5 시리즈의 첫 번째 버전입니다. 이 모델은 대부분의 벤치마크 평가에서 경쟁 대형 모델과 가장 강력한 전신인 Claude 3 Opus를 능가하는 등 전체 분야의 지능 수준을 향상시켰습니다. 동시에 실행 속도와 비용은 이전 Claude 3 Sonnet과 동일합니다. 현재 Claude 3.5 Sonnet은 이미 Claude.ai 및 Claude iOS 앱에서 무료로 제공되며 Claude Pro 및 Team 플랜 가입자는 다운로드할 수 있습니다. 더 높은 가격으로 액세스할 수 있습니다. 또한 Claude 3.5 Sonnet은 이미 Anthropic API, Amazon Cloud Technology Bedrock 및 기타 채널을 통해 직접 사용할 수 있습니다. 가격은 입력 토큰 100만개당 $3, 출력 토큰 100만개당 15달러이며 컨텍스트 창은 200,000개 토큰입니다.
ㅋㅋㅋ "
Anthropic은 몇 달에 한 번씩 성능, 속도 및 비용 간의 균형 곡선을 획기적으로 개선하는 것을 목표로 한다고 말합니다. Claude 3.5 Haiku와 Claude 3.5 Opus는 올해 후반에 출시될 예정입니다.
Anthropic은 차세대 대형 모델을 개발하는 것 외에도 엔터프라이즈 애플리케이션과의 통합을 포함하여 더 많은 엔터프라이즈 사용 사례를 지원하는 새로운 패턴과 기능을 개발하고 있습니다. 팀은 또한 모델이 사용자의 선호도와 지정된 상호 작용 기록을 기억하여 보다 개인화되고 효율적인 경험을 가능하게 하는 메모리와 같은 기능을 탐색하고 있습니다.
Claude 3.5 Sonnet
대학원 수준 추론(GPQA), 학부 수준 지식(MMLU) 및 Co 딩 기능(HumanEval )는 새로운 업계 벤치마크를 설정합니다 . 뉘앙스, 유머, 복잡한 지시에 대한 이해가 크게 향상되었으며, 자연스럽고 친근한 어조로 고품질 콘텐츠를 작성하는 데 탁월합니다.
Claude 3.5 Sonnet은 Claude 3 Opus보다 두 배 빠른 속도로 실행됩니다. 이러한 성능 향상과 저렴한 가격 덕분에 Claude 3.5 Sonnet은 복잡한 작업에 이상적입니다.
내부 프록시 코딩 평가에서 Claude 3.5 Sonnet은 Claude 3 Opus(38% 해결)보다 더 나은 64%의 문제를 해결했습니다. Anthropic 평가에서는 요구 사항에 대한 자연어 설명을 기반으로 오픈 소스 코드 기반에 버그를 수정하거나 기능을 추가하는 Claude 3.5 Sonnet의 능력을 테스트했습니다.
지침과 관련 도구를 받은 후 Claude 3.5 Sonnet은 정교한 추론 및 문제 해결 기능을 통해 독립적으로 코드를 작성, 편집 및 실행할 수 있습니다. Claude 3.5 Sonnet은 코드 변환을 쉽게 처리할 수 있으며 이는 레거시 애플리케이션을 업데이트하고 코드 베이스를 마이그레이션하는 데 특히 효과적입니다.
다음 표에서는 Claude 3.5 Sonnet을 다른 모델과 비교합니다. 평가 벤치마크에는 추론, 독해, 수학, 과학 및 코딩이 포함됩니다. 이 모든 벤치마크에서 Claude 3.5 Sonnet은 이전의 최첨단 모델인 Claude 3 Opus보다 더 나은 성능을 보였습니다.
표에서 Claude3.5와 GPT-4o의 비교 데이터도 볼 수 있습니다.
수학을 제외하면 점수가 GPT-4o보다 높거나 비슷합니다.
현재까지 가장 강력한 시각적 모델
Anthropic은
Claude 3.5 Sonnet이 모든 표준 시각적 벤치마크에서 이전 모델인 Claude 3 Opus를 능가하는 가장 강력한 시각적 모델이라고 말합니다.
소매, 물류, 금융 서비스 산업의 핵심 기능인 차트, 그래프 해석, 불완전한 이미지에서 텍스트 복사 등 시각적 추론이 필요한 작업에서 성능이 특히 두드러집니다. 이러한 영역에서 AI는 텍스트보다 이미지, 그래픽, 일러스트레이션에서 더 많은 통찰력을 얻을 수 있습니다.
아래 그림은 시각적 수학적 추론, 과학 차트, 시각적 질문 답변, 차트 QA 및 문서 시각적 QA 작업에서 Claude 3.5 Sonnet과 Claude 3 Opus, GPT-4o, Gemini 1.5 Pro의 성능 비교를 보여줍니다.
Artifacts – Claude를 사용하는 새로운 방법 Anthropic은 또한 사용자가 Claude와 상호 작용하는 방식을 확장하는 새로운 기능인 Artifacts를 Claude.ai에 출시했습니다. 사용자가 Claude에게 코드 조각, 텍스트 문서 또는 웹 사이트 디자인과 같은 것을 생성하도록 요청하면 이러한 아티팩트가 대화 옆의 전용 창에 나타납니다. 이를 통해 Claude의 창작물을 실시간으로 보고 편집하고 구축할 수 있는 동적 작업 공간이 생성되어 AI 생성 콘텐츠를 프로젝트 및 워크플로에 원활하게 통합할 수 있습니다. Artifacts 미리보기 기능은 Claude가 대화형 AI에서 협업 작업 환경으로 발전했음을 의미하며 곧 팀 협업을 지원하도록 확장될 예정입니다. 가까운 미래에 팀은 지식, 문서, 진행 중인 작업을 공유 공간에 안전하게 중앙집중화할 수 있게 되며, Claude는 필요에 따라 팀원 역할을 하게 됩니다. 마지막으로 Anthropic은 모델을 엄격하게 테스트하고 남용 가능성을 줄이기 위해 노력하고 있다고 말합니다. Anthropic 보안 팀은 CBRN(화학, 생물학, 방사선 및 핵) 위험, 사이버 보안 및 자율 기능 분야에서 Claude 3.5 Sonnet에 대한 일련의 평가를 수행했으며 최종적으로 Claude 3.5 Sonnet을 AI 보안 레벨 2로 분류했습니다. (ASL-2) 모델은 치명적인 부상의 위험이 없음을 나타냅니다. 또한 보안과 투명성에 대한 약속의 일환으로 Anthropic은 외부 전문가와 협력하여 이 최신 모델의 보안 메커니즘을 테스트하고 개선하고 있습니다. 공식 블로그 주소: https://www.anthropic.com/news/claude-3-5-sonnet위 내용은 GPT-4o를 물리쳐보세요! 새로운 왕 Claude 3.5 Sonnet이 출시되었습니다. 무료로 직접 이용 가능합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!