O1's O1: une frénésie cadeau de 12 jours commence par leur modèle le plus puissant à ce jour
L'arrivée de décembre apporte un ralentissement mondial, les flocons de neige dans certaines parties du monde, mais Openai ne fait que commencer. Sam Altman and his team are launching a 12-day gift extravaganza, and the first present is a major one: OpenAI o1, their most advanced model to date. Pendant des mois, GPT-4 a régné en maître, mais O1 est là pour défier sa domination. Ce blog s'intègre O1 contre GPT-4O dans plusieurs tâches pour déterminer le modèle supérieur.
Table des matières
Openai O1: Améliorations clés
S'appuyant sur le modèle O1-Preview de septembre 2024, l'O1 d'OpenAI offre une précision et une vitesse améliorées pour les tâches complexes. Par rapport à son prédécesseur:
Accéder à O1
O1 est disponible via les abonnements Chatgpt Plus et ChatGpt Pro (pas le plan gratuit). Chatgpt Pro offre un accès O1 illimité, tandis que plus fournit un nombre limité d'interactions. Pour accéder:
O1 contre GPT-4O: comparaison tête à tête
While the o1-preview impressed, GPT-4o (launched May 2024) remained a top choice for its accuracy, speed, and versatility in handling text, images, and audio. Son score de référence MMLU de 88,7% a établi une barre élevée pour l'IA multimodale. O1 vise désormais à dépasser le GPT-4O, en particulier en mathématiques, en codage et en résolution de problèmes complexes. Cinq défis révéleront le vainqueur:
Défi 1: Conception de l'organigramme pour l'analyse des sentiments
Prompt: Design a flowchart and explain the tools needed for a sentiment analysis system that fetches stock news (News API), analyzes sentiment, and delivers a 140-character summary and sentiment to customers.
Résultats: O1 a produit un organigramme clair et sans erreur avec une explication détaillée et des suggestions d'outils supplémentaires. GPT-4O a fourni une description conceptuelle et un diagramme défectueux.
Verdict: O1 gagne.
Défi 2: Analyse scientifique d'image
Invite: Calculez la sortie de ce diagramme de circuit. (Image du diagramme de circuit fourni)
Résultats: O1 Composants correctement identifiés, lisez les valeurs du graphique, décrit le fonctionnement du circuit et les paramètres calculés. GPT-4O a identifié certains composants mais avait besoin de valeurs d'entrée supplémentaires.
Verdict: O1 gagne.
Défi 3: Analyse d'image mathématique
Invite: Déterminez la probabilité de victoire pour chaque équipe dans ce jeu. (Image du tableau de bord du cricket fourni)
Résultats: O1 a analysé avec précision l'image, identifié le format de jeu et calculé les probabilités de victoire avec des justifications. GPT-4O a partiellement compris le jeu mais n'a pas fourni de probabilités.
Verdict: O1 gagne.
Défi 4: Solution sudoku
Invite: résolvez ce puzzle Sudoku et fournissez la solution en tant qu'image. (Image du puzzle Sudoku fourni)
Résultats: Les deux modèles n'ont pas réussi à fournir la bonne solution.
Verdict: Tie (les deux échoué).
Défi 5: Génération d'images
Invite: Créez une image d'un chien courant près du bord de la mer.
Résultats: GPT-4O a généré l'image demandée; O1 manque actuellement de capacités de génération d'images.
Verdict: GPT-4O gagne.
Résumé des résultats: O1 contre GPT-4O
Défi | Résultat GPT-4O | Résultat de l'O1 | Verdict |
---|---|---|---|
Scénario | Erreurs conceptuelles, peu claires | Clear, détaillé, sans erreur | O1 |
Analyse d'image scientifique | Identification partielle des composants, incomplète | Analyse complète, calcul précis | O1 |
Analyse d'image mathématique | Compréhension partielle, aucune probabilité donnée | Analyse précise, probabilités calculées | O1 |
Solution sudoku | Incorrect | Incorrect | Cravate |
Génération d'images | Image correcte générée | Impossible de générer des images | GPT-4O |
Conclusion
O1 surpasse considérablement le GPT-4O dans de nombreuses régions, démontrant un raisonnement et une précision supérieurs. Sa vitesse et sa concision sont également des améliorations remarquables par rapport à la prévision de l'O1. Cependant, il n'est pas impeccable et peut nécessiter un raffinement itératif. O1 est un outil puissant pour les chercheurs, les scientifiques et les professionnels qui ont besoin de capacités avancées de résolution de problèmes.
Questions fréquemment posées
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!