Le moteur de recherche IA évolue encore ? !
Donnez un sujet à cette IA, et elle vous donnera une critique de l'article en quelques minutes, et elle fournira également des citations pour l'article lui-même.
Ou saisissez un nom scientifique, et l'IA peut rapidement générer un Wikipédia dédié à ce nom.
Cette IA s'appelle Galactica (abréviation : GAL). Il s'agit du dernier grand modèle de langage scientifique open source qui transforme l'IA en productivité scientifique.
Et elle réalise aussi la « grande unification » des disciplines, mathématiques, physique, informatique…cette IA peut être utilisée.
Dès que le modèle a été publié, il a rapidement suscité de vives discussions parmi les internautes. Actuellement, les tweets concernés comptent près de 150 000 vues, et le cumul des likes, retweets et citations a dépassé les 5 000.
L'ancien responsable technique de Facebook est également venu le soutenir.
Certains internautes en ont personnellement fait l'expérience, et la revue de littérature qu'ils ont rédigée « a l'air plutôt bonne », et ont même demandé :
Est-ce qu'il sera capable de générer de nouvelles idées dans la prochaine étape ?
En fait, rédiger des revues de littérature et produire Wikipédia ne sont qu'une partie des fonctions de GAL. En dehors de celles-ci, il peut également répondre à certaines questions professionnelles, rédiger des codes scientifiques, annoter des molécules et des protéines...
Jetons un coup d'œil. aux effets spécifiques. Voyons ~
En matière de productivité scientifique, elle est définitivement indissociable de la recherche d'articles. Non, GAL peut vous aider à résoudre ce problème.
Il couvre cinq disciplines scientifiques : l'apprentissage automatique, les mathématiques, l'informatique, la biologie et la physique.
Sélectionnez un sujet, puis entrez le sujet d'article que vous recherchez dans la case de gauche, et GAL à droite recommandera l'article le plus approprié à la lecture.
En plus de recommander des articles, GAL a également une fonction plus pratique : générer des notes de cours.
Par exemple, si vous souhaitez suivre un pré-cours sur la théorie fonctionnelle de la densité (DFT), mais que vous êtes trop paresseux pour rédiger une note de cours, vous pouvez simplement la GAL et le faire en quelques minutes (tête de chien manuelle).
GAL peut également être utilisé pour annoter des molécules et des protéines. Ce qui suit est le manuel d'utilisation de RDKit (qui peut générer des descripteurs moléculaires pour l'apprentissage automatique) généré par GAL.
GAL s'est également occupé de quelques détails !
Par exemple, si vous ne comprenez pas certaines formules et codes mathématiques complexes, vous pouvez laisser le soin à GAL, il peut les traduire directement en langue vernaculaire pour vous.
Non seulement cela, il peut également réaliser une conversion entre des formules mathématiques et des codes, ou une conversion entre différents types de codes.
Plus important encore, il dispose également de formules simplifiées et de fonctions de vérification des erreurs.
Comment faire ?
GAL peut réaliser des fonctions aussi complexes, nous devons donc mentionner son ensemble de données de formation.
Selon les informations officielles, GAL est formé sur un nouvel ensemble de données scientifiques de haute qualité appelé NatureBook, qui permet au modèle d'utiliser la terminologie scientifique, les formules mathématiques et chimiques et le code source.
Comprend plus de 48 millions d'articles, manuels et notes de cours, ainsi que des millions de composés et de protéines, des sites Web scientifiques, des encyclopédies et bien plus encore.
De plus, pour rechercher des articles et normaliser les citations, l'ensemble de données de GAL contient plus de 360 millions de citations contextuelles et plus de 50 millions de références uniques normalisées dans différentes sources.
Après avoir disposé d’un ensemble de données aussi énorme, nous serons confrontés à deux problèmes.
La première question est de savoir comment gérer ces ensembles de données de haute qualité. Pour y parvenir, GAL utilise deux étapes :
Toutes les données sont traitées dans un format de balisage commun pour briser les barrières entre les données provenant de diverses sources.
La pré-formation contient des ensembles de données pour des tâches spécifiques, ce qui garantit que vous pouvez être plus professionnel lorsque vous traitez des tâches spécifiques.
Une autre question est : Comment concevoir l’interaction de l’interface ?
Tout d’abord, comme mentionné ci-dessus, GAL peut prendre en charge différents types de tâches.
Par conséquent, diverses tâches sont classées lors de la conception de l'interaction d'interface. Différentes classifications prendront en charge différents types de données.
Étant donné que GAL dispose d'un ensemble de données scientifiques hautement gérées et de haute qualité, comment se compare-t-il aux autres modèles ?
Téléchargez les données directement !
En termes de raisonnement, les avantages de GAL se démarquent. En mathématiques MMLU (compréhension du langage multitâche à grande échelle), ses performances sont meilleures que celles de Chinchilla. En termes de mathématiques, ses performances sont également meilleures que celles du Palm 540B et du GPT-3. 175B.
Bien que GAL n'ait pas été formé sur des ensembles de données générales, ses performances sur BIG-bench sont toujours meilleures que BLOOM et OPT-175B.
Si vous ressentez des démangeaisons après l'avoir lu, arrêtez-le d'abord !
Portail : https://galactica.org/
Lien de référence : [1]https://twitter.com/paperswithcode/status/1592546933679476736[2]https://github.com/paperswithcode/galai[3 ] https://galactica.org/static/paper.pdf
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!