Avec le développement et l'application rapides des modèles à grande échelle, l'importance de l'intégration, qui est le composant de base des modèles à grande échelle, est devenue de plus en plus importante. Le modèle vectoriel sémantique chinois et anglais open source BGE (BAAI General Embedding), publié il y a un mois par la société Zhiyuan, a attiré l'attention de la communauté et a été téléchargé des centaines de milliers de fois sur la plateforme Hugging Face. Actuellement, BGE a lancé rapidement et de manière itérative la version 1.5 et annoncé plusieurs mises à jour. Parmi eux, BGE a pour la première fois ouvert 300 millions de données de formation à grande échelle, fournissant à la communauté une aide pour former des modèles similaires et promouvant le développement de la technologie dans ce domaine
L'excellence de BGE Ses capacités proviennent en grande partie de ses données de formation diversifiées et à grande échelle. Auparavant, les pairs du secteur avaient rarement publié des ensembles de données similaires. Dans cette mise à jour, Zhiyuan ouvre pour la première fois les données de formation BGE à la communauté, jetant ainsi les bases du développement ultérieur de ce type de technologie.
L'ensemble de données MTP publié cette fois comprend un total de 300 millions de paires de textes liées au chinois et à l'anglais. Parmi eux, il y a 100 millions de documents en chinois et 200 millions de documents en anglais. Les sources de données incluent Wudao Corpora, Pile, DuReader, Sentence Transformer et d'autres corpus. Obtenu après échantillonnage, extraction et nettoyage nécessaires
Pour plus de détails, veuillez vous référer au Data Hub : https://data.baai.ac.cn
MTP est le plus grand ensemble de données open source sur les paires de textes chinois-anglais à ce jour, fournissant une base importante pour la formation de modèles vectoriels sémantiques chinois et anglais.
En réponse à la communauté des développeurs, mise à niveau de la fonction BGE
Mise à jour du modèle. BGE-*-zh-v1.5 atténue le problème de distribution de similarité en filtrant les données d'entraînement, en supprimant les données de mauvaise qualité et en augmentant le coefficient de température pendant l'entraînement à 0,02, ce qui rend la valeur de similarité plus stable.
"C-Pack : ressources packagées pour faire progresser l'intégration du chinois général"
Lien : https://arxiv.org/pdf/2309.07597.pdf
Gagner une grande popularité dans la communauté des développeurs
Les responsables de Langchain, le co-fondateur et PDG de LangChain, Harrison Chase, le fondateur de Deep trading, Yam Peleg, et d'autres influenceurs de la communauté ont exprimé leur inquiétude à propos de BGE.
Adhérant à l'open source et à l'ouverture, promouvant l'innovation collaborative, le système de développement technologique de grands modèles de Zhiyuan, FlagOpen BGE, a ajouté une nouvelle section FlagEmbedding, axée sur la technologie et les modèles d'intégration. BGE est l'un des projets open source de haut niveau. FlagOpen s'engage à construire une infrastructure technologique d'intelligence artificielle à l'ère des grands modèles et continuera à ouvrir des technologies full-stack de grands modèles plus complètes au monde universitaire et à l'industrie à l'avenir
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!