Mit der rasanten Entwicklung und Anwendung von Großmodellen wird die Bedeutung der Einbettung, die die zentrale Grundkomponente von Großmodellen darstellt, immer wichtiger. Das vor einem Monat von der Zhiyuan Company veröffentlichte, im Handel erhältliche Open-Source-Semantikvektormodell BGE (BAAI General Embedding) für Chinesisch und Englisch hat in der Community große Aufmerksamkeit erregt und wurde Hunderttausende Male auf der Hugging Face-Plattform heruntergeladen. Derzeit hat BGE die Version 1.5 in rasantem Tempo herausgebracht und mehrere Updates angekündigt. Darunter hat BGE zum ersten Mal 300 Millionen groß angelegte Trainingsdaten als Open Source bereitgestellt, um der Community Hilfe beim Training ähnlicher Modelle zu bieten und die Entwicklung der Technologie in diesem Bereich zu fördern
Die ersten semantischen Vektormodell-Trainingsdaten der Open-Source-Branche haben erreicht Millionen Chinesen und englische Daten
Die Exzellenz von BGE. Seine Fähigkeiten basieren größtenteils auf seinen umfangreichen, vielfältigen Trainingsdaten. Zuvor hatten Branchenkollegen selten ähnliche Datensätze veröffentlicht. In diesem Update stellt Zhiyuan der Community erstmals BGE-Trainingsdaten zur Verfügung und legt damit den Grundstein für die weitere Entwicklung dieser Art von Technologie.
Der dieses Mal veröffentlichte Datensatz MTP besteht aus insgesamt 300 Millionen chinesischen und englischen Textpaaren. Darunter befinden sich 100 Millionen Datensätze auf Chinesisch und 200 Millionen Datensätze auf Englisch. Zu den Datenquellen gehören Wudao Corpora, Pile, DuReader, Sentence Transformer und andere Korpora. Erhalten nach notwendiger Probenahme, Extraktion und Reinigung
Weitere Informationen finden Sie im Data Hub: https://data.baai.ac.cn
MTP ist der größte Open-Source-Datensatz für chinesisch-englische Textpaare Bis heute bietet es eine wichtige Grundlage für das Training chinesischer und englischer semantischer Vektormodelle.
Basierend auf Community-Feedback wurde BGE basierend auf seiner Version 1.0 weiter optimiert, um seine Leistung stabiler und herausragender zu machen. Der spezifische Upgrade-Inhalt lautet wie folgt:
Erwähnenswert ist, dass Zhiyuan und Hugging Face kürzlich einen technischen Bericht veröffentlicht haben, in dem vorgeschlagen wird, C-Pack zur Verbesserung des chinesischen universellen semantischen Vektormodells zu verwenden. „C-Pack: Packaged Resources To Advance General Chinese Embedding“ BGE hat seit seiner Veröffentlichung die Aufmerksamkeit einer großen Modellentwickler-Community auf sich gezogen. Derzeit wurde Hugging Face hunderttausende Male heruntergeladen und von bekannten Open-Source-Projekten wie LangChain, LangChain-Chachat, integriert und verwendet. llama_index usw.
Langchain-Beamte, LangChain-Mitbegründer und CEO Harrison Chase, Deep-Trading-Gründer Yam Peleg und andere Community-Influencer äußerten ihre Besorgnis über BGE.
Das Zhiyuan-Entwicklungssystem für große Modelltechnologien, FlagOpen BGE, hält an Open Source und Offenheit fest und fördert kollaborative Innovationen. Es hat einen neuen FlagEmbedding-Bereich hinzugefügt, der sich auf Embedding-Technologie und -Modelle konzentriert. FlagOpen setzt sich für den Aufbau einer Technologieinfrastruktur für künstliche Intelligenz im Zeitalter großer Modelle ein und wird auch in Zukunft umfassendere Full-Stack-Technologien für große Modelle für Wissenschaft und Industrie zugänglich machen
Das obige ist der detaillierte Inhalt vonZhiyuan hat 300 Millionen Trainingsdaten für semantische Vektormodelle geöffnet und das BGE-Modell wird weiterhin iterativ aktualisiert.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!