Zhiyuan hat 300 Millionen Trainingsdaten für semantische Vektormodelle geöffnet und das BGE-Modell wird weiterhin iterativ aktualisiert.-KI-php.cn

Inhaltsverzeichnis

300 Millionen chinesische und englische Vektormodell-Trainingsdaten geöffnet

Als Reaktion auf die Entwickler-Community, BGE-Funktions-Upgrade

Heim

Zhiyuan hat 300 Millionen Trainingsdaten für semantische Vektormodelle geöffnet und das BGE-Modell wird weiterhin iterativ aktualisiert.

王林

Sep 21, 2023 pm 09:33 PM

ai 训练

Mit der rasanten Entwicklung und Anwendung von Großmodellen wird die Bedeutung der Einbettung, die die zentrale Grundkomponente von Großmodellen darstellt, immer wichtiger. Das vor einem Monat von der Zhiyuan Company veröffentlichte, im Handel erhältliche Open-Source-Semantikvektormodell BGE (BAAI General Embedding) für Chinesisch und Englisch hat in der Community große Aufmerksamkeit erregt und wurde Hunderttausende Male auf der Hugging Face-Plattform heruntergeladen. Derzeit hat BGE die Version 1.5 in rasantem Tempo herausgebracht und mehrere Updates angekündigt. Darunter hat BGE zum ersten Mal 300 Millionen groß angelegte Trainingsdaten als Open Source bereitgestellt, um der Community Hilfe beim Training ähnlicher Modelle zu bieten und die Entwicklung der Technologie in diesem Bereich zu fördern

Link zum MTP-Datensatz: https://data.baai.ac.cn/details/BAAI-MTP
BGE-Modell-Link: https://huggingface.co/BAAI
BGE-Code-Repository: https://www.php .cn/link/8944871f1c9865a77a3d9c92cadf124d

300 Millionen chinesische und englische Vektormodell-Trainingsdaten geöffnet

Die ersten semantischen Vektormodell-Trainingsdaten der Open-Source-Branche haben erreicht Millionen Chinesen und englische Daten

Die Exzellenz von BGE. Seine Fähigkeiten basieren größtenteils auf seinen umfangreichen, vielfältigen Trainingsdaten. Zuvor hatten Branchenkollegen selten ähnliche Datensätze veröffentlicht. In diesem Update stellt Zhiyuan der Community erstmals BGE-Trainingsdaten zur Verfügung und legt damit den Grundstein für die weitere Entwicklung dieser Art von Technologie.

Der dieses Mal veröffentlichte Datensatz MTP besteht aus insgesamt 300 Millionen chinesischen und englischen Textpaaren. Darunter befinden sich 100 Millionen Datensätze auf Chinesisch und 200 Millionen Datensätze auf Englisch. Zu den Datenquellen gehören Wudao Corpora, Pile, DuReader, Sentence Transformer und andere Korpora. Erhalten nach notwendiger Probenahme, Extraktion und Reinigung

Weitere Informationen finden Sie im Data Hub: https://data.baai.ac.cn

MTP ist der größte Open-Source-Datensatz für chinesisch-englische Textpaare Bis heute bietet es eine wichtige Grundlage für das Training chinesischer und englischer semantischer Vektormodelle.

Als Reaktion auf die Entwickler-Community, BGE-Funktions-Upgrade

Basierend auf Community-Feedback wurde BGE basierend auf seiner Version 1.0 weiter optimiert, um seine Leistung stabiler und herausragender zu machen. Der spezifische Upgrade-Inhalt lautet wie folgt:

Modellaktualisierung. BGE-*-zh-v1.5 lindert das Problem der Ähnlichkeitsverteilung, indem es die Trainingsdaten filtert, Daten von geringer Qualität löscht und den Temperaturkoeffizienten während des Trainings auf 0,02 erhöht, wodurch der Ähnlichkeitswert stabiler wird.
Neues Modell hinzugefügt. Das Open-Source-Cross-Encoder-Modell BGE-reranker kann relevanten Text genauer finden und unterstützt die Zweisprachigkeit von Chinesisch und Englisch. Anders als das Vektormodell, das Vektoren ausgeben muss, gibt BGE-Reranker direkt Ähnlichkeiten zwischen Textpaaren aus und weist eine höhere Rangfolgegenauigkeit auf. Es kann verwendet werden, um Vektorabrufergebnisse neu zu ordnen und die Relevanz der Endergebnisse zu verbessern.
Neue Funktionen. BGE1.1 fügt dem Feinabstimmungscode ein Schwer-zu-Negativ-Beispiel-Mining-Skript hinzu, das den Abrufeffekt effektiv verbessern kann Das Speichern wird auch automatisch in das Satztransformatorformat konvertiert, was das Laden des Modells erleichtert.

Erwähnenswert ist, dass Zhiyuan und Hugging Face kürzlich einen technischen Bericht veröffentlicht haben, in dem vorgeschlagen wird, C-Pack zur Verbesserung des chinesischen universellen semantischen Vektormodells zu verwenden. „C-Pack: Packaged Resources To Advance General Chinese Embedding“ BGE hat seit seiner Veröffentlichung die Aufmerksamkeit einer großen Modellentwickler-Community auf sich gezogen. Derzeit wurde Hugging Face hunderttausende Male heruntergeladen und von bekannten Open-Source-Projekten wie LangChain, LangChain-Chachat, integriert und verwendet. llama_index usw.

Langchain-Beamte, LangChain-Mitbegründer und CEO Harrison Chase, Deep-Trading-Gründer Yam Peleg und andere Community-Influencer äußerten ihre Besorgnis über BGE.

Das Zhiyuan-Entwicklungssystem für große Modelltechnologien, FlagOpen BGE, hält an Open Source und Offenheit fest und fördert kollaborative Innovationen. Es hat einen neuen FlagEmbedding-Bereich hinzugefügt, der sich auf Embedding-Technologie und -Modelle konzentriert. FlagOpen setzt sich für den Aufbau einer Technologieinfrastruktur für künstliche Intelligenz im Zeitalter großer Modelle ein und wird auch in Zukunft umfassendere Full-Stack-Technologien für große Modelle für Wissenschaft und Industrie zugänglich machen

Das obige ist der detaillierte Inhalt vonZhiyuan hat 300 Millionen Trainingsdaten für semantische Vektormodelle geöffnet und das BGE-Modell wird weiterhin iterativ aktualisiert.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Assassins Creed Shadows - So finden Sie den Schmied und entsperren Sie die Waffen- und Rüstungsanpassung

1 Monate vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

3 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7647

CakePHP-Tutorial

1392

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT Mini Kreuzworträtsel Antworten

110

Related knowledge

Web3 Trading Platform Ranking_Web3 Globale Top Ten Summary Top Ten Summary Apr 21, 2025 am 10:45 AM

Binance ist der Overlord des Global Digital Asset Trading -Ökosystems, und seine Merkmale umfassen: 1. Das durchschnittliche tägliche Handelsvolumen übersteigt 150 Milliarden US -Dollar, unterstützt 500 Handelspaare, die 98% der Mainstream -Währungen abdecken. 2. Die Innovationsmatrix deckt den Markt für Derivate, das Web3 -Layout und den Bildungssystem ab; 3. Die technischen Vorteile sind Millisekunden -Matching -Engines mit Spitzenvolumina von 1,4 Millionen Transaktionen pro Sekunde. 4. Compliance Progress hält 15 Länderlizenzen und legt konforme Einheiten in Europa und den Vereinigten Staaten ein.

'Black Monday Sell' ist ein schwieriger Tag für die Kryptowährungsbranche Apr 21, 2025 pm 02:48 PM

Der Sprung in den Kryptowährungsmarkt hat bei den Anlegern Panik verursacht, und Dogecoin (DOGE) ist zu einem der am stärksten getroffenen Bereiche geworden. Der Preis fiel stark, und die Gesamtwertsperrung der dezentralen Finanzierung (DEFI) (TVL) verzeichnete ebenfalls einen signifikanten Rückgang. Die Verkaufswelle von "Black Monday" fegte den Kryptowährungsmarkt, und Dogecoin war der erste, der getroffen wurde. Die Defitvl fiel auf 2023 und der Währungspreis fiel im vergangenen Monat um 23,78%. Die Defitvl von Dotecoin fiel auf ein Tiefpunkt von 2,72 Millionen US -Dollar, hauptsächlich aufgrund eines Rückgangs des SOSO -Wertindex um 26,37%. Andere große Defi -Plattformen wie die langweilige DAO und Thorchain, TVL, fielen ebenfalls um 24,04% bzw. 20.

Top 10 Cryptocurrency Exchange -Plattformen Die weltweit größte Liste der digitalen Währung Apr 21, 2025 pm 07:15 PM

Börsen spielen eine wichtige Rolle auf dem heutigen Kryptowährungsmarkt. Sie sind nicht nur Plattformen, an denen Investoren handeln, sondern auch wichtige Quellen für Marktliquidität und Preisentdeckung. Der weltweit größte virtuelle Währungsbörsen gehören zu den Top Ten, und diese Börsen sind nicht nur im Handelsvolumen weit voraus, sondern haben auch ihre eigenen Vorteile in Bezug auf Benutzererfahrung, Sicherheit und innovative Dienste. Börsen, die über die Liste stehen, haben normalerweise eine große Benutzerbasis und einen umfangreichen Markteinfluss, und deren Handelsvolumen und Vermögenstypen sind häufig mit anderen Börsen schwer zu erreichen.

Rangliste der Hebelbörsen im Währungskreis Die neuesten Empfehlungen der zehn meistgezogenen Börsen im Währungskreis Apr 21, 2025 pm 11:24 PM

Die Plattformen, die im Jahr 2025 im Leveraged Trading, Security und Benutzererfahrung hervorragende Leistung haben, sind: 1. OKX, geeignet für Hochfrequenzhändler und bieten bis zu 100-fache Hebelwirkung; 2. Binance, geeignet für Mehrwährungshändler auf der ganzen Welt und bietet 125-mal hohe Hebelwirkung; 3. Gate.io, geeignet für professionelle Derivate Spieler, die 100 -fache Hebelwirkung bietet; 4. Bitget, geeignet für Anfänger und Sozialhändler, die bis zu 100 -fache Hebelwirkung bieten; 5. Kraken, geeignet für stetige Anleger, die fünfmal Hebelwirkung liefert; 6. Bybit, geeignet für Altcoin -Entdecker, die 20 -fache Hebelwirkung bietet; 7. Kucoin, geeignet für kostengünstige Händler, die 10-fache Hebelwirkung bietet; 8. Bitfinex, geeignet für das Seniorenspiel

Was bedeutet Cross-Chain-Transaktion? Was sind die Cross-Chain-Transaktionen? Apr 21, 2025 pm 11:39 PM

Börsen, die Cross-Chain-Transaktionen unterstützen: 1. Binance, 2. Uniswap, 3. Sushiswap, 4. Kurvenfinanzierung, 5. Thorchain, 6. 1inch Exchange, 7. DLN-Handel, diese Plattformen unterstützen Multi-Chain-Asset-Transaktionen durch verschiedene Technologien.

Wie man Verluste nach dem ETH -Upgrade vermeidet Apr 21, 2025 am 10:03 AM

Nach dem ETH -Upgrade sollten Anfänger die folgenden Strategien anwenden, um Verluste zu vermeiden: 1. Machen Sie ihre Hausaufgaben und verstehen Sie das Grundwissen und aktualisieren Sie Inhalte von ETH; 2. Kontrollpositionen, testen Sie die Gewässer in kleinen Mengen und diversifizieren Investitionen; 3. Machen Sie einen Handelsplan, klären Sie die Ziele und setzen Sie Stop -Loss -Punkte. 4. Profile rational und vermeiden emotionale Entscheidungen; 5. Wählen Sie eine formelle und zuverlässige Handelsplattform; 6. Betrachten Sie die langfristige Beteiligung, um die Auswirkungen kurzfristiger Schwankungen zu vermeiden.

Machen Sie mit dem Tempo von Coinjie.com Schritt: Was ist die Investitionsaussicht auf Krypto -Finanz- und AAAS -Geschäft? Apr 21, 2025 am 10:42 AM

Die Investitionsaussichten von Unternehmen für Krypto -Finanz- und AAAS -Unternehmen werden wie folgt analysiert: 1. Möglichkeiten der Kryptofinanzierung umfassen Marktgrößenwachstum, schrittweise klare Regulierung und Erweiterung von Anwendungsszenarien, aber die Marktvolatilität und die technischen Sicherheitsherausforderungen gegenüberstehen. 2. Die Chancen des AAAS -Geschäfts liegen in der Förderung technologischer Innovationen, des Datenwerts und der reichhaltigen Anwendungsszenarien. Zu den Herausforderungen zählen jedoch die technische Komplexität und die Marktakzeptanz.

Was sind die zehn besten Plattformen im Währungsaustauschkreis? Apr 21, 2025 pm 12:21 PM

Zu den Top -Börsen gehören: 1. Binance, das weltweit größte Handelsvolumen, unterstützt 600 Währungen und die Spot -Handhabungsgebühr beträgt 0,1%. 2. OKX, eine ausgewogene Plattform, unterstützt 708 Handelspaare, und die dauerhafte Vertragsabwicklungsgebühr beträgt 0,05%. 3. Gate.io deckt 2700 kleine Währungen ab, und die Gebühr für die Spot-Handhabung beträgt 0,1%-0,3%; 4. Coinbase, der US -Konformitäts -Benchmark, die Spot -Handhabungsgebühr beträgt 0,5%; 5. Kraken, die Top -Sicherheit und regelmäßige Reserveprüfung.

See all articles