


Zhiyuan hat 300 Millionen Trainingsdaten für semantische Vektormodelle geöffnet und das BGE-Modell wird weiterhin iterativ aktualisiert.
Mit der rasanten Entwicklung und Anwendung von Großmodellen wird die Bedeutung der Einbettung, die die zentrale Grundkomponente von Großmodellen darstellt, immer wichtiger. Das vor einem Monat von der Zhiyuan Company veröffentlichte, im Handel erhältliche Open-Source-Semantikvektormodell BGE (BAAI General Embedding) für Chinesisch und Englisch hat in der Community große Aufmerksamkeit erregt und wurde Hunderttausende Male auf der Hugging Face-Plattform heruntergeladen. Derzeit hat BGE die Version 1.5 in rasantem Tempo herausgebracht und mehrere Updates angekündigt. Darunter hat BGE zum ersten Mal 300 Millionen groß angelegte Trainingsdaten als Open Source bereitgestellt, um der Community Hilfe beim Training ähnlicher Modelle zu bieten und die Entwicklung der Technologie in diesem Bereich zu fördern
- Link zum MTP-Datensatz: https://data.baai.ac.cn/details/BAAI-MTP
- BGE-Modell-Link: https://huggingface.co/BAAI
- BGE-Code-Repository: https://www.php .cn/link/8944871f1c9865a77a3d9c92cadf124d
300 Millionen chinesische und englische Vektormodell-Trainingsdaten geöffnet
Die ersten semantischen Vektormodell-Trainingsdaten der Open-Source-Branche haben erreicht Millionen Chinesen und englische Daten
Die Exzellenz von BGE. Seine Fähigkeiten basieren größtenteils auf seinen umfangreichen, vielfältigen Trainingsdaten. Zuvor hatten Branchenkollegen selten ähnliche Datensätze veröffentlicht. In diesem Update stellt Zhiyuan der Community erstmals BGE-Trainingsdaten zur Verfügung und legt damit den Grundstein für die weitere Entwicklung dieser Art von Technologie.
Der dieses Mal veröffentlichte Datensatz MTP besteht aus insgesamt 300 Millionen chinesischen und englischen Textpaaren. Darunter befinden sich 100 Millionen Datensätze auf Chinesisch und 200 Millionen Datensätze auf Englisch. Zu den Datenquellen gehören Wudao Corpora, Pile, DuReader, Sentence Transformer und andere Korpora. Erhalten nach notwendiger Probenahme, Extraktion und Reinigung
Weitere Informationen finden Sie im Data Hub: https://data.baai.ac.cn
MTP ist der größte Open-Source-Datensatz für chinesisch-englische Textpaare Bis heute bietet es eine wichtige Grundlage für das Training chinesischer und englischer semantischer Vektormodelle.
Als Reaktion auf die Entwickler-Community, BGE-Funktions-Upgrade
Basierend auf Community-Feedback wurde BGE basierend auf seiner Version 1.0 weiter optimiert, um seine Leistung stabiler und herausragender zu machen. Der spezifische Upgrade-Inhalt lautet wie folgt:
- Modellaktualisierung. BGE-*-zh-v1.5 lindert das Problem der Ähnlichkeitsverteilung, indem es die Trainingsdaten filtert, Daten von geringer Qualität löscht und den Temperaturkoeffizienten während des Trainings auf 0,02 erhöht, wodurch der Ähnlichkeitswert stabiler wird.
- Neues Modell hinzugefügt. Das Open-Source-Cross-Encoder-Modell BGE-reranker kann relevanten Text genauer finden und unterstützt die Zweisprachigkeit von Chinesisch und Englisch. Anders als das Vektormodell, das Vektoren ausgeben muss, gibt BGE-Reranker direkt Ähnlichkeiten zwischen Textpaaren aus und weist eine höhere Rangfolgegenauigkeit auf. Es kann verwendet werden, um Vektorabrufergebnisse neu zu ordnen und die Relevanz der Endergebnisse zu verbessern.
- Neue Funktionen. BGE1.1 fügt dem Feinabstimmungscode ein Schwer-zu-Negativ-Beispiel-Mining-Skript hinzu, das den Abrufeffekt effektiv verbessern kann Das Speichern wird auch automatisch in das Satztransformatorformat konvertiert, was das Laden des Modells erleichtert.
Erwähnenswert ist, dass Zhiyuan und Hugging Face kürzlich einen technischen Bericht veröffentlicht haben, in dem vorgeschlagen wird, C-Pack zur Verbesserung des chinesischen universellen semantischen Vektormodells zu verwenden. „C-Pack: Packaged Resources To Advance General Chinese Embedding“ BGE hat seit seiner Veröffentlichung die Aufmerksamkeit einer großen Modellentwickler-Community auf sich gezogen. Derzeit wurde Hugging Face hunderttausende Male heruntergeladen und von bekannten Open-Source-Projekten wie LangChain, LangChain-Chachat, integriert und verwendet. llama_index usw.
Langchain-Beamte, LangChain-Mitbegründer und CEO Harrison Chase, Deep-Trading-Gründer Yam Peleg und andere Community-Influencer äußerten ihre Besorgnis über BGE.
Das Zhiyuan-Entwicklungssystem für große Modelltechnologien, FlagOpen BGE, hält an Open Source und Offenheit fest und fördert kollaborative Innovationen. Es hat einen neuen FlagEmbedding-Bereich hinzugefügt, der sich auf Embedding-Technologie und -Modelle konzentriert. FlagOpen setzt sich für den Aufbau einer Technologieinfrastruktur für künstliche Intelligenz im Zeitalter großer Modelle ein und wird auch in Zukunft umfassendere Full-Stack-Technologien für große Modelle für Wissenschaft und Industrie zugänglich machen
Das obige ist der detaillierte Inhalt vonZhiyuan hat 300 Millionen Trainingsdaten für semantische Vektormodelle geöffnet und das BGE-Modell wird weiterhin iterativ aktualisiert.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Binance ist der Overlord des Global Digital Asset Trading -Ökosystems, und seine Merkmale umfassen: 1. Das durchschnittliche tägliche Handelsvolumen übersteigt 150 Milliarden US -Dollar, unterstützt 500 Handelspaare, die 98% der Mainstream -Währungen abdecken. 2. Die Innovationsmatrix deckt den Markt für Derivate, das Web3 -Layout und den Bildungssystem ab; 3. Die technischen Vorteile sind Millisekunden -Matching -Engines mit Spitzenvolumina von 1,4 Millionen Transaktionen pro Sekunde. 4. Compliance Progress hält 15 Länderlizenzen und legt konforme Einheiten in Europa und den Vereinigten Staaten ein.

Der Sprung in den Kryptowährungsmarkt hat bei den Anlegern Panik verursacht, und Dogecoin (DOGE) ist zu einem der am stärksten getroffenen Bereiche geworden. Der Preis fiel stark, und die Gesamtwertsperrung der dezentralen Finanzierung (DEFI) (TVL) verzeichnete ebenfalls einen signifikanten Rückgang. Die Verkaufswelle von "Black Monday" fegte den Kryptowährungsmarkt, und Dogecoin war der erste, der getroffen wurde. Die Defitvl fiel auf 2023 und der Währungspreis fiel im vergangenen Monat um 23,78%. Die Defitvl von Dotecoin fiel auf ein Tiefpunkt von 2,72 Millionen US -Dollar, hauptsächlich aufgrund eines Rückgangs des SOSO -Wertindex um 26,37%. Andere große Defi -Plattformen wie die langweilige DAO und Thorchain, TVL, fielen ebenfalls um 24,04% bzw. 20.

Börsen spielen eine wichtige Rolle auf dem heutigen Kryptowährungsmarkt. Sie sind nicht nur Plattformen, an denen Investoren handeln, sondern auch wichtige Quellen für Marktliquidität und Preisentdeckung. Der weltweit größte virtuelle Währungsbörsen gehören zu den Top Ten, und diese Börsen sind nicht nur im Handelsvolumen weit voraus, sondern haben auch ihre eigenen Vorteile in Bezug auf Benutzererfahrung, Sicherheit und innovative Dienste. Börsen, die über die Liste stehen, haben normalerweise eine große Benutzerbasis und einen umfangreichen Markteinfluss, und deren Handelsvolumen und Vermögenstypen sind häufig mit anderen Börsen schwer zu erreichen.

Die Plattformen, die im Jahr 2025 im Leveraged Trading, Security und Benutzererfahrung hervorragende Leistung haben, sind: 1. OKX, geeignet für Hochfrequenzhändler und bieten bis zu 100-fache Hebelwirkung; 2. Binance, geeignet für Mehrwährungshändler auf der ganzen Welt und bietet 125-mal hohe Hebelwirkung; 3. Gate.io, geeignet für professionelle Derivate Spieler, die 100 -fache Hebelwirkung bietet; 4. Bitget, geeignet für Anfänger und Sozialhändler, die bis zu 100 -fache Hebelwirkung bieten; 5. Kraken, geeignet für stetige Anleger, die fünfmal Hebelwirkung liefert; 6. Bybit, geeignet für Altcoin -Entdecker, die 20 -fache Hebelwirkung bietet; 7. Kucoin, geeignet für kostengünstige Händler, die 10-fache Hebelwirkung bietet; 8. Bitfinex, geeignet für das Seniorenspiel

Börsen, die Cross-Chain-Transaktionen unterstützen: 1. Binance, 2. Uniswap, 3. Sushiswap, 4. Kurvenfinanzierung, 5. Thorchain, 6. 1inch Exchange, 7. DLN-Handel, diese Plattformen unterstützen Multi-Chain-Asset-Transaktionen durch verschiedene Technologien.

Nach dem ETH -Upgrade sollten Anfänger die folgenden Strategien anwenden, um Verluste zu vermeiden: 1. Machen Sie ihre Hausaufgaben und verstehen Sie das Grundwissen und aktualisieren Sie Inhalte von ETH; 2. Kontrollpositionen, testen Sie die Gewässer in kleinen Mengen und diversifizieren Investitionen; 3. Machen Sie einen Handelsplan, klären Sie die Ziele und setzen Sie Stop -Loss -Punkte. 4. Profile rational und vermeiden emotionale Entscheidungen; 5. Wählen Sie eine formelle und zuverlässige Handelsplattform; 6. Betrachten Sie die langfristige Beteiligung, um die Auswirkungen kurzfristiger Schwankungen zu vermeiden.

Die Investitionsaussichten von Unternehmen für Krypto -Finanz- und AAAS -Unternehmen werden wie folgt analysiert: 1. Möglichkeiten der Kryptofinanzierung umfassen Marktgrößenwachstum, schrittweise klare Regulierung und Erweiterung von Anwendungsszenarien, aber die Marktvolatilität und die technischen Sicherheitsherausforderungen gegenüberstehen. 2. Die Chancen des AAAS -Geschäfts liegen in der Förderung technologischer Innovationen, des Datenwerts und der reichhaltigen Anwendungsszenarien. Zu den Herausforderungen zählen jedoch die technische Komplexität und die Marktakzeptanz.

Zu den Top -Börsen gehören: 1. Binance, das weltweit größte Handelsvolumen, unterstützt 600 Währungen und die Spot -Handhabungsgebühr beträgt 0,1%. 2. OKX, eine ausgewogene Plattform, unterstützt 708 Handelspaare, und die dauerhafte Vertragsabwicklungsgebühr beträgt 0,05%. 3. Gate.io deckt 2700 kleine Währungen ab, und die Gebühr für die Spot-Handhabung beträgt 0,1%-0,3%; 4. Coinbase, der US -Konformitäts -Benchmark, die Spot -Handhabungsgebühr beträgt 0,5%; 5. Kraken, die Top -Sicherheit und regelmäßige Reserveprüfung.
