Heim Technologie-Peripheriegeräte KI Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Sep 20, 2023 pm 03:49 PM
大模型 理论

Große Sprachmodelle (LLMs), einschließlich Nur-Decoder-Strukturen (wie GPT- und LLAMA-Modellfamilie), Nur-Encoder-Strukturen (wie BERT) und Encoder-Decoder-Strukturen (wie T5) und deren Variantenmodelle Es hat bemerkenswerte Erfolge erzielt und wurde häufig in verschiedenen Sprachverarbeitungs- und multimodalen Aufgaben eingesetzt.

Trotz dieses Erfolgs sind die Kosten für die LLM-Ausbildung immer noch so hoch, dass sich nur wenige Unternehmen die Ausbildungskosten leisten können. Darüber hinaus deuten aktuelle Trends darauf hin, dass in Zukunft größere Trainingsdaten verwendet werden, was die Entwicklungskosten großer Modelle weiter erhöhen wird. Beim LLAMA-1-Training werden beispielsweise 1–1,4 TB-Tokens verwendet, während Llama 2 2 TB erreicht.

Eine weitere wichtige Herausforderung bei der Entwicklung von LLM ist die Evaluierung. Die gängigen Bewertungsmethoden sind in zwei Kategorien unterteilt: Wissensbewertung (MMLU und C-Eval) und NLP-Aufgabenbewertung. Diese Bewertungsmethoden spiegeln möglicherweise nicht wirklich die Fähigkeiten des Modells wider, da möglicherweise Datenlecks vorliegen, d. h. einige Teile des Bewertungsdatensatzes wurden möglicherweise während des Modelltrainingsprozesses verwendet. Darüber hinaus sind wissensorientierte Bewertungsmethoden möglicherweise nicht für die Beurteilung des Intelligenzniveaus geeignet. Eine fairere und objektivere Bewertungsmethode besteht darin, den Intelligenzquotienten (IQ) des LLM zu messen, was darin besteht, den LLM auf Bedingungen und Kontexte zu verallgemeinern, die in den Trainingsdaten nicht zu sehen sind.

Wachstumsstrategie. Um das Problem der Schulungskosten zu lösen, haben viele Institutionen wie das Beijing Zhiyuan Artificial Intelligence Research Institute und das Institute of Computing Technology der Chinesischen Akademie der Wissenschaften kürzlich einige Versuche unternommen – die Schulung eines LLM auf 100-Milliarden-Parameterebene durch eine Wachstumsstrategie für die Zum ersten Mal. Wachstum bedeutet, dass die Anzahl der Parameter während des Trainings nicht festgelegt ist, sondern sich von kleineren Modellen zu größeren Modellen ausdehnt.

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

  • Papier: https://arxiv.org/pdf/2309.03852.pdf

  • Der Inhalt, der neu geschrieben werden muss, ist: Modelllink: https://huggingface.co/CofeAI/FLM- 101B

Abbildung 1 zeigt drei typische Szenarien von Wachstumsstrategien. Da die FLOPs eines LLM ungefähr proportional zur Anzahl seiner Parameter sind, kann die Fläche zwischen der Änderungskurve der Modellparameter und der X-Achse den Rechenaufwand des Trainings darstellen.

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren


Abbildung 1 (a) zeigt die Standard-Trainingsstrategie ohne Modellwachstum; 1 (b) ist eine lineare Wachstumsstrategie, die 50 % der Kosten einsparen kann; 1 (c) ist eine moderate Wachstumsstrategie, die weniger spart als 50 % der Kosten; 1 (d) ist eine radikale Wachstumsstrategie, die mehr als 50 % der Kosten einsparen kann. Diese Analyse zeigt, dass eine aggressive Wachstumsstrategie verfolgt werden sollte, um so viel Rechenkosten wie möglich einzusparen.

Das Design des Wachstumsoperators dieser neuen Studie ist vom MSG im Artikel „2x schnelleres Sprachmodell-Pre-Training durch maskiertes Strukturwachstum“ inspiriert, bei dem es sich um einen vollständigen Satz von Operationen handelt, die alle vier Transformatoren abdecken Strukturwachstumsdimension. Noch wichtiger ist, dass MSG unter Beibehaltung der Funktionalität wachsen kann. Obwohl ein kleines Modell mit einem kleineren Parametersuchraum schnell lernen kann, kann sein Wissen daher von nachfolgenden größeren Modellen geerbt werden. Dies ermöglicht es Wachstumsstrategien, bei gleichem oder geringerem Rechenaufwand eine bessere Leistung zu erzielen.

Open-Source-Modell FLM-101B. Forscher des Zhiyuan Research Institute haben durch schrittweises Wachstum ein LLM-Modell mit 101 Milliarden Parametern trainiert und erklärten außerdem, dass sie das Modell als Open Source veröffentlichen würden. Die Architektur dieses Modells ist eine Weiterentwicklung von FreeLM. Deshalb nannten die Forscher es FLM-101B, wobei F für Free steht.

Das FreeLM-Framework hat zwei Vortrainingsziele, die sich an Sprachsignalen bzw. Lehrersignalen orientieren. In dieser neuen Forschung werden diese beiden Ziele in einem gemeinsamen Sprachmodellierungsparadigma vereint.

IQ-Bewertungsbenchmark. Zusätzlich zum kostengünstigen Trainingsparadigma leistete das Team einen weiteren Beitrag, indem es einen systematischen Satz von Benchmarks für die Bewertung des Intelligenzquotienten (IQ) des LLM vorschlug.

Frühere Untersuchungen haben gezeigt, dass der Perplexity Level (PPL)-Indikator zwar die Qualität des generierten Textes bis zu einem gewissen Grad widerspiegeln kann, aber nicht zuverlässig ist. Andererseits ist der Umfang der LLM-Trainingsdaten so groß, dass es für uns schwierig ist zu unterscheiden, ob das Modell nur Wissensdaten zitiert oder ob es tatsächlich menschenähnliche Argumentations-, Analyse- und Generalisierungsfähigkeiten erreicht, was der Fall ist Worauf diese Studie den IQ als Grundlage definiert. Einige häufig verwendete Bewertungsmetriken (MMLU für Englisch und C-Eval für Chinesisch) sind offensichtlich wissensorientiert und können den Intelligenzgrad des Modells nicht vollständig widerspiegeln.

Zur Überprüfung der geistigen Gesundheit führte das Team einen Test durch: Fünf Informatikforscher von weltbekannten Universitäten legten eine Prüfung mit den Chemietestfragen von C-Eval ab. Es stellte sich heraus, dass ihre Genauigkeit fast so gut war wie das zufällige Raten, da die meisten Freiwilligen vergessen hatten, was sie über Chemie gelernt hatten. Daher reichen Bewertungsmaßstäbe, die Wissen und Fachwissen betonen, nicht aus, um den IQ eines Modells zu messen.

Um den IQ von LLM umfassend zu messen, hat das Team einen IQ-Bewertungsbenchmark entwickelt, der vier Schlüsselaspekte des IQ berücksichtigt: Symbolzuordnung, Regelverständnis, Pattern-Mining und Widerstandsfähigkeit gegen Störungen.
  • Sprache ist symbolischer Natur. Es gab einige Studien, in denen Symbole anstelle von Kategoriebezeichnungen verwendet wurden, um den Intelligenzgrad von LLMs zu bewerten. In ähnlicher Weise verwendete das Team einen symbolischen Mapping-Ansatz, um die Fähigkeit des LLM zu testen, auf unsichtbare Kontexte zu verallgemeinern.

  • Eine wichtige Fähigkeit der menschlichen Intelligenz besteht darin, vorgegebene Regeln zu verstehen und entsprechende Maßnahmen zu ergreifen. Diese Testmethode wird häufig in verschiedenen Teststufen eingesetzt. Daher wird hier das Regelverständnis zum zweiten Test.

  • Umgeschriebener Inhalt: Pattern Mining ist ein wichtiger Teil der Intelligenz, der Induktion und Deduktion umfasst. In der Geschichte der wissenschaftlichen Entwicklung spielt diese Methode eine entscheidende Rolle. Darüber hinaus erfordern Testfragen in verschiedenen Wettbewerben häufig diese Beantwortungsfähigkeit. Aus diesen Gründen haben wir Pattern Mining als dritten Bewertungsindikator gewählt

  • Der letzte und sehr wichtige Indikator ist die Anti-Interferenz-Fähigkeit, die auch eine der Kernfähigkeiten der Intelligenz ist. Studien haben gezeigt, dass sowohl Sprache als auch Bilder leicht durch Lärm gestört werden. Vor diesem Hintergrund verwendete das Team die Störfestigkeit als abschließende Bewertungsgröße.

Natürlich sind diese vier Indikatoren keineswegs das letzte Wort bei der LLM-IQ-Bewertung, aber sie können als Ausgangspunkt für die Anregung nachfolgender Forschungsentwicklung dienen und werden voraussichtlich letztendlich zu einem umfassenden Rahmen für die LLM-IQ-Bewertung führen.

Zu den Hauptbeiträgen dieser Studie gehören:
  • Der Forscher gab an, dass es sich hierbei um einen LLM-Forschungsversuch handelt, mehr als 100 Milliarden Parameter mithilfe einer Wachstumsstrategie von Grund auf zu trainieren. Gleichzeitig ist dies auch das derzeit kostengünstigste 100-Milliarden-Parameter-Modell, das nur 100.000 US-Dollar kostet. Die Forscher glauben, dass diese Methode auch der breiteren wissenschaftlichen Forschungsgemeinschaft helfen kann.

  • Die Forscher führten außerdem experimentelle Vergleiche des neuen Modells mit zuvor leistungsstarken Modellen durch, einschließlich der Verwendung wissensorientierter Benchmarks und eines neu vorgeschlagenen Benchmarks zur systematischen IQ-Bewertung. Experimentelle Ergebnisse zeigen, dass das Modell FLM-101B wettbewerbsfähig und robust ist

  • Das Team wird Modellprüfpunkte, Code, zugehörige Tools usw. veröffentlichen, um die Forschung und Entwicklung von zweisprachigem LLM in Chinesisch und Englisch mit einer Skala von 100 Milliarden Parametern zu fördern.

FLM-101B-Designübersicht

Architektonisch nutzt FLM-101B FreeLM als Backbone-Netzwerk und integriert xPos. Was die Modellgröße betrifft, können Forscher dank der neuen Wachstumsstrategie Modelle in drei Größen erhalten: 16B, 51B und 101B in einem Training.

Was die Einstellungen vor dem Training betrifft, erbt FLM-101B die Trainingsstrategie von FreeLM.

In Bezug auf die Wachstumsstrategie kann das Team im Gegensatz zur üblichen Praxis, Modelle unterschiedlicher Größe unabhängig voneinander zu trainieren, nacheinander drei Modelle mit den Parametern 16B, 51B und 101B trainieren, wobei jedes Modell die größere Größe seines Vorgängers erbt 1. Kenntnisse über kleine Modelle.

Für die Trainingshardware wird ein Cluster aus 24 DGX-A800-GPU-Servern (8×80G) verwendet; die Trainingszeit von FLM-101B beträgt bitte weniger als 26 Tage siehe Tabelle unten 1 und 2.

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Trainingsstabilität von FLM-101B

Um die instabilen Probleme wie Verlustdivergenz und Gradientenexplosion zu lösen, schlugen die Forscher eine vielversprechende Lösung vor, die wie folgt kurz beschrieben wird.

Verlustvorhersage. Die neu vorgeschlagene Methode zur Erzielung von Trainingsstabilität lautet wie folgt:

Bestimmen Sie zunächst die Verteilung der Daten, bevor Sie mit dem FLM-16B-Training beginnen.

Als nächstes führen Sie eine Rastersuche für drei Hyperparameter durch, einschließlich Lernrate, Initialisierungsstandardabweichung und Softmax-Temperatur der Ausgabeschicht. Die Rastersuche wird durchgeführt, indem ein Ersatzmodell mit einer verborgenen Zustandsdimension (d. h. Modellbreite) von 256, einer Kopfzahl von 2 und einer Parameterzahl von 40 Millionen ausgeführt wird. Alle anderen strukturellen Hyperparameter und Trainingsdaten dieses Ersatzmodells sind die gleichen wie bei FLM-16B. Bei Verwendung der Datenparallelität auf 6 Knoten dauerte ein Rastersuchlauf 24,6 Stunden, was bei einer Konfiguration mit 24 Knoten ungefähr 6 Stunden entspricht.

Durch diese Rastersuche fanden die Forscher die optimalen Hyperparameter: Lernrate = 4e-4, Standardabweichung = 1,6e-2, Softmax-Temperatur = 2,0.

Dann migrieren sie diese Hyperparameter durch µP, um ein nahtloses Trainingserlebnis zu erreichen, das Instabilitätsprobleme vermeidet. Wenn MSG in Kombination verwendet wird, treten bei LM-51B und FLM-101B keine nachfolgenden Wachstumsdivergenzprobleme auf.

Abbildung 2 zeigt die komplette Trainingsverlustkurve.

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Gemischte Präzision über Bfloat16. Der Zweck der Verwendung gemischter Präzision besteht darin, Speicher- und Zeitkosten während der Laufzeit zu sparen. Hier haben sie sich für Bfloat16 entschieden.
Benchmark-Bewertung

Tabelle 3 vergleicht die Leistung des FLM-101B mit anderen leistungsstarken Benchmark-Modellen (Modelle der LLAMA-Serie und GLM-130B).

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Die Forscher sagten, dass diese Ergebnisse zeigen, dass FLM-101B keinen Vorteil in Bezug auf Faktenwissen hat und dass sich seine Leistung weiter verbessern wird, wenn mehr Trainingsdaten verwendet werden können.

Tabelle 4 zeigt die Ergebnisse von eFLM-16B im Vergleich zum Basismodell im Hinblick auf die Fachwissensbewertung.

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Es stellt sich heraus, dass die Ergebnisse von Datensätzen, die Fachwissen betonen, nicht das Intelligenzniveau von LLM widerspiegeln, da einige spezifische Trainingsdaten einen überwältigenden Beitrag leisten können.

Tabelle 5 zeigt die Leistung jeder Stufe des FLM-Modells.

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Wie erwartet wird sich die Leistung von FLM mit zunehmendem Modell verbessern. Der FLM-101B schnitt bei fast jeder Mission am besten ab. Dies bedeutet, dass das Modell jedes Mal, wenn es wächst, das Wissen aus der vorherigen Phase erbt.
IQ-Experiment

Um im Experiment eine systematischere Bewertung des IQ von LLM durchzuführen, nutzte das Team des Intelligent Source Research Institute vorhandene IQ-bezogene Datensätze und führte einige notwendige Änderungen durch Durch Modifikationen generierten sie auch einige neue synthetische Daten.

Konkret berücksichtigt die von ihnen vorgeschlagene IQ-Bewertung hauptsächlich vier Aspekte: Symbolzuordnung, Regelverständnis, Pattern Mining und Anti-Interferenz. Diese Aufgaben haben eines gemeinsam: Sie alle basieren auf Argumentation und Verallgemeinerung in neuen Kontexten.

Die folgenden Tabellen zeigen die Ergebnisse des IQ-Experiments:

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Mit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren

Aus diesen Tabellen geht hervor, dass FLM-101B bei diesen vier IQ-Bewertungsbenchmarks einen viel niedrigeren Rechenaufwand erzielt die mit GPT-3 vergleichbar und besser als GLM-130B sind.

Zusätzlich zum Einfluss von Trainingsdaten spekulieren die Forscher, dass dieser Vorteil darauf zurückzuführen sein könnte, dass das kleine Modell in der frühen Phase den kleineren Suchraum verfeinert, wenn das Modell größer und breiter wird, und die Generalisierungsfähigkeit zunimmt verbessert, Dieser Vorteil kommt weiterhin zum Tragen.

Das obige ist der detaillierte Inhalt vonMit 100.000 US-Dollar + 26 Tagen wurde ein kostengünstiges LLM mit 100 Milliarden Parametern geboren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Die große Model-App Tencent Yuanbao ist online! Hunyuan wird zu einem Allround-KI-Assistenten aufgerüstet, der überall hin mitgenommen werden kann Die große Model-App Tencent Yuanbao ist online! Hunyuan wird zu einem Allround-KI-Assistenten aufgerüstet, der überall hin mitgenommen werden kann Jun 09, 2024 pm 10:38 PM

Am 30. Mai kündigte Tencent ein umfassendes Upgrade seines Hunyuan-Modells an. Die auf dem Hunyuan-Modell basierende App „Tencent Yuanbao“ wurde offiziell eingeführt und kann in den App-Stores von Apple und Android heruntergeladen werden. Im Vergleich zur Hunyuan-Applet-Version in der vorherigen Testphase bietet Tencent Yuanbao Kernfunktionen wie KI-Suche, KI-Zusammenfassung und KI-Schreiben für Arbeitseffizienzszenarien. Yuanbaos Gameplay ist außerdem umfangreicher und bietet mehrere Funktionen für KI-Anwendungen , und neue Spielmethoden wie das Erstellen persönlicher Agenten werden hinzugefügt. „Tencent strebt nicht danach, der Erste zu sein, der große Modelle herstellt.“ Liu Yuhong, Vizepräsident von Tencent Cloud und Leiter des großen Modells von Tencent Hunyuan, sagte: „Im vergangenen Jahr haben wir die Fähigkeiten des großen Modells von Tencent Hunyuan weiter gefördert.“ . In die reichhaltige und umfangreiche polnische Technologie in Geschäftsszenarien eintauchen und gleichzeitig Einblicke in die tatsächlichen Bedürfnisse der Benutzer gewinnen

Das große Bytedance Beanbao-Modell wurde veröffentlicht. Der Full-Stack-KI-Dienst Volcano Engine unterstützt Unternehmen bei der intelligenten Transformation Das große Bytedance Beanbao-Modell wurde veröffentlicht. Der Full-Stack-KI-Dienst Volcano Engine unterstützt Unternehmen bei der intelligenten Transformation Jun 05, 2024 pm 07:59 PM

Tan Dai, Präsident von Volcano Engine, sagte, dass Unternehmen, die große Modelle gut implementieren wollen, vor drei zentralen Herausforderungen stehen: Modelleffekt, Inferenzkosten und Implementierungsschwierigkeiten: Sie müssen über eine gute Basisunterstützung für große Modelle verfügen, um komplexe Probleme zu lösen, und das müssen sie auch Dank der kostengünstigen Inferenzdienste können große Modelle weit verbreitet verwendet werden, und es werden mehr Tools, Plattformen und Anwendungen benötigt, um Unternehmen bei der Implementierung von Szenarien zu unterstützen. ——Tan Dai, Präsident von Huoshan Engine 01. Das große Sitzsackmodell feiert sein Debüt und wird häufig genutzt. Das Polieren des Modelleffekts ist die größte Herausforderung für die Implementierung von KI. Tan Dai wies darauf hin, dass ein gutes Modell nur durch ausgiebigen Gebrauch poliert werden kann. Derzeit verarbeitet das Doubao-Modell täglich 120 Milliarden Text-Tokens und generiert 30 Millionen Bilder. Um Unternehmen bei der Umsetzung groß angelegter Modellszenarien zu unterstützen, wird das von ByteDance unabhängig entwickelte Beanbao-Großmodell durch den Vulkan gestartet

„Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. „Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. Jul 26, 2024 pm 05:38 PM

In der modernen Fertigung ist die genaue Fehlererkennung nicht nur der Schlüssel zur Sicherstellung der Produktqualität, sondern auch der Kern für die Verbesserung der Produktionseffizienz. Allerdings mangelt es vorhandenen Datensätzen zur Fehlererkennung häufig an der Genauigkeit und dem semantischen Reichtum, die für praktische Anwendungen erforderlich sind, was dazu führt, dass Modelle bestimmte Fehlerkategorien oder -orte nicht identifizieren können. Um dieses Problem zu lösen, hat ein Spitzenforschungsteam bestehend aus der Hong Kong University of Science and Technology Guangzhou und Simou Technology innovativ den „DefectSpectrum“-Datensatz entwickelt, der eine detaillierte und semantisch reichhaltige groß angelegte Annotation von Industriedefekten ermöglicht. Wie in Tabelle 1 gezeigt, bietet der Datensatz „DefectSpectrum“ im Vergleich zu anderen Industriedatensätzen die meisten Fehleranmerkungen (5438 Fehlerproben) und die detaillierteste Fehlerklassifizierung (125 Fehlerkategorien).

Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Jul 26, 2024 am 08:40 AM

Die offene LLM-Community ist eine Ära, in der hundert Blumen blühen und konkurrieren. Sie können Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 und viele andere sehen hervorragende Darsteller. Allerdings weisen offene Modelle im Vergleich zu den proprietären Großmodellen GPT-4-Turbo in vielen Bereichen noch erhebliche Lücken auf. Zusätzlich zu allgemeinen Modellen wurden einige offene Modelle entwickelt, die sich auf Schlüsselbereiche spezialisieren, wie etwa DeepSeek-Coder-V2 für Programmierung und Mathematik und InternVL für visuelle Sprachaufgaben.

Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Aug 08, 2024 pm 09:22 PM

Herausgeber |KX Bis heute sind die durch die Kristallographie ermittelten Strukturdetails und Präzision, von einfachen Metallen bis hin zu großen Membranproteinen, mit keiner anderen Methode zu erreichen. Die größte Herausforderung, das sogenannte Phasenproblem, bleibt jedoch die Gewinnung von Phaseninformationen aus experimentell bestimmten Amplituden. Forscher der Universität Kopenhagen in Dänemark haben eine Deep-Learning-Methode namens PhAI entwickelt, um Kristallphasenprobleme zu lösen. Ein Deep-Learning-Neuronales Netzwerk, das mithilfe von Millionen künstlicher Kristallstrukturen und den entsprechenden synthetischen Beugungsdaten trainiert wird, kann genaue Elektronendichtekarten erstellen. Die Studie zeigt, dass diese Deep-Learning-basierte Ab-initio-Strukturlösungsmethode das Phasenproblem mit einer Auflösung von nur 2 Angström lösen kann, was nur 10 bis 20 % der bei atomarer Auflösung verfügbaren Daten im Vergleich zur herkömmlichen Ab-initio-Berechnung entspricht

Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Jul 26, 2024 pm 02:40 PM

Für KI ist die Mathematikolympiade kein Problem mehr. Am Donnerstag hat die künstliche Intelligenz von Google DeepMind eine Meisterleistung vollbracht: Sie nutzte KI, um meiner Meinung nach die eigentliche Frage der diesjährigen Internationalen Mathematikolympiade zu lösen, und war nur einen Schritt davon entfernt, die Goldmedaille zu gewinnen. Der IMO-Wettbewerb, der gerade letzte Woche zu Ende ging, hatte sechs Fragen zu Algebra, Kombinatorik, Geometrie und Zahlentheorie. Das von Google vorgeschlagene hybride KI-System beantwortete vier Fragen richtig und erzielte 28 Punkte und erreichte damit die Silbermedaillenstufe. Anfang dieses Monats hatte der UCLA-Professor Terence Tao gerade die KI-Mathematische Olympiade (AIMO Progress Award) mit einem Millionenpreis gefördert. Unerwarteterweise hatte sich das Niveau der KI-Problemlösung vor Juli auf dieses Niveau verbessert. Beantworten Sie die Fragen meiner Meinung nach gleichzeitig. Am schwierigsten ist es meiner Meinung nach, da sie die längste Geschichte, den größten Umfang und die negativsten Fragen haben

Fortgeschrittene Praxis des industriellen Wissensgraphen Fortgeschrittene Praxis des industriellen Wissensgraphen Jun 13, 2024 am 11:59 AM

1. Einführung in den Hintergrund Lassen Sie uns zunächst die Entwicklungsgeschichte von Yunwen Technology vorstellen. Yunwen Technology Company ... 2023 ist die Zeit, in der große Modelle vorherrschen. Viele Unternehmen glauben, dass die Bedeutung von Diagrammen nach großen Modellen stark abgenommen hat und die zuvor untersuchten voreingestellten Informationssysteme nicht mehr wichtig sind. Mit der Förderung von RAG und der Verbreitung von Data Governance haben wir jedoch festgestellt, dass eine effizientere Datenverwaltung und qualitativ hochwertige Daten wichtige Voraussetzungen für die Verbesserung der Wirksamkeit privatisierter Großmodelle sind. Deshalb beginnen immer mehr Unternehmen, darauf zu achten zu wissenskonstruktionsbezogenen Inhalten. Dies fördert auch den Aufbau und die Verarbeitung von Wissen auf einer höheren Ebene, wo es viele Techniken und Methoden gibt, die erforscht werden können. Es ist ersichtlich, dass das Aufkommen einer neuen Technologie nicht alle alten Technologien besiegt, sondern auch neue und alte Technologien integrieren kann.

Der Standpunkt der Natur: Die Erprobung künstlicher Intelligenz in der Medizin ist im Chaos. Was ist zu tun? Der Standpunkt der Natur: Die Erprobung künstlicher Intelligenz in der Medizin ist im Chaos. Was ist zu tun? Aug 22, 2024 pm 04:37 PM

Herausgeber | ScienceAI Basierend auf begrenzten klinischen Daten wurden Hunderte medizinischer Algorithmen genehmigt. Wissenschaftler diskutieren darüber, wer die Werkzeuge testen soll und wie dies am besten geschieht. Devin Singh wurde Zeuge, wie ein pädiatrischer Patient in der Notaufnahme einen Herzstillstand erlitt, während er lange auf eine Behandlung wartete, was ihn dazu veranlasste, den Einsatz von KI zu erforschen, um Wartezeiten zu verkürzen. Mithilfe von Triage-Daten aus den Notaufnahmen von SickKids erstellten Singh und Kollegen eine Reihe von KI-Modellen, um mögliche Diagnosen zu stellen und Tests zu empfehlen. Eine Studie zeigte, dass diese Modelle die Zahl der Arztbesuche um 22,3 % verkürzen können und die Verarbeitung der Ergebnisse pro Patient, der einen medizinischen Test benötigt, um fast drei Stunden beschleunigt. Der Erfolg von Algorithmen der künstlichen Intelligenz in der Forschung bestätigt dies jedoch nur

See all articles