Heim Technologie-Peripheriegeräte KI Die UC Berkeley hat erfolgreich ein großes allgemeines visuelles Argumentationsmodell entwickelt, und drei hochrangige Wissenschaftler haben sich zusammengeschlossen, um an der Forschung teilzunehmen

Die UC Berkeley hat erfolgreich ein großes allgemeines visuelles Argumentationsmodell entwickelt, und drei hochrangige Wissenschaftler haben sich zusammengeschlossen, um an der Forschung teilzunehmen

Dec 04, 2023 pm 06:25 PM
理论 llava

Wie weit kommt man allein mit visuellen (Pixel-)Modellen? Ein neuer Artikel der UC Berkeley und der Johns Hopkins University untersucht dieses Problem und demonstriert das Potenzial von Large Vision Models (LVM) für eine Vielzahl von CV-Aufgaben.

In jüngster Zeit sind große Sprachmodelle (LLM) wie GPT und LLaMA weltweit populär geworden.

Der Aufbau großer Visionsmodelle (LVM) ist ein großes Problem. Was brauchen wir, um dieses Ziel zu erreichen? Die Ideen, die visuelle Sprachmodelle wie

LLaVA liefern, sind interessant und es lohnt sich, sie zu erkunden, aber gemäß den Gesetzen des Tierreichs wissen wir bereits, dass visuelle Fähigkeiten und Sprachfähigkeiten nicht miteinander zusammenhängen. Viele Experimente haben beispielsweise gezeigt, dass die visuelle Welt nichtmenschlicher Primaten der des Menschen sehr ähnlich ist, obwohl ihre Sprachsysteme „identisch“ mit denen des Menschen sind.

Ein aktueller Artikel diskutiert die Antwort auf eine andere Frage: Wie weit können wir allein mit Pixeln kommen? Das Papier wurde von Forschern der University of California, Berkeley und der Johns Hopkins University verfasst .com/lvm.html

Die UC Berkeley hat erfolgreich ein großes allgemeines visuelles Argumentationsmodell entwickelt, und drei hochrangige Wissenschaftler haben sich zusammengeschlossen, um an der Forschung teilzunehmen

Die Schlüsselmerkmale von LLM, die Forscher in LVM zu emulieren versuchen: 1) Je nach Umfang des Datenwachstums Um das Geschäft zu erweitern, müssen wir neue Marktchancen finden. Wir planen, unsere Produktpalette weiter auszubauen, um der wachsenden Nachfrage gerecht zu werden. Gleichzeitig werden wir Marketingstrategien stärken und die Markenbekanntheit steigern. Durch die aktive Teilnahme an Branchenmessen und Werbeaktivitäten werden wir uns bemühen, mehr Kundengruppen zu erschließen. Wir glauben, dass wir durch diese Bemühungen größere Erfolge erzielen und weiteres Wachstum erzielen können. 2) Aufgaben durch Eingabeaufforderungen flexibel spezifizieren (kontextuelles Lernen).
  • Sie spezifizierten drei Hauptkomponenten, nämlich Daten, Architektur und Verlustfunktion.

    In Bezug auf Daten möchten Forscher die große Vielfalt visueller Daten nutzen. Beginnend mit nur unkommentierten Rohbildern und Videos und dann Nutzung verschiedener kommentierter visueller Datenquellen, die in den letzten Jahrzehnten erstellt wurden (einschließlich semantischer Segmentierung, Tiefenrekonstruktion, Schlüsselpunkten, 3D-Objekten mit mehreren Ansichten usw.). Sie definierten ein gemeinsames Format – einen „visuellen Satz“ – um diese verschiedenen Anmerkungen darzustellen, ohne dass über Pixel hinausgehende Metakenntnisse erforderlich wären. Die Gesamtgröße des Trainingssatzes beträgt 1,64 Milliarden Bilder/Frame.
  • In Bezug auf die Architektur verwendeten die Forscher eine große Transformatorarchitektur (3 Milliarden Parameter), um anhand visueller Daten zu trainieren, die als Token-Sequenz dargestellt werden, und nutzten den erlernten Tokenizer, um jedes Bild einer 256 vektoriellen

    quantisierten

    Token-Zeichenfolge zuzuordnen.
In Bezug auf die Verlustfunktion ließen sich die Forscher von der Community der natürlichen Sprache inspirieren, das heißt, die maskierte Token-Modellierung ist der sequenzautoregressiven Vorhersagemethode „wichen“. Sobald Bilder, Videos und kommentierte Bilder alle als Sequenzen dargestellt werden können, kann das trainierte Modell den Kreuzentropieverlust bei der Vorhersage des nächsten Tokens minimieren.

Durch dieses äußerst einfache Design zeigte der Forscher die folgenden bemerkenswerten Verhaltensweisen:

Mit zunehmender Modellgröße und Datengröße wird das Modell automatisch als angemessen angezeigt. Um das Geschäft zu erweitern, müssen wir neue Marktchancen finden. Wir planen, unsere Produktpalette weiter auszubauen, um der wachsenden Nachfrage gerecht zu werden. Gleichzeitig werden wir Marketingstrategien stärken und die Markenbekanntheit steigern. Durch die aktive Teilnahme an Branchenmessen und Werbeaktivitäten werden wir uns bemühen, mehr Kundengruppen zu erschließen. Wir glauben, dass wir mit diesen Bemühungen größere Erfolge erzielen und ein kontinuierliches Wachstumsverhalten erzielen können

Viele verschiedene visuelle Aufgaben können jetzt durch die Gestaltung geeigneter Eingabeaufforderungen zum Testzeitpunkt gelöst werden. Auch wenn die Ergebnisse nicht so hoch sind wie bei benutzerdefinierten, speziell trainierten Modellen, ist die Tatsache, dass ein einzelnes Vision-Modell so viele Aufgaben lösen kann, sehr ermutigend.

Große Mengen unbeaufsichtigter Daten zu einer Vielzahl von Vision-Aufgaben haben erheblich geholfen
  • Bei der Verarbeitung von Out-of-Distribution-Daten und der Ausführung neuer Aufgaben gab es Anzeichen für allgemeine Fähigkeiten zum visuellen Denken, aber weitere Forschung ist noch erforderlich
  • Co-Autor des Papiers, John Hope Yutong Bai, a CS-Doktorand im vierten Jahr am Kings College und Gastdoktorand in Berkeley twitterten, um für ihre Arbeit zu werben.
  • Die ursprüngliche Bildquelle stammt vom Twitter-Konto: https://twitter.com/YutongBAI1002/status/1731512110247473608

Unter den Autoren des Papiers sind die letzten drei erfahrene Wissenschaftler auf diesem Gebiet Lebenslauf an der UC Berkeley. Professor Trevor Darrell ist Gründungs-Co-Direktor von BAIR, dem Berkeley Artificial Intelligence Research Laboratory, Professor Jitendra Malik gewann den IEEE Computer Pioneer Award 2019 und Professor Alexei A. Efros ist vor allem für seine Nearest-Neighbor-Forschung bekannt.

Die UC Berkeley hat erfolgreich ein großes allgemeines visuelles Argumentationsmodell entwickelt, und drei hochrangige Wissenschaftler haben sich zusammengeschlossen, um an der Forschung teilzunehmen

Von links nach rechts: Trevor Darrell, Jitendra Malik, Alexei A. Efros.

Einführung in die Methode

Der Artikel verwendet einen zweistufigen Ansatz: 1) Training eines großen visuellen Tokenizers (der an einem einzelnen Bild arbeitet), der in der Lage ist, jedes Bild in eine Reihe visueller Token umzuwandeln; 2) Training an; Visuelle Sätze Autoregressives Transformatormodell, jeder Satz wird als eine Reihe von Token dargestellt. Die Methode ist in Abbildung 2 dargestellt Tokenizer wie VQVAE oder VQGAN fassen Bildmerkmale in einem Raster aus diskreten Token zusammen. Dieser Artikel übernimmt die letztere Methode und verwendet das VQGAN-Modell zum Generieren semantischer Token.

Das LVM-Framework umfasst Codierungs- und Decodierungsmechanismen und verfügt auch über Quantisierungsschichten, wobei der Encoder und Decoder mit Faltungsschichten aufgebaut sind. Der Encoder ist mit mehreren Downsampling-Modulen ausgestattet, um die räumlichen Abmessungen der Eingabe zu verkleinern, während der Decoder mit einer Reihe gleichwertiger Upsampling-Module ausgestattet ist, um das Bild auf seine ursprüngliche Größe zurückzusetzen. Für ein bestimmtes Bild generiert der VQGAN-Tokenizer 256 diskrete Token. Die UC Berkeley hat erfolgreich ein großes allgemeines visuelles Argumentationsmodell entwickelt, und drei hochrangige Wissenschaftler haben sich zusammengeschlossen, um an der Forschung teilzunehmen

Die VQGAN-Architektur in diesem Artikel übernimmt die von Chang et al. vorgeschlagenen Implementierungsdetails und folgt deren Aufbau. Konkret beträgt der Downsampling-Faktor f=16 und die Codebuchgröße 8192. Das bedeutet, dass der VQGAN-Tokenizer für ein Bild der Größe 256×256 16×16=256 Token generiert und jeder Token 8192 verschiedene Werte annehmen kann. Darüber hinaus trainierte dieser Artikel den Tokenizer auf einer 1,5-B-Teilmenge des LAION 5B-Datensatzes -dimensionale Sequenzen und behandeln visuelle Sätze als einheitliche Sequenzen. Wichtig ist, dass keiner der visuellen Sätze speziell verarbeitet wurde – das heißt, es wurden keine speziellen Token verwendet, um eine bestimmte Aufgabe oder ein bestimmtes Format anzuzeigen.

Die Funktion visueller Sätze besteht darin, verschiedene visuelle Daten in eine einheitliche Bildsequenzstruktur zu formatieren

Implementierungsdetails. Nach der Tokenisierung jedes Bildes im visuellen Satz in 256 Token werden diese in diesem Artikel zu einer 1D-Token-Sequenz verkettet. In Bezug auf die visuelle Token-Sequenz ist das Transformer-Modell in diesem Artikel tatsächlich dasselbe wie das autoregressive Sprachmodell, sodass sie die Transformer-Architektur von LLaMA übernehmen. Dieser Inhalt verwendet eine Kontextlänge von 4096 Token, ähnlich dem Sprachmodell. Fügen Sie am Anfang jedes visuellen Satzes ein [BOS]-Token (Satzanfang) und am Ende ein [EOS]-Token (Satzende) hinzu und verwenden Sie während des Trainings Sequenzspleißen, um die Effizienz zu verbessern

Dieses Papier schneidet gut ab Für den gesamten UVDv1-Datensatz (4200 100 Millionen Token) wurden insgesamt 4 Modelle mit unterschiedlichen Parameterzahlen trainiert: 300 Millionen, 600 Millionen, 1 Milliarde und 3 Milliarden.

Die UC Berkeley hat erfolgreich ein großes allgemeines visuelles Argumentationsmodell entwickelt, und drei hochrangige Wissenschaftler haben sich zusammengeschlossen, um an der Forschung teilzunehmenDie experimentellen Ergebnisse müssen neu geschrieben werden

Die Studie führte Experimente zur Bewertung des Modells durch. Um das Geschäft zu erweitern, müssen wir neue Marktchancen finden. Wir planen, unsere Produktpalette weiter auszubauen, um der wachsenden Nachfrage gerecht zu werden. Gleichzeitig werden wir Marketingstrategien stärken und die Markenbekanntheit steigern. Durch die aktive Teilnahme an Branchenmessen und Werbeaktivitäten werden wir uns bemühen, mehr Kundengruppen zu erschließen. Wir glauben, dass wir durch diese Bemühungen größere Erfolge erzielen und unsere Fähigkeiten und die Fähigkeit, eine Vielzahl von Aufgaben zu verstehen und zu beantworten, kontinuierlich steigern können. Um unser Geschäft auszubauen, müssen wir neue Marktchancen finden. Wir planen, unsere Produktpalette weiter auszubauen, um der wachsenden Nachfrage gerecht zu werden. Gleichzeitig werden wir Marketingstrategien stärken und die Markenbekanntheit steigern. Durch die aktive Teilnahme an Branchenmessen und Werbeaktivitäten werden wir uns bemühen, mehr Kundengruppen zu erschließen. Wir glauben, dass wir durch diese Bemühungen größere Erfolge erzielen und nachhaltiges Wachstum erzielen können. Wie in Abbildung 3 dargestellt, untersuchte die Studie zunächst den Trainingsverlust von LVMs unterschiedlicher Größe Das größere Modell wies bei allen Aufgaben eine geringere Komplexität auf, was darauf hindeutet, dass die Gesamtleistung des Modells auf eine Reihe nachgelagerter Aufgaben übertragen werden kann.

Wie in Abbildung 5 dargestellt, hat jede Datenkomponente einen wichtigen Einfluss auf nachgelagerte Aufgaben. LVM profitiert nicht nur von größeren Datenmengen, sondern verbessert sich auch mit der Vielfalt des Datensatzes

Die UC Berkeley hat erfolgreich ein großes allgemeines visuelles Argumentationsmodell entwickelt, und drei hochrangige Wissenschaftler haben sich zusammengeschlossen, um an der Forschung teilzunehmen

Um den Inhalt umzuschreiben, ohne die ursprüngliche Bedeutung zu ändern, muss die Sprache in Chinesisch umgeschrieben werden. Der Originalsatz sollte erscheinen

Um die Fähigkeit von LVM zu testen, verschiedene Eingabeaufforderungen zu verstehen, wurde in dieser Studie zunächst ein Bewertungsexperiment mit LVM an einer Sequenzbegründungsaufgabe durchgeführt. Unter diesen ist die Eingabeaufforderung sehr einfach: Stellen Sie dem Modell eine Sequenz von 7 Bildern zur Verfügung und bitten Sie es, das nächste Bild vorherzusagen. Die experimentellen Ergebnisse müssen wie in Abbildung 6 unten dargestellt umgeschrieben werden:

Die UC Berkeley hat erfolgreich ein großes allgemeines visuelles Argumentationsmodell entwickelt, und drei hochrangige Wissenschaftler haben sich zusammengeschlossen, um an der Forschung teilzunehmen

Die Studie wird ebenfalls angezeigt Eine Liste von Elementen in der Kategorie. Behandeln Sie sie als Sequenz und lassen Sie LVM Bilder derselben Kategorie vorhersagen. Die experimentellen Ergebnisse müssen wie in Abbildung 15 unten dargestellt umgeschrieben werden:

Die UC Berkeley hat erfolgreich ein großes allgemeines visuelles Argumentationsmodell entwickelt, und drei hochrangige Wissenschaftler haben sich zusammengeschlossen, um an der Forschung teilzunehmen

Also, wie viel Kontext ist erforderlich, um genau zu sein Nachfolgende Frames vorhersagen?

In dieser Studie bewerten wir die Frame-Generierungsstörung unseres Modells, indem wir kontextbezogene Eingabeaufforderungen unterschiedlicher Länge (1 bis 15 Frames) geben. Die Ergebnisse zeigen, dass sich die Verwirrung mit zunehmender Anzahl der Bilder allmählich verbessert. Die spezifischen Daten sind in Abbildung 7 unten dargestellt. Die Verwirrung verbesserte sich deutlich von Frame 1 bis Frame 11 und stabilisierte sich dann (62,1 → 48,4). Leistung, indem komplexere Eingabeaufforderungsstrukturen wie Analogie-Eingabeaufforderungen bewertet werden.

Abbildung 8 unten zeigt die qualitativen Ergebnisse von Analogie-Eingabeaufforderungen für eine Reihe von Aufgaben: schneidet in fast allen Aufgaben besser ab als die vorherige Methode Die UC Berkeley hat erfolgreich ein großes allgemeines visuelles Argumentationsmodell entwickelt, und drei hochrangige Wissenschaftler haben sich zusammengeschlossen, um an der Forschung teilzunehmen

Synthetische Aufgaben. Abbildung 9 zeigt die Ergebnisse der Kombination mehrerer Aufgaben mit einer einzigen Eingabeaufforderung. Wir müssen neue Marktchancen finden. Wir planen, unsere Produktpalette weiter auszubauen, um der wachsenden Nachfrage gerecht zu werden. Gleichzeitig werden wir Marketingstrategien stärken und die Markenbekanntheit steigern. Durch die aktive Teilnahme an Branchenmessen und Werbeaktivitäten werden wir uns bemühen, mehr Kundengruppen zu erschließen. Wir glauben, dass wir durch diese Bemühungen größere Erfolge erzielen und weiteres Wachstum erzielen können. Abbildung 10 unten zeigt einige solcher Eingabeaufforderungen, die gut funktionieren.

Abbildung 11 unten zeigt einige Eingabeaufforderungen, die sich bei diesen Aufgaben möglicherweise nur schwer mit Worten beschreiben lassen.

Die UC Berkeley hat erfolgreich ein großes allgemeines visuelles Argumentationsmodell entwickelt, und drei hochrangige Wissenschaftler haben sich zusammengeschlossen, um an der Forschung teilzunehmen

Abbildung 13 zeigt vorläufige qualitative Ergebnisse zu einem typischen Problem des visuellen Denkens in einem nonverbalen menschlichen IQ-Test.

Die UC Berkeley hat erfolgreich ein großes allgemeines visuelles Argumentationsmodell entwickelt, und drei hochrangige Wissenschaftler haben sich zusammengeschlossen, um an der Forschung teilzunehmen

Lesen Sie den Originalartikel für weitere Details.

Das obige ist der detaillierte Inhalt vonDie UC Berkeley hat erfolgreich ein großes allgemeines visuelles Argumentationsmodell entwickelt, und drei hochrangige Wissenschaftler haben sich zusammengeschlossen, um an der Forschung teilzunehmen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Repo: Wie man Teamkollegen wiederbelebt
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

„Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. „Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. Jul 26, 2024 pm 05:38 PM

In der modernen Fertigung ist die genaue Fehlererkennung nicht nur der Schlüssel zur Sicherstellung der Produktqualität, sondern auch der Kern für die Verbesserung der Produktionseffizienz. Allerdings mangelt es vorhandenen Datensätzen zur Fehlererkennung häufig an der Genauigkeit und dem semantischen Reichtum, die für praktische Anwendungen erforderlich sind, was dazu führt, dass Modelle bestimmte Fehlerkategorien oder -orte nicht identifizieren können. Um dieses Problem zu lösen, hat ein Spitzenforschungsteam bestehend aus der Hong Kong University of Science and Technology Guangzhou und Simou Technology innovativ den „DefectSpectrum“-Datensatz entwickelt, der eine detaillierte und semantisch reichhaltige groß angelegte Annotation von Industriedefekten ermöglicht. Wie in Tabelle 1 gezeigt, bietet der Datensatz „DefectSpectrum“ im Vergleich zu anderen Industriedatensätzen die meisten Fehleranmerkungen (5438 Fehlerproben) und die detaillierteste Fehlerklassifizierung (125 Fehlerkategorien).

Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Jul 26, 2024 am 08:40 AM

Die offene LLM-Community ist eine Ära, in der hundert Blumen blühen und konkurrieren. Sie können Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 und viele andere sehen hervorragende Darsteller. Allerdings weisen offene Modelle im Vergleich zu den proprietären Großmodellen GPT-4-Turbo in vielen Bereichen noch erhebliche Lücken auf. Zusätzlich zu allgemeinen Modellen wurden einige offene Modelle entwickelt, die sich auf Schlüsselbereiche spezialisieren, wie etwa DeepSeek-Coder-V2 für Programmierung und Mathematik und InternVL für visuelle Sprachaufgaben.

Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Jul 26, 2024 pm 02:40 PM

Für KI ist die Mathematikolympiade kein Problem mehr. Am Donnerstag hat die künstliche Intelligenz von Google DeepMind eine Meisterleistung vollbracht: Sie nutzte KI, um meiner Meinung nach die eigentliche Frage der diesjährigen Internationalen Mathematikolympiade zu lösen, und war nur einen Schritt davon entfernt, die Goldmedaille zu gewinnen. Der IMO-Wettbewerb, der gerade letzte Woche zu Ende ging, hatte sechs Fragen zu Algebra, Kombinatorik, Geometrie und Zahlentheorie. Das von Google vorgeschlagene hybride KI-System beantwortete vier Fragen richtig und erzielte 28 Punkte und erreichte damit die Silbermedaillenstufe. Anfang dieses Monats hatte der UCLA-Professor Terence Tao gerade die KI-Mathematische Olympiade (AIMO Progress Award) mit einem Millionenpreis gefördert. Unerwarteterweise hatte sich das Niveau der KI-Problemlösung vor Juli auf dieses Niveau verbessert. Beantworten Sie die Fragen meiner Meinung nach gleichzeitig. Am schwierigsten ist es meiner Meinung nach, da sie die längste Geschichte, den größten Umfang und die negativsten Fragen haben

Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Jul 25, 2024 am 06:42 AM

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

Der Standpunkt der Natur: Die Erprobung künstlicher Intelligenz in der Medizin ist im Chaos. Was ist zu tun? Der Standpunkt der Natur: Die Erprobung künstlicher Intelligenz in der Medizin ist im Chaos. Was ist zu tun? Aug 22, 2024 pm 04:37 PM

Herausgeber | ScienceAI Basierend auf begrenzten klinischen Daten wurden Hunderte medizinischer Algorithmen genehmigt. Wissenschaftler diskutieren darüber, wer die Werkzeuge testen soll und wie dies am besten geschieht. Devin Singh wurde Zeuge, wie ein pädiatrischer Patient in der Notaufnahme einen Herzstillstand erlitt, während er lange auf eine Behandlung wartete, was ihn dazu veranlasste, den Einsatz von KI zu erforschen, um Wartezeiten zu verkürzen. Mithilfe von Triage-Daten aus den Notaufnahmen von SickKids erstellten Singh und Kollegen eine Reihe von KI-Modellen, um mögliche Diagnosen zu stellen und Tests zu empfehlen. Eine Studie zeigte, dass diese Modelle die Zahl der Arztbesuche um 22,3 % verkürzen können und die Verarbeitung der Ergebnisse pro Patient, der einen medizinischen Test benötigt, um fast drei Stunden beschleunigt. Der Erfolg von Algorithmen der künstlichen Intelligenz in der Forschung bestätigt dies jedoch nur

Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Aug 08, 2024 pm 09:22 PM

Herausgeber |KX Bis heute sind die durch die Kristallographie ermittelten Strukturdetails und Präzision, von einfachen Metallen bis hin zu großen Membranproteinen, mit keiner anderen Methode zu erreichen. Die größte Herausforderung, das sogenannte Phasenproblem, bleibt jedoch die Gewinnung von Phaseninformationen aus experimentell bestimmten Amplituden. Forscher der Universität Kopenhagen in Dänemark haben eine Deep-Learning-Methode namens PhAI entwickelt, um Kristallphasenprobleme zu lösen. Ein Deep-Learning-Neuronales Netzwerk, das mithilfe von Millionen künstlicher Kristallstrukturen und den entsprechenden synthetischen Beugungsdaten trainiert wird, kann genaue Elektronendichtekarten erstellen. Die Studie zeigt, dass diese Deep-Learning-basierte Ab-initio-Strukturlösungsmethode das Phasenproblem mit einer Auflösung von nur 2 Angström lösen kann, was nur 10 bis 20 % der bei atomarer Auflösung verfügbaren Daten im Vergleich zur herkömmlichen Ab-initio-Berechnung entspricht

SOTA Performance, eine multimodale KI-Methode zur Vorhersage der Protein-Ligand-Affinität in Xiamen, kombiniert erstmals molekulare Oberflächeninformationen SOTA Performance, eine multimodale KI-Methode zur Vorhersage der Protein-Ligand-Affinität in Xiamen, kombiniert erstmals molekulare Oberflächeninformationen Jul 17, 2024 pm 06:37 PM

Herausgeber |. KX Im Bereich der Arzneimittelforschung und -entwicklung ist die genaue und effektive Vorhersage der Bindungsaffinität von Proteinen und Liganden für das Arzneimittelscreening und die Arzneimitteloptimierung von entscheidender Bedeutung. Aktuelle Studien berücksichtigen jedoch nicht die wichtige Rolle molekularer Oberflächeninformationen bei Protein-Ligand-Wechselwirkungen. Auf dieser Grundlage schlugen Forscher der Universität Xiamen ein neuartiges Framework zur multimodalen Merkmalsextraktion (MFE) vor, das erstmals Informationen über Proteinoberfläche, 3D-Struktur und -Sequenz kombiniert und einen Kreuzaufmerksamkeitsmechanismus verwendet, um verschiedene Modalitäten zu vergleichen Ausrichtung. Experimentelle Ergebnisse zeigen, dass diese Methode bei der Vorhersage von Protein-Ligand-Bindungsaffinitäten Spitzenleistungen erbringt. Darüber hinaus belegen Ablationsstudien die Wirksamkeit und Notwendigkeit der Proteinoberflächeninformation und der multimodalen Merkmalsausrichtung innerhalb dieses Rahmens. Verwandte Forschungen beginnen mit „S

Identifizieren Sie automatisch die besten Moleküle und reduzieren Sie die Synthesekosten. Das MIT entwickelt ein Algorithmus-Framework für die Entscheidungsfindung im molekularen Design Identifizieren Sie automatisch die besten Moleküle und reduzieren Sie die Synthesekosten. Das MIT entwickelt ein Algorithmus-Framework für die Entscheidungsfindung im molekularen Design Jun 22, 2024 am 06:43 AM

Herausgeber |. Der Einsatz von Ziluo AI bei der Rationalisierung der Arzneimittelforschung nimmt explosionsartig zu. Durchsuchen Sie Milliarden von Kandidatenmolekülen nach solchen, die möglicherweise über Eigenschaften verfügen, die für die Entwicklung neuer Medikamente erforderlich sind. Es sind so viele Variablen zu berücksichtigen, von Materialpreisen bis hin zum Fehlerrisiko, dass es keine leichte Aufgabe ist, die Kosten für die Synthese der besten Kandidatenmoleküle abzuwägen, selbst wenn Wissenschaftler KI einsetzen. Hier entwickelten MIT-Forscher SPARROW, ein quantitatives Entscheidungsalgorithmus-Framework, um automatisch die besten molekularen Kandidaten zu identifizieren und so die Synthesekosten zu minimieren und gleichzeitig die Wahrscheinlichkeit zu maximieren, dass die Kandidaten die gewünschten Eigenschaften aufweisen. Der Algorithmus bestimmte auch die Materialien und experimentellen Schritte, die zur Synthese dieser Moleküle erforderlich sind. SPARROW berücksichtigt die Kosten für die gleichzeitige Synthese einer Charge von Molekülen, da häufig mehrere Kandidatenmoleküle verfügbar sind

See all articles