Heim

Das Team der Fudan-Universität veröffentlicht einen persönlichen Assistenten für chinesische Medizin und Gesundheit und stellt gleichzeitig 470.000 hochwertige Datensätze als Open Source zur Verfügung

Das Team der Fudan-Universität veröffentlicht einen persönlichen Assistenten für chinesische Medizin und Gesundheit und stellt gleichzeitig 470.000 hochwertige Datensätze als Open Source zur Verfügung

PHPz

Sep 05, 2023 pm 12:01 PM

理论 Medizinisches Modell Fudan-Universität

Mit dem Aufkommen der Telemedizin entscheiden sich Patienten zunehmend für Online-Konsultationen und Beratungen, um bequeme und effiziente medizinische Unterstützung zu erhalten. Kürzlich haben große Sprachmodelle (LLM) leistungsstarke Fähigkeiten zur Interaktion in natürlicher Sprache gezeigt und Hoffnung für Gesundheits- und medizinische Assistenten gemacht, die in das Leben der Menschen Einzug halten verfügen über umfassende medizinische Kenntnisse und die Fähigkeit, die Absichten des Patienten durch mehrere Dialogrunden zu verstehen und professionelle und detaillierte Antworten zu geben. Bei medizinischen und gesundheitlichen Konsultationen vermeiden es Modelle mit allgemeiner Sprache aufgrund mangelnder medizinischer Kenntnisse häufig, Fragen zu beantworten, die nicht gestellt werden. Gleichzeitig neigen sie dazu, die Konsultation in der aktuellen Fragerunde abzuschließen, und verfügen nicht über die zufriedenstellende Fähigkeit, dies zu tun Beantworten Sie mehrere Fragenrunden. Darüber hinaus sind qualitativ hochwertige chinesische medizinische Datensätze derzeit sehr selten, was eine Herausforderung für das Training leistungsstarker Sprachmodelle im medizinischen Bereich darstellt.

Das Data Intelligence and Social Computing Laboratory (FudanDISC) der Fudan University hat einen chinesischen persönlichen Assistenten für Medizin und Gesundheit veröffentlicht – DISC-MedLLM. Bei der medizinischen und gesundheitlichen Beratungsbewertung von einrundigen Fragen und Antworten und mehrrundigen Dialogen zeigt die Leistung des Modells offensichtliche Vorteile im Vergleich zu bestehenden großen medizinischen Dialogmodellen. Das Forschungsteam veröffentlichte außerdem einen hochwertigen Datensatz zur überwachten Feinabstimmung (SFT) – DISC-Med-SFT mit 470.000 Personen. Die Modellparameter und technischen Berichte sind ebenfalls Open Source.

Homepage-Adresse: https://med.fudan-disc.com

Github-Adresse: https://github.com/FudanDISC/DISC-MedLLM

Abbildung 1: Dialogbeispiel

Wenn sich Patienten unwohl fühlen, können sie nachfragen Das Modell beschreibt Ihre Symptome und gibt mögliche Ursachen, empfohlene Behandlungspläne usw. als Referenz an. Wenn Informationen fehlen, werden proaktiv detaillierte Beschreibungen der Symptome angefordert. Das Team der Fudan-Universität veröffentlicht einen persönlichen Assistenten für chinesische Medizin und Gesundheit und stellt gleichzeitig 470.000 hochwertige Datensätze als Open Source zur Verfügung

Abbildung 2: Dialog in einem Beratungsszenario

Benutzer können dem Modell auch spezifische Beratungsfragen stellen, die auf ihrem eigenen Gesundheitszustand basieren, und das Modell wird detaillierte und hilfreiche Antworten geben Stellen Sie proaktiv Fragen, wenn Informationen fehlen, um die Relevanz und Genauigkeit der Antworten zu verbessern. Das Team der Fudan-Universität veröffentlicht einen persönlichen Assistenten für chinesische Medizin und Gesundheit und stellt gleichzeitig 470.000 hochwertige Datensätze als Open Source zur Verfügung

Abbildung 3: Dialog auf Basis der Beratung zum eigenen Gesundheitszustand

Benutzer können auch nach medizinischem Wissen fragen, das nichts mit sich selbst zu tun hat, antwortet das Modell so professionell wie möglich, um dem Benutzer ein umfassendes und genaues Verständnis zu vermitteln. Das Team der Fudan-Universität veröffentlicht einen persönlichen Assistenten für chinesische Medizin und Gesundheit und stellt gleichzeitig 470.000 hochwertige Datensätze als Open Source zur Verfügung

Abbildung 4: Dialog zur medizinischen Wissensabfrage ohne Bezug zur eigenen Person

2. Einführung in DISC-MedLLM

DISC-MedLLM basiert auf dem von uns erstellten hochwertigen Datensatz DISC-Med-SFT Ein großes medizinisches Modell, das auf dem allgemeinen chinesischen Großmodell Baichuan-13B trainiert wurde. Es ist erwähnenswert, dass unsere Trainingsdaten und Trainingsmethoden an jedes große Basismodell angepasst werden können.

DISC-MedLLM verfügt über drei Hauptmerkmale:

Zuverlässige und umfassende Fachkompetenz. Wir verwenden den medizinischen Wissensgraphen als Informationsquelle, um Dialogbeispiele zu erstellen, indem wir Tripel abfragen und die Sprachfähigkeiten allgemeiner großer Modelle nutzen.
Anfragefähigkeit für mehrere Dialogrunden. Wir verwenden echte Konsultationsdialogaufzeichnungen als Informationsquelle und verwenden große Modelle, um den Dialog zu rekonstruieren. Während des Konstruktionsprozesses ist das Modell erforderlich, um die medizinischen Informationen im Dialog vollständig abzugleichen.
Antworten an menschlichen Vorlieben ausrichten. Patienten hoffen, während des Konsultationsprozesses umfassendere unterstützende Informationen und Hintergrundwissen zu erhalten, aber die Antworten menschlicher Ärzte sind oft prägnant. Durch manuelles Screening erstellen wir hochwertige, kleine Anleitungsbeispiele, um sie an den Bedürfnissen der Patienten auszurichten.

Die Vorteile des Modells und des Datenkonstruktionsframeworks sind in Abbildung 5 dargestellt. Wir haben die tatsächliche Verteilung der Patienten anhand realer Konsultationsszenarien berechnet, um die Beispielkonstruktion des Datensatzes zu leiten. Basierend auf dem medizinischen Wissensgraphen und echten Konsultationsdaten haben wir zwei Ideen verwendet: großes Modell-in-the-Loop und People-in-the-Loop. the-loop, um den Datensatz zu erstellen. 3. Methode: Konstruktion des Datensatzes DISC-Med-SFT im Modell Ausbildungsprozess, Wir haben DISC-Med-SFT mit allgemeinen Domänendatensätzen und Datenproben aus vorhandenen Korpora ergänzt und so DISC-Med-SFT-ext gebildet. Die Details sind in Tabelle 1 aufgeführt. Tabelle 1: Einführung in den Dateninhalt von DISC-Med-SFT-ext 400.000 bzw. 20.000 Proben wurden zufällig aus zwei öffentlichen Datensätzen, MedDialog und cMedQA2, als Quellproben für die SFT-Datensatzkonstruktion ausgewählt.

Refactoring. Um die Antworten realer Ärzte in die erforderlichen, qualitativ hochwertigen, einheitlich formatierten Antworten umzuwandeln, haben wir GPT-3.5 verwendet, um den Rekonstruktionsprozess dieses Datensatzes abzuschließen. Eingabeaufforderungen müssen umgeschrieben werden, um den folgenden Grundsätzen zu folgen: Das Team der Fudan-Universität veröffentlicht einen persönlichen Assistenten für chinesische Medizin und Gesundheit und stellt gleichzeitig 470.000 hochwertige Datensätze als Open Source zur Verfügung

Entfernen Sie verbale Ausdrücke, extrahieren Sie einheitliche Ausdrücke und korrigieren Sie Inkonsistenzen im ärztlichen Sprachgebrauch.

Halten Sie sich an die wichtigsten Informationen in der ursprünglichen Antwort des Arztes und liefern Sie entsprechende Erklärungen, um umfassender und logischer zu sein.

Umschreiben oder löschen Sie Antworten, die KI-Ärzte nicht senden sollten, z. B. die Aufforderung an Patienten, einen Termin zu vereinbaren.

Abbildung 6 zeigt ein Beispiel für Refactoring. Die Antworten des angepassten Arztes stimmen mit der Identität des KI-Arztassistenten überein, halten sich an die Schlüsselinformationen des ursprünglichen Arztes und bieten dem Patienten gleichzeitig eine umfassendere und umfassendere Hilfe. Das Team der Fudan-Universität veröffentlicht einen persönlichen Assistenten für chinesische Medizin und Gesundheit und stellt gleichzeitig 470.000 hochwertige Datensätze als Open Source zur Verfügung

Abbildung 6: Beispiel für das Umschreiben von Dialogen

Wissensdiagramm-Frage-Antwort-Paar

Medizinisches Wissensdiagramm enthält eine große Menge gut organisierter medizinischer Fachkenntnisse, auf deren Grundlage weniger Lärm entstehen kann Es werden QA-Trainingsbeispiele generiert. Auf der Grundlage von CMeKG haben wir Stichproben im Wissensgraphen gemäß den Abteilungsinformationen von Krankheitsknoten gemacht und entsprechend gestaltete GPT-3.5-Modellaufforderungen verwendet, um insgesamt mehr als 50.000 verschiedene Dialogbeispiele für medizinische Szenen zu generieren.

Verhaltenspräferenzdatensatz

Um die Leistung des Modells in der letzten Trainingsphase weiter zu verbessern, verwenden wir einen Datensatz, der eher den menschlichen Verhaltenspräferenzen für die Sekundarstufe entspricht überwachte Feinabstimmung. Etwa 2000 hochwertige, unterschiedliche Proben wurden manuell aus den beiden Datensätzen von MedDialog und cMedQA2 ausgewählt. Nachdem wir mehrere Beispiele neu geschrieben und manuell in GPT-4 überarbeitet hatten, verwendeten wir die Methode für kleine Proben, um sie für GPT-3.5 bereitzustellen -Qualitätsdatensätze zu Verhaltenspräferenzen.

Sonstiges

Allgemeine Daten. Um die Vielfalt des Trainingssatzes zu bereichern und das Risiko einer Verschlechterung der Grundfähigkeiten des Modells während der SFT-Trainingsphase zu verringern, haben wir zufällig mehrere Stichproben aus zwei gängigen überwachten Feinabstimmungsdatensätzen ausgewählt, den Daten moss-sft-003 und alpaca gpt4 zh.

MedMCQA. Um die Q&A-Fähigkeiten des Modells zu verbessern, haben wir MedMCQA ausgewählt, einen Multiple-Choice-Fragendatensatz im englischen medizinischen Bereich, und GPT-3.5 verwendet, um die Fragen und korrekten Antworten in den Multiple-Choice-Fragen zu optimieren und so etwa 8.000 professionelle Chinesen zu generieren Beispiele für medizinische Fragen und Antworten.

4. Experiment

Training. Wie in der folgenden Abbildung dargestellt, ist der Trainingsprozess von DISC-MedLLM in zwei SFT-Phasen unterteilt.

Abbildung 7: Zweistufiger Trainingsprozess

Bewertung. Die Leistung medizinischer LLMs wird in zwei Szenarien bewertet, nämlich in einer einzigen Runde der Qualitätssicherung und in einem mehrstufigen Dialog.

Einzelrunde QS-Bewertung: Um die Genauigkeit des Modells im Hinblick auf medizinisches Wissen zu bewerten, haben wir 1500 Proben aus der chinesischen nationalen medizinischen Qualifikationsprüfung (NMLEC) und der nationalen Postgraduierten-Aufnahmeprüfung (NEEP) beprobt ) Western Medicine 306 Haupt- und Multiple-Choice-Fragen zur Bewertung der Leistung des Modells in einer einzigen QA-Runde.
Mehrstufige Dialogbewertung: Um die Dialogfähigkeit des Modells systematisch zu bewerten, haben wir von drei öffentlichen Datensätzen ausgegangen – Chinese Medical Benchmark (CMB-Clin), Chinese Medical Dialogue Dataset (CMD) und Chinese Medical Intent Daten: Wählen Sie zufällig Proben aus dem Satz (CMID) aus und lassen Sie GPT-3.5 die Rolle des Patienten und des Dialogs mit dem Modell spielen. Es werden vier Bewertungsindikatoren vorgeschlagen – Initiative, Genauigkeit, Nützlichkeit und Sprachqualität, die von GPT-4 bewertet werden.

Ergebnisse überprüfen

Modelle vergleichen. Unser Modell wird mit drei allgemeinen LLMs und zwei chinesischen medizinischen Konversations-LLMs verglichen. Einschließlich OpenAIs GPT-3.5, GPT-4, Baichuan-13B-Chat;

Einzelne Runde der QA-Ergebnisse. Die Gesamtergebnisse der Multiple-Choice-Bewertung sind in Tabelle 2 dargestellt. GPT-3.5 weist einen klaren Vorsprung auf. DISC-MedLLM erreichte den zweiten Platz in der Einstellung mit kleinen Stichproben und belegte hinter Baichuan-13B-Chat den dritten Platz in der Einstellung mit null Stichproben. Bemerkenswert ist, dass wir HuatuoGPT (13B) übertreffen, das mit einer verstärkenden Lernumgebung trainiert wurde.

Tabelle 2: Multiple-Choice-Bewertungsergebnisse

Ergebnisse mehrerer Dialogrunden. In der CMB-Clin-Bewertung erreichte DISC-MedLLM die höchste Gesamtpunktzahl, dicht gefolgt von HuatuoGPT. Unser Modell erzielte beim Positivitätskriterium die höchste Punktzahl, was die Wirksamkeit unseres Trainingsansatzes unterstreicht, der medizinische Verhaltensmuster verzerrt. Die Ergebnisse sind in Tabelle 3 dargestellt.

Tabelle 3: CMB-Clin-Ergebnisse

In der CMD-Stichprobe, wie in Abbildung 8 dargestellt, erzielte GPT-4 die höchste Punktzahl, gefolgt von GPT-3,5. Die Modelle im medizinischen Bereich, DISC-MedLLM und HuatuoGPT, weisen insgesamt die gleichen Leistungswerte auf und ihre Leistung in verschiedenen Abteilungen ist hervorragend.

Abbildung 8: CMD-Ergebnisse

Die Situation bei CMID ist ähnlich wie bei CMD, wie in Abbildung 9 dargestellt, GPT-4 und GPT-3.5 behalten die Führung. Mit Ausnahme der GPT-Serie schnitt DISC-MedLLM am besten ab. Es übertraf HuatuoGPT in drei Punkten: Zustand, Behandlungsschema und Medikation.

Abbildung 9: CMID-Ergebnisse

Die inkonsistente Leistung jedes Modells zwischen CMB-Clin und CMD/CMID kann auf die unterschiedliche Datenverteilung zwischen den drei Datensätzen zurückzuführen sein. CMD und CMID enthalten eine explizitere Auswahl an Fragen, und Patienten haben möglicherweise eine Diagnose erhalten und bei der Beschreibung ihrer Symptome klare Bedürfnisse geäußert, und die Fragen und Bedürfnisse des Patienten haben möglicherweise sogar nichts mit seinem persönlichen Gesundheitszustand zu tun. Die in vielerlei Hinsicht herausragenden Allzweckmodelle GPT-3.5 und GPT-4 kommen mit dieser Situation besser zurecht.

5. Zusammenfassung

Der DISC-Med-SFT-Datensatz nutzt die Vorteile und Möglichkeiten des realen Dialogs und des allgemeinen Domänen-LLM und führt gezielte Verbesserungen in drei Aspekten durch: Domänenwissen, Medizinischer Dialog Fähigkeiten und menschliche Vorlieben; hochwertige Datensätze trainierten das hervorragende medizinische Großmodell DISC-MedLLM, das erhebliche Verbesserungen in der medizinischen Interaktion erzielte, eine hohe Benutzerfreundlichkeit zeigte und ein großes Anwendungspotenzial zeigte.

Die Forschung in diesem Bereich wird mehr Perspektiven und Möglichkeiten zur Reduzierung der Online-Medizinkosten, zur Förderung medizinischer Ressourcen und zur Erreichung eines Gleichgewichts eröffnen. DISC-MedLLM wird mehr Menschen bequeme und personalisierte medizinische Dienste bieten und zur allgemeinen Gesundheit beitragen.

Das obige ist der detaillierte Inhalt vonDas Team der Fudan-Universität veröffentlicht einen persönlichen Assistenten für chinesische Medizin und Gesundheit und stellt gleichzeitig 470.000 hochwertige Datensätze als Open Source zur Verfügung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7455

CakePHP-Tutorial

1375

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

„Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. Jul 26, 2024 pm 05:38 PM

In der modernen Fertigung ist die genaue Fehlererkennung nicht nur der Schlüssel zur Sicherstellung der Produktqualität, sondern auch der Kern für die Verbesserung der Produktionseffizienz. Allerdings mangelt es vorhandenen Datensätzen zur Fehlererkennung häufig an der Genauigkeit und dem semantischen Reichtum, die für praktische Anwendungen erforderlich sind, was dazu führt, dass Modelle bestimmte Fehlerkategorien oder -orte nicht identifizieren können. Um dieses Problem zu lösen, hat ein Spitzenforschungsteam bestehend aus der Hong Kong University of Science and Technology Guangzhou und Simou Technology innovativ den „DefectSpectrum“-Datensatz entwickelt, der eine detaillierte und semantisch reichhaltige groß angelegte Annotation von Industriedefekten ermöglicht. Wie in Tabelle 1 gezeigt, bietet der Datensatz „DefectSpectrum“ im Vergleich zu anderen Industriedatensätzen die meisten Fehleranmerkungen (5438 Fehlerproben) und die detaillierteste Fehlerklassifizierung (125 Fehlerkategorien).

Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Jul 26, 2024 am 08:40 AM

Die offene LLM-Community ist eine Ära, in der hundert Blumen blühen und konkurrieren. Sie können Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 und viele andere sehen hervorragende Darsteller. Allerdings weisen offene Modelle im Vergleich zu den proprietären Großmodellen GPT-4-Turbo in vielen Bereichen noch erhebliche Lücken auf. Zusätzlich zu allgemeinen Modellen wurden einige offene Modelle entwickelt, die sich auf Schlüsselbereiche spezialisieren, wie etwa DeepSeek-Coder-V2 für Programmierung und Mathematik und InternVL für visuelle Sprachaufgaben.

Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Jul 26, 2024 pm 02:40 PM

Für KI ist die Mathematikolympiade kein Problem mehr. Am Donnerstag hat die künstliche Intelligenz von Google DeepMind eine Meisterleistung vollbracht: Sie nutzte KI, um meiner Meinung nach die eigentliche Frage der diesjährigen Internationalen Mathematikolympiade zu lösen, und war nur einen Schritt davon entfernt, die Goldmedaille zu gewinnen. Der IMO-Wettbewerb, der gerade letzte Woche zu Ende ging, hatte sechs Fragen zu Algebra, Kombinatorik, Geometrie und Zahlentheorie. Das von Google vorgeschlagene hybride KI-System beantwortete vier Fragen richtig und erzielte 28 Punkte und erreichte damit die Silbermedaillenstufe. Anfang dieses Monats hatte der UCLA-Professor Terence Tao gerade die KI-Mathematische Olympiade (AIMO Progress Award) mit einem Millionenpreis gefördert. Unerwarteterweise hatte sich das Niveau der KI-Problemlösung vor Juli auf dieses Niveau verbessert. Beantworten Sie die Fragen meiner Meinung nach gleichzeitig. Am schwierigsten ist es meiner Meinung nach, da sie die längste Geschichte, den größten Umfang und die negativsten Fragen haben

Der Standpunkt der Natur: Die Erprobung künstlicher Intelligenz in der Medizin ist im Chaos. Was ist zu tun? Aug 22, 2024 pm 04:37 PM

Herausgeber | ScienceAI Basierend auf begrenzten klinischen Daten wurden Hunderte medizinischer Algorithmen genehmigt. Wissenschaftler diskutieren darüber, wer die Werkzeuge testen soll und wie dies am besten geschieht. Devin Singh wurde Zeuge, wie ein pädiatrischer Patient in der Notaufnahme einen Herzstillstand erlitt, während er lange auf eine Behandlung wartete, was ihn dazu veranlasste, den Einsatz von KI zu erforschen, um Wartezeiten zu verkürzen. Mithilfe von Triage-Daten aus den Notaufnahmen von SickKids erstellten Singh und Kollegen eine Reihe von KI-Modellen, um mögliche Diagnosen zu stellen und Tests zu empfehlen. Eine Studie zeigte, dass diese Modelle die Zahl der Arztbesuche um 22,3 % verkürzen können und die Verarbeitung der Ergebnisse pro Patient, der einen medizinischen Test benötigt, um fast drei Stunden beschleunigt. Der Erfolg von Algorithmen der künstlichen Intelligenz in der Forschung bestätigt dies jedoch nur

Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Aug 08, 2024 pm 09:22 PM

Herausgeber |KX Bis heute sind die durch die Kristallographie ermittelten Strukturdetails und Präzision, von einfachen Metallen bis hin zu großen Membranproteinen, mit keiner anderen Methode zu erreichen. Die größte Herausforderung, das sogenannte Phasenproblem, bleibt jedoch die Gewinnung von Phaseninformationen aus experimentell bestimmten Amplituden. Forscher der Universität Kopenhagen in Dänemark haben eine Deep-Learning-Methode namens PhAI entwickelt, um Kristallphasenprobleme zu lösen. Ein Deep-Learning-Neuronales Netzwerk, das mithilfe von Millionen künstlicher Kristallstrukturen und den entsprechenden synthetischen Beugungsdaten trainiert wird, kann genaue Elektronendichtekarten erstellen. Die Studie zeigt, dass diese Deep-Learning-basierte Ab-initio-Strukturlösungsmethode das Phasenproblem mit einer Auflösung von nur 2 Angström lösen kann, was nur 10 bis 20 % der bei atomarer Auflösung verfügbaren Daten im Vergleich zur herkömmlichen Ab-initio-Berechnung entspricht

Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Jul 25, 2024 am 06:42 AM

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

Identifizieren Sie automatisch die besten Moleküle und reduzieren Sie die Synthesekosten. Das MIT entwickelt ein Algorithmus-Framework für die Entscheidungsfindung im molekularen Design Jun 22, 2024 am 06:43 AM

Herausgeber |. Der Einsatz von Ziluo AI bei der Rationalisierung der Arzneimittelforschung nimmt explosionsartig zu. Durchsuchen Sie Milliarden von Kandidatenmolekülen nach solchen, die möglicherweise über Eigenschaften verfügen, die für die Entwicklung neuer Medikamente erforderlich sind. Es sind so viele Variablen zu berücksichtigen, von Materialpreisen bis hin zum Fehlerrisiko, dass es keine leichte Aufgabe ist, die Kosten für die Synthese der besten Kandidatenmoleküle abzuwägen, selbst wenn Wissenschaftler KI einsetzen. Hier entwickelten MIT-Forscher SPARROW, ein quantitatives Entscheidungsalgorithmus-Framework, um automatisch die besten molekularen Kandidaten zu identifizieren und so die Synthesekosten zu minimieren und gleichzeitig die Wahrscheinlichkeit zu maximieren, dass die Kandidaten die gewünschten Eigenschaften aufweisen. Der Algorithmus bestimmte auch die Materialien und experimentellen Schritte, die zur Synthese dieser Moleküle erforderlich sind. SPARROW berücksichtigt die Kosten für die gleichzeitige Synthese einer Charge von Molekülen, da häufig mehrere Kandidatenmoleküle verfügbar sind

SOTA Performance, eine multimodale KI-Methode zur Vorhersage der Protein-Ligand-Affinität in Xiamen, kombiniert erstmals molekulare Oberflächeninformationen Jul 17, 2024 pm 06:37 PM

Herausgeber |. KX Im Bereich der Arzneimittelforschung und -entwicklung ist die genaue und effektive Vorhersage der Bindungsaffinität von Proteinen und Liganden für das Arzneimittelscreening und die Arzneimitteloptimierung von entscheidender Bedeutung. Aktuelle Studien berücksichtigen jedoch nicht die wichtige Rolle molekularer Oberflächeninformationen bei Protein-Ligand-Wechselwirkungen. Auf dieser Grundlage schlugen Forscher der Universität Xiamen ein neuartiges Framework zur multimodalen Merkmalsextraktion (MFE) vor, das erstmals Informationen über Proteinoberfläche, 3D-Struktur und -Sequenz kombiniert und einen Kreuzaufmerksamkeitsmechanismus verwendet, um verschiedene Modalitäten zu vergleichen Ausrichtung. Experimentelle Ergebnisse zeigen, dass diese Methode bei der Vorhersage von Protein-Ligand-Bindungsaffinitäten Spitzenleistungen erbringt. Darüber hinaus belegen Ablationsstudien die Wirksamkeit und Notwendigkeit der Proteinoberflächeninformation und der multimodalen Merkmalsausrichtung innerhalb dieses Rahmens. Verwandte Forschungen beginnen mit „S

See all articles