Heim Technologie-Peripheriegeräte KI Für Interspeech 2023 wurden mehrere Beiträge ausgewählt, und Huoshan Speech löste effektiv viele Arten praktischer Probleme

Für Interspeech 2023 wurden mehrere Beiträge ausgewählt, und Huoshan Speech löste effektiv viele Arten praktischer Probleme

Sep 18, 2023 am 11:09 AM
理论

Kürzlich wurden mehrere Beiträge des Volcano Voice-Teams für Interspeech 2023 ausgewählt, die innovative Durchbrüche in verschiedenen Anwendungsrichtungen wie kurze Video-Spracherkennung, sprachübergreifende Klangfarbe und Stil sowie Beurteilung der mündlichen Sprachkompetenz behandeln. Interspeech ist eine der Top-Konferenzen im Bereich der Sprachforschung, die von der International Speech Communications Association (ISCA) organisiert wird. Sie gilt auch als die weltweit größte umfassende Veranstaltung zur Sprachsignalverarbeitung und hat bei Menschen im globalen Sprachbereich große Aufmerksamkeit erregt.

多篇论文入选Interspeech 2023,火山语音有效解决多类实践问题

Interspeech2023Veranstaltungsseite

Datenerweiterung basierend auf zufälliger Satzverkettung zur Verbesserung der Kurzvideo-Spracherkennung (Random Utterance Concatenation Based Data Augmentation for Improving Short-video Speech. Recognition )

Normal Eine der Einschränkungen eines End-to-End-Frameworks zur automatischen Spracherkennung (ASR) besteht beispielsweise darin, dass seine Leistung beeinträchtigt werden kann, wenn die Längen der Trainings- und Testsätze nicht übereinstimmen. In diesem Artikel schlägt das Huoshan Speech-Team eine Datenverbesserungsmethode vor, die auf der sofortigen zufälligen Satzverkettung (RUC) als Front-End-Datenverbesserung basiert, um das Problem der Nichtübereinstimmung der Trainings- und Testsatzlänge bei kurzen Video-ASR-Aufgaben zu lindern.

Konkret stellte das Team fest, dass die folgenden Beobachtungen eine wichtige Rolle in der innovativen Praxis spielten: Typischerweise sind Trainingssätze aus kurzer Video-Spontansprache viel kürzer als von Menschen transkribierte Sätze (durchschnittlich etwa 3 Sekunden), während Trainingssätze aus Sprache trainiert werden Die vom Aktivitätserkennungs-Frontend generierten Testanweisungen sind viel länger (durchschnittlich etwa 10 Sekunden). Daher kann diese Nichtübereinstimmung zu einer schlechten Leistung führen

Das Volcano Speech-Team gab an, dass wir für empirische Zwecke ASR-Modelle mit mehreren Klassen aus 15 Sprachen verwendet haben. Die Datensätze für diese Sprachen umfassen 1.000 bis 30.000 Stunden. Während der Feinabstimmungsphase des Modells haben wir auch Daten hinzugefügt, die in Echtzeit aus mehreren Datenteilen abgetastet und gespleißt wurden. Im Vergleich zu den nicht erweiterten Daten erreicht diese Methode eine durchschnittliche Reduzierung der relativen Wortfehlerrate von 5,72 % über alle Sprachen hinweg.

多篇论文入选Interspeech 2023,火山语音有效解决多类实践问题

Die WER langer Sätze auf dem Testsatz wird nach dem Training mit RUC deutlich reduziert (blau vs. rot). )

Experimentellen Beobachtungen zufolge verbessert die RUC-Methode die Erkennungsfähigkeit langer Sätze deutlich, während die Leistung kurzer Sätze nicht abnimmt. Weitere Analysen ergaben, dass die vorgeschlagene Datenerweiterungsmethode die Empfindlichkeit des ASR-Modells gegenüber Längennormalisierungsänderungen verringern kann, was bedeuten kann, dass das ASR-Modell in verschiedenen Umgebungen robuster ist. Zusammenfassend lässt sich sagen, dass die RUC-Datenverbesserungsmethode zwar einfach zu bedienen ist, der Effekt jedoch erheblich ist.

Sprachkompetenzbewertung basierend auf phonetischem und prosodiebewusstem, selbstüberwachtem Lernansatz für die Bewertung nicht-muttersprachlicher Sprachkompetenz

Einer der wichtigsten Punkte Der wichtigste Maßstab für die Bewertung der Sprachkenntnisse von Zweitsprachenlernern ist die mündliche Gewandtheit. Eine flüssige Aussprache zeichnet sich vor allem durch die Fähigkeit aus, Sprache leicht und normal wiederzugeben, ohne dass beim Sprechen viele abnormale Phänomene wie Pausen, Zögern oder Selbstkorrekturen auftreten. Die meisten Zweitsprachenlerner sprechen normalerweise langsamer und machen häufiger Pausen als Muttersprachler. Um die gesprochene Sprachkompetenz zu bewerten, schlug das Volcano Speech-Team eine selbstüberwachte Modellierungsmethode vor, die auf Sprache und Prosodie basiert. Insbesondere wurden in der Vortrainingsphase die Eingabesequenzmerkmale des Modells (akustische Merkmale, Phonem-IDs, Phonemdauer) ermittelt. wird maskiert, und die maskierten Merkmale werden in das Modell eingespeist, und der kontextbezogene Encoder wird verwendet, um die Phonem-ID und die Phonemdauerinformationen des maskierten Teils basierend auf den Timing-Informationen wiederherzustellen, sodass das Modell eine leistungsfähigere Sprache und Prosodik aufweist Darstellungsfähigkeiten.

Diese Lösung maskiert und rekonstruiert die drei Merkmale Originaldauer, Phonem und akustische Informationen im Sequenzmodellierungsrahmen, sodass die Maschine automatisch die Sprach- und Dauerdarstellung des Kontexts lernen kann, was besser für die Bewertung der Sprachkompetenz verwendet werden kann.

多篇论文入选Interspeech 2023,火山语音有效解决多类实践问题

Diese selbstüberwachte Lernmethode, die auf Sprache und Prosodie basiert, übertrifft andere Methoden auf diesem Gebiet. Beim internen Testsatz erreichte die Korrelation zwischen maschinellen Vorhersageergebnissen und menschlichen Expertenbewertungen

0,833, mit Die Korrelation zwischen Experten und Experten beträgt 0,831. Im Open-Source-Datensatz erreichte die Korrelation zwischen maschinellen Vorhersageergebnissen und menschlichen Expertenbewertungen 0,835, und die Leistung übertraf einige in der Vergangenheit für diese Aufgabe vorgeschlagene selbstüberwachte Methoden. In Bezug auf Anwendungsszenarien kann diese Methode auf Szenarien angewendet werden, die eine automatische Beurteilung der Sprachkompetenz erfordern, wie z. B. mündliche Prüfungen und verschiedene mündliche Online-Übungen.

Entwirrung des Beitrags nicht-muttersprachlicher Sprache bei der automatisierten Aussprachebewertung

(Entschlüsselung des Beitrags nicht-muttersprachlicher Sprache bei der automatisierten Aussprachebewertung)

Eine Grundidee der nicht-muttersprachlichen Aussprachebewertung besteht darin, die Abweichung zwischen der Aussprache des Lernenden und der Aussprache des Muttersprachlers zu quantifizieren. Daher verwenden frühe akustische Modelle, die zur Aussprachebewertung verwendet werden, normalerweise nur Zielsprachendaten für das Training, aber einige neuere Studien haben damit begonnen Integration nicht-muttersprachlicher Aussprache in Daten wird in das Modelltraining integriert. Es besteht ein grundlegender Unterschied zwischen dem Zweck der Einbeziehung nicht-muttersprachlicher Sprache in die L2-ASR und der nicht-muttersprachlichen Beurteilung oder Erkennung von Aussprachefehlern: Das Ziel der ersteren besteht darin, das Modell so weit wie möglich an nicht-muttersprachliche Daten anzupassen, um eine optimale ASR zu erreichen Leistung; Letzteres erfordert ein Abwägen der beiden Perspektiven. Es gibt scheinbar widersprüchliche Anforderungen, das heißt eine höhere Erkennungsgenauigkeit nicht-muttersprachlicher Sprache und eine objektive Beurteilung des Ausspracheniveaus nicht-muttersprachlicher Aussprache.

多篇论文入选Interspeech 2023,火山语音有效解决多类实践问题

Das Volcano Speech-Team möchte den Beitrag nicht-muttersprachlicher Sprache zur Aussprachebewertung aus zwei verschiedenen Perspektiven untersuchen, nämlich der Ausrichtungsgenauigkeit und der Bewertungsleistung. Zu diesem Zweck haben sie beim Training akustischer Modelle unterschiedliche Datenkombinationen und Texttranskriptionsformen entworfen, wie in der Abbildung oben gezeigt. Die beiden obigen Tabellen zeigen jeweils die Ausrichtungsgenauigkeit und Bewertung der Leistung verschiedener Kombinationen akustischer Modelle . Experimentelle Ergebnisse zeigen, dass die ausschließliche Verwendung nicht-muttersprachlicher Sprachdaten mit manuell annotierten Phonemsequenzen während des akustischen Modelltrainings die Ausrichtung nicht-muttersprachlicher Sprache und die höchste Genauigkeit bei der Aussprachebewertung ermöglicht. Insbesondere das Mischen von halb muttersprachlichen Daten und halb nicht-muttersprachlichen Daten (von Menschen annotierte Phonemsequenzen) im Training kann etwas schlechter sein, ist aber vergleichbar mit der Verwendung nur von nicht-muttersprachlichen Daten mit von Menschen annotierten Phonemsequenzen.

Darüber hinaus schneidet der obige gemischte Fall besser ab, wenn die Aussprache anhand muttersprachlicher Daten bewertet wird. Bei begrenzten Ressourcen verbesserte das Hinzufügen von 10 Stunden nicht-muttersprachlicher Daten die Ausrichtungsgenauigkeit und Bewertungsleistung im Vergleich zum akustischen Modelltraining, bei dem nur muttersprachliche Daten verwendet wurden, erheblich, unabhängig vom verwendeten Texttranskriptionstyp. Diese Forschung hat wichtige Leitbedeutung für Datenanwendungen im Bereich der Sprachauswertung. 多篇论文入选Interspeech 2023,火山语音有效解决多类实践问题

Bei der End-to-End-Spracherkennung ist die Lösung des Zeitstempelproblems durch Nicht-Peak-CTC-Optimierungsrahmenklassifikator (多篇论文入选Interspeech 2023,火山语音有效解决多类实践问题

Improving Frame-) möglich.

End-to-End-Systeme im Bereich der automatischen Spracherkennung (ASR) haben eine mit Hybridsystemen vergleichbare Leistung gezeigt. Als Nebenprodukt von ASR sind Zeitstempel in vielen Anwendungen von entscheidender Bedeutung, insbesondere in Szenarien wie der Untertitelgenerierung und dem rechnergestützten Aussprachetraining. Ziel dieses Artikels ist es, den Klassifikator auf Frame-Ebene in einem End-to-End-System zu optimieren, um Zeitstempel zu erhalten. . In diesem Zusammenhang führte das Team die Verwendung von CTC-Verlusten (konnektionistische zeitliche Klassifizierung) ein, um den Klassifikator auf Frame-Ebene zu trainieren, und führte Label-Prior-Informationen ein, um das Spike-Phänomen von CTC zu lindern. Außerdem wurde die Ausgabe des Mel-Filters mit dem ASR kombiniert Encoder als Eingabefunktionen.

In internen chinesischen Experimenten erreichte diese Methode eine Genauigkeit von 95,68 %/94,18 % im Wortzeitstempel von 200 ms, während das traditionelle Hybridsystem nur 93,0 %/90,22 % erreichte. Darüber hinaus erreichte das Team im Vergleich zum vorherigen End-to-End-Ansatz eine absolute Leistungsverbesserung von 4,80 %/8,02 % in den 7 internen Sprachen. Die Genauigkeit des Wort-Timings wird auch durch einen Ansatz zur Wissensdestillation Bild für Bild weiter verbessert, obwohl dieses Experiment nur für LibriSpeech durchgeführt wurde. Die Ergebnisse dieser Studie zeigen, dass die Zeitstempelleistung in End-to-End-Spracherkennungssystemen durch die Einführung von Label-Priors und die Zusammenführung verschiedener Funktionsebenen effektiv optimiert werden kann. In internen chinesischen Experimenten hat diese Methode erhebliche Verbesserungen im Vergleich zu Hybridsystemen und früheren End-to-End-Methoden erzielt. Darüber hinaus zeigt die Methode durch die Anwendung von Wissensdestillationsmethoden offensichtliche Vorteile Timing-Genauigkeit. Diese Ergebnisse sind nicht nur von großer Bedeutung für Anwendungen wie die Generierung von Untertiteln und das Training der Aussprache, sondern liefern auch nützliche Erkundungsrichtungen für die Entwicklung automatischer Spracherkennungstechnologie. Chinesisch-Englisch gemischte Spracherkennung basierend auf sprachspezifischem akustischem Grenzlernen (Sprachspezifisches akustisches Grenzlernen für Mandarin-Englisch Code-Switching Speech Recognition

)

Umgeschriebener Inhalt: Wie wir alle wissen, Code Switching (Das Hauptziel von CS) besteht darin, eine effektive Kommunikation zwischen verschiedenen Sprachen oder technischen Bereichen zu ermöglichen. CS erfordert die abwechselnde Verwendung von zwei oder mehr Sprachen in einem Satz. Das Zusammenführen von Wörtern oder Phrasen aus mehreren Sprachen kann jedoch zu Fehlern und Verwirrung bei der Spracherkennung führen, was die Code-Switched-Speech-Erkennung (CSSR) zu einer größeren Herausforderung macht Missionen

Übliche End-to-End-ASR-Modelle bestehen aus Encodern, Decodern und Ausrichtungsmechanismen. Die meisten der vorhandenen End-to-End-CSASR-Modelle konzentrieren sich nur auf die Optimierung der Encoder- und Decoderstrukturen und diskutieren selten, ob ein sprachbezogenes Design des Ausrichtungsmechanismus erforderlich ist. Die meisten vorhandenen Arbeiten verwenden eine Mischung aus Mandarin-Schriftzeichen und englischen Unterwörtern als Modellierungseinheiten für gemischte chinesische und englische Szenarien. Mandarin-Schriftzeichen stellen in der Regel einzelne Silben in Mandarin dar und haben klare akustische Grenzen, während englische Unterwörter ohne Bezug zu akustischen Kenntnissen erhalten werden, sodass ihre akustischen Grenzen unscharf sein können. Um im CSASR-System gute akustische Grenzen (Alignment) zwischen Mandarin und Englisch zu erhalten, ist sprachbezogenes Lernen akustischer Grenzen unbedingt erforderlich. Daher haben wir das CIF-Modell verbessert und eine sprachdifferenzierte Lernmethode für akustische Grenzen für die CSASR-Aufgabe vorgeschlagen. Einzelheiten zur Modellarchitektur finden Sie in der folgenden Abbildung. Das Modell besteht aus sechs Komponenten, nämlich dem Encoder, dem sprachdifferenzierten Gewichtsschätzer (LSWE), dem CIF-Modul, dem autoregressiven (AR) Decoder und der nicht automatischen Regression ( NAR-Decoder und Sprachänderungserkennungsmodul (LCD). Der Berechnungsprozess des Encoders, des autoregressiven Decoders und des CIF ist der gleiche wie bei der ursprünglichen CIF-basierten ASR-Methode. Der sprachspezifische Gewichtsschätzer ist für die Vervollständigung der Modellierung sprachunabhängiger akustischer Grenzen verantwortlich und Das Modul zur Erkennung von Sprachänderungen (Language Change Detection, LCD) soll das Modelltraining unterstützen und wird in der Dekodierungsphase nicht mehr beibehalten. Experimentelle Ergebnisse zeigen, dass diese Methode bei den beiden Testsätzen

und

des Open-Source-Chinesisch-Englischens neue Ergebnisse erzielt hat Gemischter Datensatz SEAME. Die SOTA-Effekte betragen 16,29 % bzw. 22,81 % MER. Um die Wirkung dieser Methode auf größere Datenmengen weiter zu verifizieren, führte das Team Experimente mit einem internen Datensatz von 9.000 Stunden durch und erreichte schließlich einen relativen MER-Gewinn von 7,9 %. Es versteht sich, dass dieses Papier auch die erste Arbeit zum akustischen Grenzlernen zur Sprachdifferenzierung in der CSASR-Aufgabe ist. 多篇论文入选Interspeech 2023,火山语音有效解决多类实践问题

USTR

: 多篇论文入选Interspeech 2023,火山语音有效解决多类实践问题多篇论文入选Interspeech 2023,火山语音有效解决多类实践问题 ASR basierend auf einheitlicher Darstellung und Klartext

Domain Adaptation (Text-only Domain Adaptation using Unified Speech-Text Representation in Transducer)Wie wir alle wissen, Domänenmigration war schon immer eine sehr wichtige Aufgabe in ASR, aber das Erhalten gepaarter Sprachdaten in der Zieldomäne ist sehr zeitaufwändig und kostspielig. Daher verwenden viele Arbeiten Textdaten, die sich auf die Zieldomäne beziehen, um den Erkennungseffekt zu verbessern. Unter den traditionellen Methoden erhöht TTS den Trainingszyklus und die Speicherkosten der zugehörigen Daten, während Methoden wie ILME und Shallow Fusion die Komplexität der Inferenz erhöhen. Basierend auf dieser Aufgabe teilte das Team den Encoder in einen Audio-Encoder und einen Shared Encoder auf, der auf RNN-T basiert, und führte einen Text-Encoder ein, um die Darstellung von Sprache und Text mithilfe von RNN-T zu erlernen. Der T-Verlust für das Training wird USTR (Unified Speech-Text Representation) genannt. „Für den Text-Encoder-Teil haben wir verschiedene Arten von Darstellungen untersucht, darunter Zeichenfolge, Phone-Sequenz und Unterwort-Sequenz. Die Endergebnisse zeigten, dass die Phone-Sequenz die beste Wirkung hat. Was die Trainingsmethode betrifft, wird in diesem Artikel die Methode untersucht Basierend auf der gegebenen RNN-Mehrschritt-Trainingsmethode des T-Modells und der Einzelschritt-Trainingsmethode mit vollständig zufälliger Initialisierung „

Konkret verwendete das Team den LibriSpeech-Datensatz als Quelldomäne und verwendete den kommentierten Text von SPGISpeech als Klartext für das Domänenmigrationsexperiment. Experimentelle Ergebnisse zeigen, dass der Effekt dieser Methode im Zielbereich im Wesentlichen derselbe sein kann wie der von TTS. Der Effekt ist im Wesentlichen derselbe wie bei Multi-Step Die USTR-Methode kann die Leistung von Plug-in-Sprachmodellen wie ILME Combined weiter verbessern, selbst wenn LM denselben Texttrainingskorpus verwendet. Schließlich erreichte diese Methode auf dem Zieldomänen-Testsatz ohne Kombination externer Sprachmodelle einen relativen Rückgang von 43,7 % im Vergleich zum Basis-WER von 23,55 % -> 13,25 %.

多篇论文入选Interspeech 2023,火山语音有效解决多类实践问题

Eine effiziente Methode zur Schätzung interner Sprachmodelle basierend auf Wissensdestillation

(Knowledge Distillation Approach for Efficient Internal Language Model Estimation)

多篇论文入选Interspeech 2023,火山语音有效解决多类实践问题

Obwohl sich die interne Sprachmodellschätzung (Internal Language Model Estimation, ILME) bei der End-to-End-ASR-Sprachmodellfusion bewährt hat, führt ILME im Vergleich zur herkömmlichen Shallow-Fusion zusätzlich die Berechnung interner Sprachmodelle ein, was die Inferenzkosten erhöht. Um das interne Sprachmodell abzuschätzen, ist eine zusätzliche Vorwärtsberechnung basierend auf dem ASR-Decoder erforderlich, oder es wird ein unabhängiges Sprachmodell (DR-LM) trainiert, indem der ASR-Trainingssatztext basierend auf der Density Ratio-Methode als interne Sprache verwendet wird. Modellnäherung. Die auf dem ASR-Decoder basierende ILME-Methode kann normalerweise eine bessere Leistung erzielen als die Dichteverhältnismethode, da sie ASR-Parameter direkt zur Schätzung verwendet. Ihr Berechnungsumfang hängt jedoch von der Parametermenge des ASR-Decoders ab dass es durch gesteuert werden kann. Die Größe von DR-LM ermöglicht eine effiziente Schätzung des internen Sprachmodells.

Aus diesem Grund schlug das Volcano Voice-Team vor, die auf dem ASR-Decoder basierende ILME-Methode als Lehrer im Rahmen der Dichteverhältnismethode zu verwenden, um DR-LM zu destillieren und zu lernen, wodurch die Rechenkosten von ILME bei gleichzeitiger Aufrechterhaltung erheblich gesenkt werden die Leistung von ILME.

多篇论文入选Interspeech 2023,火山语音有效解决多类实践问题

多篇论文入选Interspeech 2023,火山语音有效解决多类实践问题

Experimentelle Ergebnisse zeigen, dass diese Methode 95 % der internen Sprachmodellparameter reduzieren kann und in der Leistung mit der auf dem ASR-Decoder basierenden ILME-Methode vergleichbar ist. Wenn als Lehrer die ILME-Methode mit besserer Leistung verwendet wird, kann das entsprechende Schülermodell auch bessere Ergebnisse erzielen. Im Vergleich zur herkömmlichen Dichteverhältnismethode mit einem ähnlichen Berechnungsumfang weist diese Methode in Szenarien mit hohem Ressourcenaufwand eine etwas bessere Leistung auf. In Szenarios mit domänenübergreifender Migration mit geringen Ressourcen kann der CER-Gewinn 8 % erreichen und ist robuster Fusionsgewichte

GenerTTS: Ausspracheentflechtung für die Verallgemeinerung von Klangfarbe und Stil in der sprachübergreifenden Text-zu-Sprache Die sprachübergreifende Klang- und Stilgeneralisierbare Sprachsynthese (TTS) zielt darauf ab, Sprache mit einer bestimmten Referenzklangfarbe zu synthetisieren oder Stil, der nicht in der Zielsprache trainiert wurde. Es steht vor Herausforderungen wie der Schwierigkeit, Klangfarbe und Aussprache zu trennen, da es oft schwierig ist, mehrsprachige Sprachdaten für einen bestimmten Sprecher zu erhalten, und die Aussprache ist gemischt, da der Sprachstil sowohl sprachunabhängige als auch sprachabhängige Teile enthält. Um diese Herausforderungen anzugehen, hat das Volcano Voice-Team GenerTTS vorgeschlagen. Sie haben sorgfältig HuBERT-basierte Informationsengpässe entworfen, um die Verbindung zwischen Klangfarbe und Aussprache/Stil zu entkoppeln. Gleichzeitig eliminieren sie auch sprachspezifische Informationen in Stilen, indem sie die gegenseitige Information zwischen Stilen und Sprachen minimieren. Experimente beweisen, dass GenerTTS Basissysteme in Bezug auf Stilähnlichkeit und Aussprachegenauigkeit übertrifft Es wird eine Generalisierbarkeit über Sprachklangfarben und -stile hinweg erreicht.

Das Volcano Voice-Team hat den internen Geschäftsbereichen von ByteDance stets hochwertige Sprach-KI-Technologiefunktionen und Full-Stack-Sprachproduktlösungen bereitgestellt und über die Volcano-Engine externe Dienste bereitgestellt. Seit seiner Gründung im Jahr 2017 konzentriert sich das Team auf die Forschung und Entwicklung branchenführender intelligenter KI-Sprachtechnologie und erforscht ständig die effiziente Kombination von KI und Geschäftsszenarien, um einen größeren Benutzernutzen zu erzielen.

Das obige ist der detaillierte Inhalt vonFür Interspeech 2023 wurden mehrere Beiträge ausgewählt, und Huoshan Speech löste effektiv viele Arten praktischer Probleme. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

„Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. „Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. Jul 26, 2024 pm 05:38 PM

In der modernen Fertigung ist die genaue Fehlererkennung nicht nur der Schlüssel zur Sicherstellung der Produktqualität, sondern auch der Kern für die Verbesserung der Produktionseffizienz. Allerdings mangelt es vorhandenen Datensätzen zur Fehlererkennung häufig an der Genauigkeit und dem semantischen Reichtum, die für praktische Anwendungen erforderlich sind, was dazu führt, dass Modelle bestimmte Fehlerkategorien oder -orte nicht identifizieren können. Um dieses Problem zu lösen, hat ein Spitzenforschungsteam bestehend aus der Hong Kong University of Science and Technology Guangzhou und Simou Technology innovativ den „DefectSpectrum“-Datensatz entwickelt, der eine detaillierte und semantisch reichhaltige groß angelegte Annotation von Industriedefekten ermöglicht. Wie in Tabelle 1 gezeigt, bietet der Datensatz „DefectSpectrum“ im Vergleich zu anderen Industriedatensätzen die meisten Fehleranmerkungen (5438 Fehlerproben) und die detaillierteste Fehlerklassifizierung (125 Fehlerkategorien).

Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Jul 26, 2024 am 08:40 AM

Die offene LLM-Community ist eine Ära, in der hundert Blumen blühen und konkurrieren. Sie können Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 und viele andere sehen hervorragende Darsteller. Allerdings weisen offene Modelle im Vergleich zu den proprietären Großmodellen GPT-4-Turbo in vielen Bereichen noch erhebliche Lücken auf. Zusätzlich zu allgemeinen Modellen wurden einige offene Modelle entwickelt, die sich auf Schlüsselbereiche spezialisieren, wie etwa DeepSeek-Coder-V2 für Programmierung und Mathematik und InternVL für visuelle Sprachaufgaben.

Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Jul 26, 2024 pm 02:40 PM

Für KI ist die Mathematikolympiade kein Problem mehr. Am Donnerstag hat die künstliche Intelligenz von Google DeepMind eine Meisterleistung vollbracht: Sie nutzte KI, um meiner Meinung nach die eigentliche Frage der diesjährigen Internationalen Mathematikolympiade zu lösen, und war nur einen Schritt davon entfernt, die Goldmedaille zu gewinnen. Der IMO-Wettbewerb, der gerade letzte Woche zu Ende ging, hatte sechs Fragen zu Algebra, Kombinatorik, Geometrie und Zahlentheorie. Das von Google vorgeschlagene hybride KI-System beantwortete vier Fragen richtig und erzielte 28 Punkte und erreichte damit die Silbermedaillenstufe. Anfang dieses Monats hatte der UCLA-Professor Terence Tao gerade die KI-Mathematische Olympiade (AIMO Progress Award) mit einem Millionenpreis gefördert. Unerwarteterweise hatte sich das Niveau der KI-Problemlösung vor Juli auf dieses Niveau verbessert. Beantworten Sie die Fragen meiner Meinung nach gleichzeitig. Am schwierigsten ist es meiner Meinung nach, da sie die längste Geschichte, den größten Umfang und die negativsten Fragen haben

Der Standpunkt der Natur: Die Erprobung künstlicher Intelligenz in der Medizin ist im Chaos. Was ist zu tun? Der Standpunkt der Natur: Die Erprobung künstlicher Intelligenz in der Medizin ist im Chaos. Was ist zu tun? Aug 22, 2024 pm 04:37 PM

Herausgeber | ScienceAI Basierend auf begrenzten klinischen Daten wurden Hunderte medizinischer Algorithmen genehmigt. Wissenschaftler diskutieren darüber, wer die Werkzeuge testen soll und wie dies am besten geschieht. Devin Singh wurde Zeuge, wie ein pädiatrischer Patient in der Notaufnahme einen Herzstillstand erlitt, während er lange auf eine Behandlung wartete, was ihn dazu veranlasste, den Einsatz von KI zu erforschen, um Wartezeiten zu verkürzen. Mithilfe von Triage-Daten aus den Notaufnahmen von SickKids erstellten Singh und Kollegen eine Reihe von KI-Modellen, um mögliche Diagnosen zu stellen und Tests zu empfehlen. Eine Studie zeigte, dass diese Modelle die Zahl der Arztbesuche um 22,3 % verkürzen können und die Verarbeitung der Ergebnisse pro Patient, der einen medizinischen Test benötigt, um fast drei Stunden beschleunigt. Der Erfolg von Algorithmen der künstlichen Intelligenz in der Forschung bestätigt dies jedoch nur

Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Aug 08, 2024 pm 09:22 PM

Herausgeber |KX Bis heute sind die durch die Kristallographie ermittelten Strukturdetails und Präzision, von einfachen Metallen bis hin zu großen Membranproteinen, mit keiner anderen Methode zu erreichen. Die größte Herausforderung, das sogenannte Phasenproblem, bleibt jedoch die Gewinnung von Phaseninformationen aus experimentell bestimmten Amplituden. Forscher der Universität Kopenhagen in Dänemark haben eine Deep-Learning-Methode namens PhAI entwickelt, um Kristallphasenprobleme zu lösen. Ein Deep-Learning-Neuronales Netzwerk, das mithilfe von Millionen künstlicher Kristallstrukturen und den entsprechenden synthetischen Beugungsdaten trainiert wird, kann genaue Elektronendichtekarten erstellen. Die Studie zeigt, dass diese Deep-Learning-basierte Ab-initio-Strukturlösungsmethode das Phasenproblem mit einer Auflösung von nur 2 Angström lösen kann, was nur 10 bis 20 % der bei atomarer Auflösung verfügbaren Daten im Vergleich zur herkömmlichen Ab-initio-Berechnung entspricht

Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Jul 25, 2024 am 06:42 AM

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

Identifizieren Sie automatisch die besten Moleküle und reduzieren Sie die Synthesekosten. Das MIT entwickelt ein Algorithmus-Framework für die Entscheidungsfindung im molekularen Design Identifizieren Sie automatisch die besten Moleküle und reduzieren Sie die Synthesekosten. Das MIT entwickelt ein Algorithmus-Framework für die Entscheidungsfindung im molekularen Design Jun 22, 2024 am 06:43 AM

Herausgeber |. Der Einsatz von Ziluo AI bei der Rationalisierung der Arzneimittelforschung nimmt explosionsartig zu. Durchsuchen Sie Milliarden von Kandidatenmolekülen nach solchen, die möglicherweise über Eigenschaften verfügen, die für die Entwicklung neuer Medikamente erforderlich sind. Es sind so viele Variablen zu berücksichtigen, von Materialpreisen bis hin zum Fehlerrisiko, dass es keine leichte Aufgabe ist, die Kosten für die Synthese der besten Kandidatenmoleküle abzuwägen, selbst wenn Wissenschaftler KI einsetzen. Hier entwickelten MIT-Forscher SPARROW, ein quantitatives Entscheidungsalgorithmus-Framework, um automatisch die besten molekularen Kandidaten zu identifizieren und so die Synthesekosten zu minimieren und gleichzeitig die Wahrscheinlichkeit zu maximieren, dass die Kandidaten die gewünschten Eigenschaften aufweisen. Der Algorithmus bestimmte auch die Materialien und experimentellen Schritte, die zur Synthese dieser Moleküle erforderlich sind. SPARROW berücksichtigt die Kosten für die gleichzeitige Synthese einer Charge von Molekülen, da häufig mehrere Kandidatenmoleküle verfügbar sind

SOTA Performance, eine multimodale KI-Methode zur Vorhersage der Protein-Ligand-Affinität in Xiamen, kombiniert erstmals molekulare Oberflächeninformationen SOTA Performance, eine multimodale KI-Methode zur Vorhersage der Protein-Ligand-Affinität in Xiamen, kombiniert erstmals molekulare Oberflächeninformationen Jul 17, 2024 pm 06:37 PM

Herausgeber |. KX Im Bereich der Arzneimittelforschung und -entwicklung ist die genaue und effektive Vorhersage der Bindungsaffinität von Proteinen und Liganden für das Arzneimittelscreening und die Arzneimitteloptimierung von entscheidender Bedeutung. Aktuelle Studien berücksichtigen jedoch nicht die wichtige Rolle molekularer Oberflächeninformationen bei Protein-Ligand-Wechselwirkungen. Auf dieser Grundlage schlugen Forscher der Universität Xiamen ein neuartiges Framework zur multimodalen Merkmalsextraktion (MFE) vor, das erstmals Informationen über Proteinoberfläche, 3D-Struktur und -Sequenz kombiniert und einen Kreuzaufmerksamkeitsmechanismus verwendet, um verschiedene Modalitäten zu vergleichen Ausrichtung. Experimentelle Ergebnisse zeigen, dass diese Methode bei der Vorhersage von Protein-Ligand-Bindungsaffinitäten Spitzenleistungen erbringt. Darüber hinaus belegen Ablationsstudien die Wirksamkeit und Notwendigkeit der Proteinoberflächeninformation und der multimodalen Merkmalsausrichtung innerhalb dieses Rahmens. Verwandte Forschungen beginnen mit „S

See all articles