Heim Technologie-Peripheriegeräte KI IEEE Fellow Li Xuelong: Multimodales kognitives Computing ist der Schlüssel zur Verwirklichung allgemeiner künstlicher Intelligenz

IEEE Fellow Li Xuelong: Multimodales kognitives Computing ist der Schlüssel zur Verwirklichung allgemeiner künstlicher Intelligenz

Apr 12, 2023 am 09:58 AM
机器学习 数据

In der heutigen datengesteuerten Forschung im Bereich der künstlichen Intelligenz können die durch einzelne Modaldaten bereitgestellten Informationen die Anforderungen zur Verbesserung der kognitiven Fähigkeiten von Maschinen nicht mehr erfüllen. Ähnlich wie Menschen vielfältige Sinnesinformationen wie Sehen, Hören, Riechen und Tasten nutzen, um die Welt wahrzunehmen, müssen auch Maschinen die menschliche Synästhesie simulieren, um das kognitive Niveau zu verbessern.

Gleichzeitig haben Forscher mit der Explosion multimodaler räumlich-zeitlicher Daten und der Verbesserung der Rechenleistung eine Vielzahl von Methoden vorgeschlagen, um damit umzugehen die wachsenden vielfältigen Bedürfnisse. Derzeitiges multimodales kognitives Computing beschränkt sich jedoch immer noch auf die Nachahmung menschlicher scheinbarer Fähigkeiten und verfügt über keine theoretische Grundlage auf kognitiver Ebene. Angesichts komplexerer intelligenter Aufgaben ist die Schnittstelle zwischen Kognitionswissenschaft und Informatik unumgänglich geworden.

Kürzlich veröffentlichte Professor Li Xuelong von der Northwestern Polytechnical University den Artikel „Multimodal Cognitive Computing“ in der Zeitschrift „Chinese Science: Information Science“ mit dem Thema „Vertrauen“. und Vertrauen“ „(Informationskapazität) als Grundlage, etablierte ein Informationsübertragungsmodell des kognitiven Prozesses und vertrat die Ansicht, dass „Multimodales kognitives Computing die Fähigkeit der Maschine zur Informationsextraktion verbessern kann“ theoretisch Verschiedene Aufgaben des multimodalen Cognitive Computing werden vereinheitlicht.

Li Xuelong glaubt, dass Multimodales kognitives Computing einer der Schlüssel zur Verwirklichung allgemeiner künstlicher Intelligenz ist Das Fachgebiet bietet breite Anwendungsaussichten. Dieser Artikel untersucht das einheitliche kognitive Modell von Menschen und Maschinen und liefert Inspiration zur Förderung der Forschung zum multimodalen kognitiven Computing.

IEEE Fellow Li Xuelong: Multimodales kognitives Computing ist der Schlüssel zur Verwirklichung allgemeiner künstlicher Intelligenz

Zitierformat: Xuelong Li, „Multi-Modal Cognitive Computing“, SCIENTIA SINICA Informationis, DOI: 10.1360/SSI-2022-0226

Li Xuelong ist Professor an der Northwestern Polytechnical University und konzentriert sich auf die intelligente Erfassung, Verarbeitung und Verwaltung hoher -dimensionale Datenbeziehung, die in Anwendungssystemen wie „Vicinagearth Security“ eine Rolle spielt. Er wurde 2011 zum IEEE Fellow gewählt und war der erste Festlandwissenschaftler, der in das Exekutivkomitee der International Association for Artificial Intelligence (AAAI) gewählt wurde.

AI Technology Review fasste die Kernpunkte des Artikels „Multimodal Cognitive Computing“ zusammen und führte ein ausführliches Gespräch mit Professor Li Xuelong in diese Richtung.

1 Die kognitive Fähigkeit von Maschinen liegt in der Informationsnutzung

Basierend auf der Informationstheorie schlug Li Xuelong vor: multi -Modalität Kognitives Computing kann die Informationsextraktionsfähigkeiten von Maschinen verbessern, und diese Idee wurde theoretisch modelliert (unten).

Zunächst müssen wir verstehen, wie Menschen Ereignisinformationen extrahieren.

Im Jahr 1948 schlug Shannon, der Begründer der Informationstheorie, das Konzept der „Informationsentropie“ vor, um den Grad der Unsicherheit von Zufallsvariablen darzustellen Je mehr Informationen ein Ereignis liefert, desto größer ist die Informationsmenge. Das heißt, in einer gegebenen kognitiven Aufgabe T ist die Informationsmenge, die durch das Eintreten des Ereignisses x gebracht wird, umgekehrt proportional zur Wahrscheinlichkeit des Ereignisses p(x):

# 🎜 🎜#IEEE Fellow Li Xuelong: Multimodales kognitives Computing ist der Schlüssel zur Verwirklichung allgemeiner künstlicher Intelligenz

Und Informationen werden unter Verwendung verschiedener Modalitäten als Träger übertragen. Nehmen Sie an, dass der Ereignisraum X die Wahrnehmungsmodalität (m), der Raum (s) und die Zeit (t) ist. Tensor, dann kann die Menge an Informationen, die ein Individuum aus dem Ereignisraum erhält, wie folgt definiert werden: Die Aufmerksamkeit innerhalb des räumlich-zeitlichen Bereichs ist begrenzt (wird mit 1 angenommen), sodass Menschen dies nicht ständig tun müssen, wenn sich räumlich-zeitliche Ereignisse von einer Einzelmodalität zu einer Multimodalität ändern Passen Sie ihre Aufmerksamkeit an und konzentrieren Sie sich auf unbekannte Ereignisinformationen, um die maximale Menge an Informationen zu erhalten:

IEEE Fellow Li Xuelong: Multimodales kognitives Computing ist der Schlüssel zur Verwirklichung allgemeiner künstlicher Intelligenz

Das kann man sehen Je mehr Modalitäten ein Raum-Zeit-Ereignis enthält, desto wahrscheinlicher ist es, dass ein Individuum es erhält. Je größer die Informationsmenge, desto höher das kognitive Niveau.

Kommt eine Maschine also umso näher an die kognitive Ebene des Menschen, je größer die Menge an Informationen ist, die sie erhält?

Die Antwort ist nicht so. Um die kognitiven Fähigkeiten der Maschine zu messen, drückte Li Xuelong den Prozess der Informationsextraktion der Maschine aus dem Ereignisraum wie folgt aus, basierend auf der „Konfidenz“-Theorie. Unter diesen ist D die Datenmenge des Ereignisraums x.

IEEE Fellow Li Xuelong: Multimodales kognitives Computing ist der Schlüssel zur Verwirklichung allgemeiner künstlicher Intelligenz

Die kognitive Fähigkeit einer Maschine kann also als die Fähigkeit definiert werden, aus einer Dateneinheit die maximale Informationsmenge zu gewinnen. Auf diese Weise wird das kognitive Lernen von Menschen und Maschinen zu einem Prozess vereint zur Verbesserung der Informationsnutzung.

Wie kann man also die Nutzung multimodaler Daten durch die Maschine verbessern und dadurch die Fähigkeiten des multimodalen kognitiven Rechnens verbessern?

So wie die Verbesserung der menschlichen Kognition untrennbar mit Assoziation, Argumentation, Induktion und Schlussfolgerung der realen Welt verbunden ist, müssen Sie, wenn Sie die maschinelle Kognition verbessern möchten, auch von den entsprechenden drei Aspekten ausgehen:

Assoziation, Generation, Zusammenarbeit, Dies sind auch die drei Grundaufgaben der heutigen multimodalen Analyse. 2 Maximierung der Informationsmenge mit möglichst wenigen Daten.

Multimodale Korrelation

Wie können Inhalte unterschiedlicher Modalitäten auf räumlicher, zeitlicher und semantischer Ebene korreliert werden? Dies ist das Ziel multimodaler Assoziationsaufgaben und die Voraussetzung für eine verbesserte Informationsnutzung.

Die Ausrichtung multimodaler Informationen auf räumlicher, zeitlicher und semantischer Ebene ist die Grundlage der multimodalen Wahrnehmung, die beispielsweise auf multimediale Suchtechnologien zurückgreift können wir Vokabeln eingeben, um Videoclips abzurufen.

Bildunterschrift: Diagramm der multimodalen AusrichtungIEEE Fellow Li Xuelong: Multimodales kognitives Computing ist der Schlüssel zur Verwirklichung allgemeiner künstlicher IntelligenzInspiriert durch den Mechanismus der intersensorischen Wahrnehmung des Menschen haben KI-Forscher berechenbare Modelle für das Lippenlesen und fehlende Modalitäten im Cross-Modal verwendet Wahrnehmungsaufgaben wie Generierung,

unterstützen auch weiterhin die modalübergreifende Wahrnehmung von Behindertengruppen. Zukünftig werden die Hauptanwendungsszenarien der modalübergreifenden Wahrnehmung nicht mehr auf Wahrnehmungsersatzanwendungen für Menschen mit Behinderungen beschränkt sein, sondern stärker in die intersensorische Wahrnehmung des Menschen integriert werden, um das Niveau der multisensorischen Wahrnehmung des Menschen zu verbessern.

Heutzutage nehmen digitale modale Inhalte rasant zu und auch die Anwendungsanforderungen für die modalübergreifende Abfrage werden immer umfangreicher. Dies bietet zweifellos neue Möglichkeiten und Herausforderungen für das multimodale Assoziationslernen.

Intermodale Generierung

Wenn wir die Handlung eines Romans lesen, erscheint das entsprechende Bild ganz natürlich in unserem Kopf. Dies ist ein Spiegelbild der intermodalen Denk- und Generierungsfähigkeiten des Menschen.

Ähnlich besteht beim multimodalen kognitiven Computing das Ziel der modalübergreifenden Generierungsaufgabe darin, der Maschine die Fähigkeit zu geben, unbekannte modale Entitäten zu generieren. Aus Sicht der Informationstheorie besteht der Kern dieser Aufgabe darin, die kognitiven Fähigkeiten der Maschine innerhalb multimodaler Informationskanäle zu verbessern. Es gibt zwei Möglichkeiten: Die eine besteht darin, die Informationsmenge zu erhöhen, dh die modalübergreifende Synthese, und die andere besteht darin, die Datenmenge zu reduzieren, d. h. eine modalübergreifende Konvertierung.

Die Aufgabe der modalübergreifenden Synthese besteht darin, bei der Generierung neuer modaler Entitäten vorhandene Informationen anzureichern und dadurch die Informationsmenge zu erhöhen. Nehmen wir als Beispiel die Bildgenerierung basierend auf Text: In den frühen Tagen wurde hauptsächlich die Entitätsassoziation verwendet, die oft stark auf Abrufbibliotheken beruhte. Heutzutage basiert die Bilderzeugungstechnologie hauptsächlich auf generativen kontradiktorischen Netzwerken, die realistische und qualitativ hochwertige Bilder erzeugen können. Allerdings ist die Generierung von Gesichtsbildern immer noch eine große Herausforderung, da auf der Informationsebene selbst kleine Veränderungen des Gesichtsausdrucks eine sehr große Menge an Informationen vermitteln können.

Gleichzeitig kann die Umwandlung komplexer Modalitäten in einfache Modalitäten und die Suche nach prägnanteren Ausdrücken die Datenmenge reduzieren und die Informationserfassungsfähigkeiten verbessern.

IEEE Fellow Li Xuelong: Multimodales kognitives Computing ist der Schlüssel zur Verwirklichung allgemeiner künstlicher Intelligenz

Bildunterschrift: Häufige modalübergreifende Konvertierungsaufgaben

Als Modell für die Kombination von Computer Vision und Technologien zur Verarbeitung natürlicher Sprache kann die modalübergreifende Konvertierung die Effizienz des Online-Abrufs erheblich verbessern. Geben Sie beispielsweise eine kurze Beschreibung in natürlicher Sprache für ein längeres Video oder generieren Sie Audiosignale, die sich auf eine Videoinformation beziehen.

Die beiden aktuellen gängigen generativen Modelle, VAE (Variational Autoencoder) und GAN (Generative Adversarial Network), haben jeweils ihre eigenen Stärken und Schwächen müssen sinnvoll kombiniert werden. Ein besonders wichtiger Punkt besteht darin, dass die Herausforderung multimodaler Generierungsaufgaben nicht nur in der Qualität der Generierung liegt, sondern auch in den Semantik- und Darstellungslücken zwischen verschiedenen Modalitäten. Es muss gelöst werden in der Zukunft.

Multimodale Zusammenarbeit

Im menschlichen kognitiven Mechanismus spielen Induktion und Deduktion eine wichtige Rolle. Wir können verstehen, was wir sehen, hören, riechen, berühren usw. Verwenden Sie modernste Wahrnehmung Induktion, Fusion und gemeinsame Deduktion als Grundlage für die Entscheidungsfindung durchzuführen.

In ähnlicher Weise erfordert multimodales kognitives Computing auch die Koordination von zwei oder mehr modalen Daten, die Zusammenarbeit, um komplexere multimodale Aufgaben zu erledigen, und die Verbesserung der Genauigkeit und Generalisierungsfähigkeiten. Aus Sicht der Informationstheorie besteht ihr Kern in der gegenseitigen Verschmelzung multimodaler Informationen, um den Zweck der Informationsergänzung zu erreichen, und in der Optimierung der Aufmerksamkeit.

Zuallererst besteht die Modalfusion darin, die Probleme multimodaler Datenunterschiede zu lösen, die durch Datenformat, räumlich-zeitliche Ausrichtung, Rauschinterferenz usw. verursacht werden. Derzeit umfassen die Fusionsmethoden der Zufallsregeln serielle Fusion, parallele Fusion und gewichtete Fusion, und die lernbasierten Fusionsmethoden umfassen Aufmerksamkeitsmechanismusmodell, Transferlernen und Wissensdestillation.

Zweitens ist nach Abschluss der Fusion multimodaler Informationen ein gemeinsames Lernen modaler Informationen erforderlich, um dem Modell dabei zu helfen, die Beziehung zwischen modalen Daten zu ermitteln und Hilfs- oder Komplementärverbindungen zwischen Modi herzustellen.

Durch gemeinsames Lernen kann es einerseits die modale Leistung verbessern, wie z. B. visuelle Audioführung, Audioführungsvision, Tiefenführungsvision und andere Anwendungen, andererseits können Aufgaben gelöst werden, die bisher schwierig waren in der Vergangenheit in einzelnen Modalitäten erreicht werden, wie z. B. komplexe Emotionen Computing, Audio-Matching-Gesichtsmodellierung, audiovisuell geführte Musikgenerierung usw. sind allesamt Entwicklungsrichtungen des multimodalen kognitiven Computings in der Zukunft.

3 Chancen und Herausforderungen

In den letzten Jahren hat die Deep-Learning-Technologie die theoretische und technische Entwicklung des multimodalen kognitiven Computings stark vorangetrieben. Heutzutage werden die Anwendungsanforderungen jedoch immer vielfältiger und die Geschwindigkeit der Dateniteration beschleunigt sich, was neue Herausforderungen und viele Möglichkeiten für das multimodale kognitive Computing mit sich bringt.

Wir können vier Ebenen der Verbesserung der kognitiven Fähigkeiten von Maschinen betrachten:

Auf der Datenebene trennt die traditionelle multimodale Forschung die Datenerfassung und -berechnung in zwei unabhängige Prozesse. Auf diese Weise bestehen Nachteile. Die menschliche Welt besteht aus kontinuierlichen analogen Signalen, während Maschinen diskrete digitale Signale verarbeiten. Der Umwandlungsprozess führt zwangsläufig zu Informationsverzerrungen und -verlusten.

In dieser Hinsicht glaubt Li erheblich verbessert werden.

Auf der Informationsebene liegt der Schlüssel zum kognitiven Computing in der

Verarbeitung von Semantiken auf hoher Ebene in Informationen, wie Positionsbeziehungen beim Sehen, dem Stil von Bildern, der Emotion von Musik usw. Derzeit beschränken sich multimodale Aufgaben auf einfache Ziele und Interaktionen in Szenarien und können keine tiefe logische Semantik oder subjektive Semantik verstehen. Beispielsweise kann eine Maschine das Bild einer blühenden Blume auf einer Wiese erzeugen, aber sie kann den gesunden Menschenverstand nicht verstehen, dass Blumen im Winter verwelken.

Der Bau einer Kommunikationsbrücke zwischen komplexer Logik und sensorischen semantischen Informationen in verschiedenen Modalitäten und die Einrichtung eines einzigartigen maschinellen Messsystems ist also ein wichtiger Trend im multimodalen kognitiven Computing der Zukunft.

Auf der Ebene des Fusionsmechanismus stellt die Durchführung einer qualitativ hochwertigen Optimierung multimodaler Modelle, die aus heterogenen Komponenten bestehen, derzeit eine Schwierigkeit dar. Die meisten aktuellen multimodalen kognitiven Berechnungen optimieren das Modell unter einem einheitlichen Lernziel. Bei dieser Optimierungsstrategie fehlen gezielte Anpassungen an den heterogenen Komponenten innerhalb des Modells, was zu großen Problemen bei der Unteroptimierung führt kann aus mehreren Aspekten wie multimodalem maschinellem Lernen und optimierungstheoretischen Methoden angegangen werden.

Auf der Aufgabenebene variiert die kognitive Lernmethode der Maschine je nach Aufgabe. Wir müssen eine Lernstrategie für das Aufgabenfeedback entwerfen, um die Fähigkeit zur Lösung verschiedener verwandter Aufgaben zu verbessern.

Darüber hinaus können wir angesichts der Unzulänglichkeiten der aktuellen „Zuschauerstil“-Lernmethode des maschinellen Lernens, die Welt aus Bildern, Texten und anderen Daten zu verstehen, aus den Forschungsergebnissen der Kognitionswissenschaft lernen, wie z

Verkörperte KI Es ist eine mögliche Lösung: Intelligente Agenten müssen multimodal mit der Umgebung interagieren, um sich kontinuierlich weiterzuentwickeln und die Fähigkeit zur Lösung komplexer Aufgaben zu entwickeln.

4

Gespräch mit Li Welche Vorteile und Hindernisse bringt das Wachstum multimodaler Daten für die Modellleistung mit sich?

Li Xuelong:Vielen Dank für Ihre Frage. Der Grund, warum wir multimodalen Daten Aufmerksamkeit schenken und sie untersuchen, liegt darin, dass künstliche Intelligenz im Wesentlichen datenabhängig ist. Die Informationen, die monomodale Daten liefern können, sind immer sehr begrenzt, während multimodale Daten mehrere hierarchische, multiperspektivische Informationen liefern können Da die objektive physische Welt andererseits multimodal ist, kann die Erforschung vieler praktischer Probleme nicht von multimodalen Daten getrennt werden, z. B. die Suche nach Bildern anhand von Text, die Identifizierung von Objekten durch das Hören von Musik usw.

Wir analysieren multimodale Probleme aus der Perspektive des kognitiven Rechnens, ausgehend von der Essenz der künstlichen Intelligenz. Durch den Aufbau eines multimodalen Analysesystems, das menschliche kognitive Muster simulieren kann, hoffen wir, dass Maschinen ihre Umgebung intelligent wahrnehmen können. Komplexe und verschachtelte multimodale Informationen bringen auch viel Rauschen und Redundanz mit sich, was den Lerndruck des Modells erhöht und in einigen Fällen die Leistung multimodaler Daten schlechter macht als die einer einzelnen Modalität, was zu Problemen führt ein Problem für den Modellentwurf und die Optimierung stellt größere Herausforderungen dar.

AI Technology Review: Welche Ähnlichkeiten bestehen aus informationstheoretischer Sicht zwischen menschlichem kognitivem Lernen und maschinellem kognitivem Lernen? Welche leitende Bedeutung hat die Erforschung menschlicher kognitiver Mechanismen für das multimodale kognitive Computing? Mit welchen Schwierigkeiten wird das multimodale kognitive Computing konfrontiert sein, ohne die menschliche Kognition zu verstehen?

Li

Menschen erhalten von Geburt an eine große Menge externer Informationen und bauen nach und nach ein Selbsterkennungssystem durch Wahrnehmung, Gedächtnis, Argumentation usw. auf, während die Lernfähigkeit von Maschinen durch das Training großer Datenmengen erreicht wird. hauptsächlich um Wahrnehmung und menschliches Wissen zu finden. Nach Platons Standpunkt ist das, was Maschinen lernen, noch kein Wissen. Wir haben in dem Artikel die Theorie der „Informationskapazität“ zitiert und versucht, ausgehend von der Fähigkeit, Informationen zu extrahieren, eine kognitive Verbindung zwischen Menschen und Maschinen herzustellen.

Menschen übermitteln multimodale Informationen über mehrere Sinneskanäle wie Sehen, Hören, Riechen, Schmecken, Berühren usw. an das Gehirn, was zu einer gemeinsamen Stimulation der Großhirnrinde führt. Die psychologische Forschung hat herausgefunden, dass die kombinierte Wirkung mehrerer Sinne kognitive Lernmodelle wie „multisensorische Integration“, „Synästhesie“, „Wahrnehmungsreorganisation“ und „Wahrnehmungsgedächtnis“ hervorbringen kann Inspiration, wie die Ableitung typischer multimodaler Analyseaufgaben wie multimodale Zusammenarbeit, multimodale Assoziation und modalübergreifende Generierung. Es hat auch zu lokalem Teilen, Lang- und Kurzzeitgedächtnis und Aufmerksamkeitsmechanismen geführt . und andere typische maschinelle Analysemechanismen.

Derzeit ist der menschliche kognitive Mechanismus tatsächlich nicht klar. Ohne die Anleitung menschlicher kognitiver Forschung tappt das multimodale kognitive Computing in die Falle der Datenanpassung Wir können auch nicht beurteilen, ob das Modell das Wissen gelernt hat, das Menschen benötigen Derzeit leidet ein umstrittener Punkt.

KI-Technologie Kommentar: Aus der Perspektive der Informationstheorie haben Sie vorgeschlagen, dass „multimodales kognitives Computing die Informationsextraktionsfähigkeiten der Maschine verbessern kann“ Welche Beweise gibt es, um diesen Standpunkt bei bestimmten multimodalen Cognitive-Computing-Aufgaben zu stützen?

Li Xuelong: Diese Frage kann aus zwei Aspekten beantwortet werden. Erstens können multimodale Informationen die Leistung einer einzelnen Modalität bei verschiedenen Aufgaben verbessern. Eine umfangreiche Arbeit hat bestätigt, dass durch das Hinzufügen von Toninformationen die Leistung von Computer-Vision-Algorithmen, wie z. B. Zielerkennung, Szenenverständnis usw., erheblich verbessert wird. Wir haben auch eine Umweltkamera gebaut und herausgefunden, dass durch die Fusion multimodaler Informationen von Sensoren wie Temperatur und Luftfeuchtigkeit die Bildqualität der Kamera verbessert werden kann.

Zweitens bietet die gemeinsame Modellierung multimodaler Informationen die Möglichkeit, komplexere intelligente Aufgaben zu erfüllen. Beispielsweise haben wir die Arbeit „Listen to the Image“ durchgeführt Durch die Kodierung visueller Informationen in Ton können blinde Menschen die Szene vor sich „sehen“. Dies beweist auch, dass multimodales kognitives Computing Maschinen dabei hilft, mehr Informationen zu extrahieren.

AI Technology Review: Wie ist die Wechselwirkung zwischen Ausrichtung, Wahrnehmung und Abruf bei multimodalen Assoziationsaufgaben?#🎜🎜 #

Li Xuelong: Die Beziehung zwischen diesen drei ist relativ komplizierter Natur. In diesem Artikel gebe ich nur an einige vorläufige Meinungen von mir. Die Voraussetzung für die Korrelation unterschiedlicher Modalitäten ist, dass sie gemeinsam die gleiche/ähnliche objektive Existenz beschreiben. Diese Korrelation ist jedoch schwierig zu bestimmen, wenn externe Informationen kompliziert sind oder miteinander in Konflikt geraten dazugehörige Korrespondenz. Dann wird auf der Grundlage der Ausrichtung die Wahrnehmung von einer Modalität zu einer anderen Modalität erreicht.

Wenn wir nur die Lippenbewegungen einer Person sehen, scheinen wir zu hören, was sie sagt. Auch dieses Phänomen beruht auf der Korrelation und Ausrichtung visueller Elemente (Viseme) und Phoneme (Phoneme). Im wirklichen Leben haben wir diese modalübergreifende Wahrnehmung weiter auf Anwendungen wie das Abrufen, das Abrufen von Bildern oder Videoinhalten von Produkten durch Text und die Realisierung berechenbarer multimodaler Korrelationsanwendungen angewendet.

AI Technology Review: Das kürzlich sehr beliebte DALL-E und andere Modelle sind ein Beispiel für modalübergreifende Generierungsaufgaben Wird im Text verwendet. Es eignet sich gut für die Generierung von Bildaufgaben, es gibt jedoch immer noch große Einschränkungen hinsichtlich der semantischen Relevanz und Interpretierbarkeit der generierten Bilder. Wie sollte dieses Problem Ihrer Meinung nach gelöst werden? Was ist die Schwierigkeit?

李学龙: Das Generieren von Bildern aus Text ist eine „imaginäre“ Aufgabe, die Menschen sehen oder hören Satz, verstehen Sie die darin enthaltenen semantischen Informationen und verlassen Sie sich dann auf das Gehirngedächtnis, um sich die am besten geeignete Szene vorzustellen, um einen „Bildsinn“ zu erzeugen. Derzeit befindet sich DALL-E noch in der Phase, in der statistisches Lernen für die Datenanpassung verwendet wird, um große Datensätze zusammenzufassen und zusammenzufassen, was Deep Learning derzeit am besten kann.

Wenn Sie jedoch wirklich die „Phantasie“ der Menschen lernen möchten, müssen Sie auch das menschliche kognitive Modell berücksichtigen, um ein „hohes Maß“ an Intelligenz zu erreichen. Dies erfordert die übergreifende Integration von Neurowissenschaften, Psychologie und Informationswissenschaft ist sowohl eine Herausforderung als auch eine Chance. In den letzten Jahren haben auch viele Teams Spitzenarbeit geleistet. Durch die übergreifende Integration mehrerer Disziplinen ist die Erforschung der Berechenbarkeitstheorie menschlicher kognitiver Modelle auch eine der Arbeitsrichtungen unseres Teams. Wir glauben, dass dies auch zu neuen Durchbrüchen bei der Intelligenz auf „hohem Niveau“ führen wird.

AI Technology Review: Wie lassen Sie sich in Ihrer Forschungsarbeit von der Kognitionswissenschaft inspirieren? Welche kognitionswissenschaftliche Forschung interessiert Sie besonders?

Li Xuelong: Fragen Sie ihn, wie klar er ist? Kommen Sie, um lebendiges Wasser aus einer Quelle zu holen. Ich beobachte und denke oft über einige interessante Phänomene aus meinem täglichen Leben nach.

Als ich vor zwanzig Jahren auf der Webseite auf die Musik klickte, hatte ich das Gefühl, dort zu sein Mit der Zeit begann ich, aus kognitiver Sicht über die Beziehung zwischen Hören und Sehen nachzudenken. Während meines Studiums der Kognitionswissenschaft lernte ich das Phänomen der „Synästhesie“ kennen. In Kombination mit meiner eigenen wissenschaftlichen Forschungsrichtung verfasste ich einen Artikel mit dem Titel „Visuelle Musik und musikalisches Sehen“, der auch der erste war. „Synästhesie“ wurde in den Informationsbereich eingeführt.

Später eröffnete ich den ersten Cognitive-Computing-Kurs im Informationsbereich und gründete auch das Cognitive Computing Technical Committee des IEEE SMC, um zu versuchen, die Grenzen zwischen Kognitionswissenschaft und Wissenschaft zu durchbrechen Die Grenzen der Wissenschaft definierten damals auch das kognitive Rechnen, so die aktuelle Beschreibung auf der Homepage des Fachausschusses. Im Jahr 2002 habe ich die Fähigkeit vorgeschlagen, Informationen pro Datenmenge bereitzustellen, was das Konzept der „Informationskapazität“ ist, und habe versucht, die kognitiven Fähigkeiten von Maschinen zu messen. Es ist mir eine Ehre, es im Jahr 2020 mit dem Titel „Multi“ vorzustellen -modal“ „Cognitive Computing“ gewann den Tencent Scientific Exploration Award.

Bis jetzt habe ich weiterhin auf die neuesten Entwicklungen in der Synästhesie und Wahrnehmung geachtet. In der Natur gibt es viele Modi, die über die fünf menschlichen Sinne hinausgehen, und es gibt sogar potenzielle Modi, die noch nicht klar sind. Beispielsweise kann die Quantenverschränkung zeigen, dass der dreidimensionale Raum, in dem wir leben, nur eine Projektion eines hochdimensionalen Raums ist Wenn dies tatsächlich der Fall ist, sind auch unsere Erkennungsmethoden begrenzt. Vielleicht können diese potenziellen Modi genutzt werden, um es Maschinen zu ermöglichen, sich der menschlichen Wahrnehmung zu nähern oder sie sogar zu übertreffen.

KI-Technologie Kommentar: Zur Frage, wie menschliche Kognition besser mit künstlicher Intelligenz kombiniert werden kann, haben Sie vorgeschlagen, eine „Meta- „Modal“ (Meta-Modal) ist das zentrale modale Interaktionsnetzwerk. Können Sie diesen Standpunkt vorstellen? Was ist seine theoretische Grundlage?

Li Xuelong: Metamodalität selbst ist ein Konzept, das aus dem Bereich der kognitiven Neurowissenschaften stammt Das Gehirn verfügt über eine solche Organisation, dass es bei der Ausführung einer bestimmten Funktion oder Darstellungsoperation keine spezifischen Annahmen über die sensorische Kategorie der Eingabeinformationen trifft, aber dennoch eine gute Ausführungsleistung erzielen kann.

Metamodalität ist im Wesentlichen die Integration von Phänomenen und Mechanismen durch Kognitionswissenschaftler wie modalübergreifende Wahrnehmung und neuronale Plastizität . Es inspiriert uns auch dazu, effiziente Lernarchitekturen und -methoden zwischen verschiedenen Modalitäten zu entwickeln, um allgemeinere modale Darstellungsmöglichkeiten zu erreichen.

AI Technology Review: Was sind die Hauptanwendungen des multimodalen kognitiven Computings in der realen Welt? Nennen Sie Beispiele.

Li Xuelong: Multimodales kognitives Computing ist eine Forschung, die sehr nah an praktischen Anwendungen ist. Unser Team hat bereits an der modalübergreifenden Wahrnehmung gearbeitet, die visuelle Informationen in Tonsignale umwandelt und den primären visuellen Kortex der Großhirnrinde stimuliert. Sie wurde bei der Unterstützung behinderter Menschen eingesetzt, um blinden Menschen dabei zu helfen, die Außenwelt zu sehen. Im täglichen Leben nutzen wir häufig multimodale kognitive Computertechnologie. Beispielsweise kombinieren Kurzvideoplattformen Sprach-, Bild- und Text-Tags, um Videos zu empfehlen, die für Benutzer von Interesse sein könnten.

Im weiteren Sinne hat multimodales kognitives Computing auch eine breite Palette von Anwendungen in der lokalen Sicherheit, die im Artikel erwähnt werden, wie zum Beispiel intelligente Such- und Rettungsdienste, Drohnen und Bodenroboter Verschiedene Daten wie Ton, Bilder, Temperatur und Luftfeuchtigkeit müssen gesammelt und aus kognitiver Sicht analysiert werden, und je nach Situation vor Ort können unterschiedliche Such- und Rettungsstrategien umgesetzt werden. Es gibt viele ähnliche Anwendungen, wie z. B. intelligente Inspektion, domänenübergreifende Fernerkundung usw.

KI-Technologie Kommentar: Sie haben im Artikel einmal erwähnt, dass aktuelle multimodale Aufgaben auf einfache Ziele und Interaktionen in Szenarien beschränkt sind Da es sich um eine tiefere logische Semantik oder eine subjektive Semantik handelt, wird es schwierig sein. Ist dies also eine Chance für die Renaissance der symbolischen künstlichen Intelligenz? Welche anderen praktikablen Lösungen stehen zur Verfügung, um die Fähigkeit von Maschinen zu verbessern, semantische Informationen auf hoher Ebene zu verarbeiten?

Li Xuelong:Russell glaubt, dass der größte Wert des Wissens in seiner Unsicherheit liegt. Das Erlernen von Wissen erfordert Wärme und die Fähigkeit, mit der Außenwelt zu interagieren und Feedback zu geben. Die meiste Forschung, die wir derzeit sehen, ist monomodal, passiv und orientiert sich an gegebenen Daten, was den Forschungsbedarf einiger einfacher Ziele und Szenarien erfüllen kann. Für eine tiefere logische Semantik oder subjektive Semantik ist es jedoch notwendig, Situationen vollständig zu erforschen und auszugraben, die in Raum und Zeit mehrdimensional sind, durch mehr Modalitäten unterstützt werden und zu aktiver Interaktion fähig sind.

Um dieses Ziel zu erreichen, könnten Forschungsmethoden und -methoden stärker auf die Kognitionswissenschaft zurückgreifen. Beispielsweise haben einige Forscher die „verkörperte Erfahrung“-Hypothese in der Kognitionswissenschaft in den Bereich der künstlichen Intelligenz eingeführt, um zu erforschen, wie Maschinen neues Lernen ermöglichen Im Kontext aktiver Interaktion mit der Außenwelt und multimodaler Informationseingabe wurden Probleme und Aufgaben entwickelt und teilweise erfreuliche Ergebnisse erzielt. Dies zeigt auch die Rolle und positive Bedeutung des multimodalen Cognitive Computing bei der Verbindung von künstlicher Intelligenz und Kognitionswissenschaft.

KI-Technologie Kommentar: Intelligente Optoelektronik ist auch eine Ihrer Forschungsrichtungen. Sie haben in Ihrem Artikel erwähnt, dass intelligente Optoelektronik explorative Lösungen für die Digitalisierung von Informationen bringen kann. Was kann intelligente Optoelektronik im Hinblick auf die Erfassung und Berechnung multimodaler Daten leisten?

Li Xuelong: Lichtsignale und elektrische Signale sind die wichtigsten Möglichkeiten für Menschen, die Welt zu verstehen. Darüber hinaus stammen visuelle Informationen hauptsächlich aus Licht . Die fünf menschlichen Sinne Sehen, Hören, Riechen, Schmecken und Berühren wandeln außerdem verschiedene Empfindungen wie Licht, Schallwellen, Druck, Geruch und Stimulation in elektrische Signale für eine anspruchsvollere Wahrnehmung um. Daher ist Photoelektrizität die wichtigste Informationsquelle für den Menschen, um die Welt wahrzunehmen. In den letzten Jahren haben wir mit Hilfe verschiedener fortschrittlicher optoelektronischer Geräte neben sichtbarem Licht und hörbaren Schallwellen noch mehr Informationen erfasst.

Man kann sagen, dass fotoelektrische Geräte im Vordergrund der menschlichen Wahrnehmung der Welt stehen. Die Forschung im Bereich der intelligenten Optoelektronik, an der wir beteiligt sind, konzentriert sich auf die Erforschung der Integration fotoelektrischer Sensorhardware und intelligenter Algorithmen, die Einführung physikalischer Prioritäten in den Algorithmusentwurfsprozess, die Verwendung von Algorithmusergebnissen als Leitfaden für den Hardwareentwurf und die Bildung einer gegenseitigen Rückmeldung zwischen „Erfassen“ und „Berechnung“. ". Erweitern Sie die Grenzen der Wahrnehmung und erreichen Sie das Ziel, die multimodale Wahrnehmung des Menschen zu imitieren oder sogar zu übertreffen.

AI Technology Review: Welche Forschungsarbeiten betreiben Sie derzeit in Richtung multimodales kognitives Computing? Was sind Ihre zukünftigen Forschungsziele?

Li Xuelong:

Danke für die Frage. Mein aktueller Schwerpunkt liegt auf multimodalem kognitivem Computing bei Vicinagearth Security. Unter Sicherheit im herkömmlichen Sinne versteht man meist die städtische Sicherheit. Gegenwärtig hat sich der menschliche Aktivitätsraum auf niedrige Höhen, am Boden und unter Wasser ausgeweitet. Wir müssen ein dreidimensionales Sicherheits- und Verteidigungssystem im bodennahen Raum einrichten, um eine Reihe praktischer Aufgaben wie domänenübergreifende Erkennung und autonome unbemannte Systeme auszuführen Systeme. Ein großes Problem für die Sicherheit vor Ort besteht darin, eine große Menge multimodaler Daten, die von verschiedenen Sensoren generiert werden, intelligent zu verarbeiten, beispielsweise um es Maschinen zu ermöglichen, die gleichzeitigen Beobachtungen von Drohnen und Bodenüberwachungsgeräten aus menschlicher Sicht zu verstehen . Dabei handelt es sich um multimodales kognitives Computing und die Kombination von multimodalem kognitivem Computing und intelligenter Optoelektronik.

In Zukunft werde ich weiterhin die Anwendung multimodaler kognitiver Computer in der lokalen Sicherheit untersuchen, in der Hoffnung, die Verbindung zwischen Datenerfassung und -verarbeitung zu öffnen und „Vorwärtserregungsrauschen“ (Pi-) sinnvoll zu nutzen. Lärm) , richten Sie ein Sicherheitssystem vor Ort ein, das durch multimodales kognitives Computing und intelligente Optoelektronik unterstützt wird.

Das obige ist der detaillierte Inhalt vonIEEE Fellow Li Xuelong: Multimodales kognitives Computing ist der Schlüssel zur Verwirklichung allgemeiner künstlicher Intelligenz. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Repo: Wie man Teamkollegen wiederbelebt
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

In diesem Artikel erfahren Sie mehr über SHAP: Modellerklärung für maschinelles Lernen In diesem Artikel erfahren Sie mehr über SHAP: Modellerklärung für maschinelles Lernen Jun 01, 2024 am 10:58 AM

In den Bereichen maschinelles Lernen und Datenwissenschaft stand die Interpretierbarkeit von Modellen schon immer im Fokus von Forschern und Praktikern. Mit der weit verbreiteten Anwendung komplexer Modelle wie Deep Learning und Ensemble-Methoden ist das Verständnis des Entscheidungsprozesses des Modells besonders wichtig geworden. Explainable AI|XAI trägt dazu bei, Vertrauen in maschinelle Lernmodelle aufzubauen, indem es die Transparenz des Modells erhöht. Eine Verbesserung der Modelltransparenz kann durch Methoden wie den weit verbreiteten Einsatz mehrerer komplexer Modelle sowie der Entscheidungsprozesse zur Erläuterung der Modelle erreicht werden. Zu diesen Methoden gehören die Analyse der Merkmalsbedeutung, die Schätzung des Modellvorhersageintervalls, lokale Interpretierbarkeitsalgorithmen usw. Die Merkmalswichtigkeitsanalyse kann den Entscheidungsprozess des Modells erklären, indem sie den Grad des Einflusses des Modells auf die Eingabemerkmale bewertet. Schätzung des Modellvorhersageintervalls

Identifizieren Sie Über- und Unteranpassung anhand von Lernkurven Identifizieren Sie Über- und Unteranpassung anhand von Lernkurven Apr 29, 2024 pm 06:50 PM

In diesem Artikel wird vorgestellt, wie Überanpassung und Unteranpassung in Modellen für maschinelles Lernen mithilfe von Lernkurven effektiv identifiziert werden können. Unteranpassung und Überanpassung 1. Überanpassung Wenn ein Modell mit den Daten übertrainiert ist, sodass es daraus Rauschen lernt, spricht man von einer Überanpassung des Modells. Ein überangepasstes Modell lernt jedes Beispiel so perfekt, dass es ein unsichtbares/neues Beispiel falsch klassifiziert. Für ein überangepasstes Modell erhalten wir einen perfekten/nahezu perfekten Trainingssatzwert und einen schrecklichen Validierungssatz-/Testwert. Leicht geändert: „Ursache der Überanpassung: Verwenden Sie ein komplexes Modell, um ein einfaches Problem zu lösen und Rauschen aus den Daten zu extrahieren. Weil ein kleiner Datensatz als Trainingssatz möglicherweise nicht die korrekte Darstellung aller Daten darstellt. 2. Unteranpassung Heru.“

Die Vitalität der Superintelligenz erwacht! Aber mit der Einführung der sich selbst aktualisierenden KI müssen sich Mütter keine Sorgen mehr über Datenengpässe machen Die Vitalität der Superintelligenz erwacht! Aber mit der Einführung der sich selbst aktualisierenden KI müssen sich Mütter keine Sorgen mehr über Datenengpässe machen Apr 29, 2024 pm 06:55 PM

Ich weine zu Tode. Die Daten im Internet reichen überhaupt nicht aus. Das Trainingsmodell sieht aus wie „Die Tribute von Panem“, und KI-Forscher auf der ganzen Welt machen sich Gedanken darüber, wie sie diese datenhungrigen Esser ernähren sollen. Dieses Problem tritt insbesondere bei multimodalen Aufgaben auf. Zu einer Zeit, als sie ratlos waren, nutzte ein Start-up-Team der Abteilung der Renmin-Universität von China sein eigenes neues Modell, um als erstes in China einen „modellgenerierten Datenfeed selbst“ in die Realität umzusetzen. Darüber hinaus handelt es sich um einen zweigleisigen Ansatz auf der Verständnisseite und der Generierungsseite. Beide Seiten können hochwertige, multimodale neue Daten generieren und Datenrückmeldungen an das Modell selbst liefern. Was ist ein Modell? Awaker 1.0, ein großes multimodales Modell, das gerade im Zhongguancun-Forum erschienen ist. Wer ist das Team? Sophon-Motor. Gegründet von Gao Yizhao, einem Doktoranden an der Hillhouse School of Artificial Intelligence der Renmin University.

Langsame Internetgeschwindigkeiten für Mobilfunkdaten auf dem iPhone: Korrekturen Langsame Internetgeschwindigkeiten für Mobilfunkdaten auf dem iPhone: Korrekturen May 03, 2024 pm 09:01 PM

Stehen Sie vor einer Verzögerung oder einer langsamen mobilen Datenverbindung auf dem iPhone? Normalerweise hängt die Stärke des Mobilfunk-Internets auf Ihrem Telefon von mehreren Faktoren ab, wie z. B. der Region, dem Mobilfunknetztyp, dem Roaming-Typ usw. Es gibt einige Dinge, die Sie tun können, um eine schnellere und zuverlässigere Mobilfunk-Internetverbindung zu erhalten. Fix 1 – Neustart des iPhone erzwingen Manchmal werden durch einen erzwungenen Neustart Ihres Geräts viele Dinge zurückgesetzt, einschließlich der Mobilfunkverbindung. Schritt 1 – Drücken Sie einfach einmal die Lauter-Taste und lassen Sie sie los. Drücken Sie anschließend die Leiser-Taste und lassen Sie sie wieder los. Schritt 2 – Der nächste Teil des Prozesses besteht darin, die Taste auf der rechten Seite gedrückt zu halten. Lassen Sie das iPhone den Neustart abschließen. Aktivieren Sie Mobilfunkdaten und überprüfen Sie die Netzwerkgeschwindigkeit. Überprüfen Sie es erneut. Fix 2 – Datenmodus ändern 5G bietet zwar bessere Netzwerkgeschwindigkeiten, funktioniert jedoch besser, wenn das Signal schwächer ist

Die U.S. Air Force präsentiert ihren ersten KI-Kampfjet mit großem Aufsehen! Der Minister führte die Testfahrt persönlich durch, ohne in den gesamten Prozess einzugreifen, und 100.000 Codezeilen wurden 21 Mal getestet. Die U.S. Air Force präsentiert ihren ersten KI-Kampfjet mit großem Aufsehen! Der Minister führte die Testfahrt persönlich durch, ohne in den gesamten Prozess einzugreifen, und 100.000 Codezeilen wurden 21 Mal getestet. May 07, 2024 pm 05:00 PM

Kürzlich wurde die Militärwelt von der Nachricht überwältigt: US-Militärkampfflugzeuge können jetzt mithilfe von KI vollautomatische Luftkämpfe absolvieren. Ja, erst kürzlich wurde der KI-Kampfjet des US-Militärs zum ersten Mal der Öffentlichkeit zugänglich gemacht und sein Geheimnis gelüftet. Der vollständige Name dieses Jägers lautet „Variable Stability Simulator Test Aircraft“ (VISTA). Er wurde vom Minister der US-Luftwaffe persönlich geflogen, um einen Eins-gegen-eins-Luftkampf zu simulieren. Am 2. Mai startete US-Luftwaffenminister Frank Kendall mit einer X-62AVISTA auf der Edwards Air Force Base. Beachten Sie, dass während des einstündigen Fluges alle Flugaktionen autonom von der KI durchgeführt wurden! Kendall sagte: „In den letzten Jahrzehnten haben wir über das unbegrenzte Potenzial des autonomen Luft-Luft-Kampfes nachgedacht, aber es schien immer unerreichbar.“ Nun jedoch,

Implementierung von Algorithmen für maschinelles Lernen in C++: Häufige Herausforderungen und Lösungen Implementierung von Algorithmen für maschinelles Lernen in C++: Häufige Herausforderungen und Lösungen Jun 03, 2024 pm 01:25 PM

Zu den häufigsten Herausforderungen, mit denen Algorithmen für maschinelles Lernen in C++ konfrontiert sind, gehören Speicherverwaltung, Multithreading, Leistungsoptimierung und Wartbarkeit. Zu den Lösungen gehören die Verwendung intelligenter Zeiger, moderner Threading-Bibliotheken, SIMD-Anweisungen und Bibliotheken von Drittanbietern sowie die Einhaltung von Codierungsstilrichtlinien und die Verwendung von Automatisierungstools. Praktische Fälle zeigen, wie man die Eigen-Bibliothek nutzt, um lineare Regressionsalgorithmen zu implementieren, den Speicher effektiv zu verwalten und leistungsstarke Matrixoperationen zu nutzen.

Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! May 06, 2024 pm 04:13 PM

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

Erklärbare KI: Erklären komplexer KI/ML-Modelle Erklärbare KI: Erklären komplexer KI/ML-Modelle Jun 03, 2024 pm 10:08 PM

Übersetzer |. Rezensiert von Li Rui |. Chonglou Modelle für künstliche Intelligenz (KI) und maschinelles Lernen (ML) werden heutzutage immer komplexer, und die von diesen Modellen erzeugten Ergebnisse sind eine Blackbox, die den Stakeholdern nicht erklärt werden kann. Explainable AI (XAI) zielt darauf ab, dieses Problem zu lösen, indem es Stakeholdern ermöglicht, die Funktionsweise dieser Modelle zu verstehen, sicherzustellen, dass sie verstehen, wie diese Modelle tatsächlich Entscheidungen treffen, und Transparenz in KI-Systemen, Vertrauen und Verantwortlichkeit zur Lösung dieses Problems gewährleistet. In diesem Artikel werden verschiedene Techniken der erklärbaren künstlichen Intelligenz (XAI) untersucht, um ihre zugrunde liegenden Prinzipien zu veranschaulichen. Mehrere Gründe, warum erklärbare KI von entscheidender Bedeutung ist. Vertrauen und Transparenz: Damit KI-Systeme allgemein akzeptiert und vertrauenswürdig sind, müssen Benutzer verstehen, wie Entscheidungen getroffen werden

See all articles