Früher galt die Wiederherstellung des Sehvermögens blinder Menschen oft als medizinisches „Wunder“.
Mit dem explosiven Durchbruch der multimodalen intelligenten Technologie, die durch „maschinelles Sehen + natürliches Sprachverständnis“ repräsentiert wird, hat KI neue Möglichkeiten eröffnet, um Blinden zu helfen, die durch KI bereitgestellte Wahrnehmung zu nutzen und Interaktionsfähigkeiten zu verbessern und die Welt noch einmal mit anderen Augen zu sehen.
Im Allgemeinen erfolgt die Wahrnehmung der Außenwelt für sehbehinderte Patienten, die nicht sehen können, über andere Sinne als das Sehvermögen, z Hören, Riechen und Tasten, diese anderen Informationsmodalitäten, helfen Sehbehinderten, die durch Sehstörungen verursachten Probleme bis zu einem gewissen Grad zu lindern. Wissenschaftliche Untersuchungen zeigen jedoch, dass das Sehvermögen zwischen 70 und 80 % der externen Informationen, die der Mensch erhält, ausmacht.
Daher ist der Aufbau eines auf KI basierenden Bildverarbeitungssystems, das sehbehinderten Patienten eine visuelle Wahrnehmung und ein visuelles Verständnis der äußeren Umgebung ermöglicht, zweifellos die direkteste und effektivste Lösung.
Im Bereich der visuellen Wahrnehmung haben aktuelle einmodale KI-Modelle bei Bilderkennungsaufgaben das menschliche Niveau übertroffen. Allerdings kann diese Art von Technologie derzeit nur Erkennung und Verständnis innerhalb der visuellen Modalität erreichen und ist schwierig zu bewältigen Andere Sinnesinformationen bedeuten vereinfacht gesagt, dass wir nur wahrnehmen, aber nicht verstehen können.
Zu diesem Zweck hat David Marr, einer der Begründer des Computational Vision, in dem Buch „Vision“ das Kernthema der visuellen Verständnisforschung angesprochen und war der Ansicht, dass das visuelle System einen zweidimensionalen oder dreidimensionalen Ausdruck aufbauen sollte der Umgebung und in der Lage sein, mit ihr zu interagieren. Interaktion bedeutet hier Lernen, Verstehen und Denken.
Es ist ersichtlich, dass es sich bei hervorragender KI-Technologie zur Blindenhilfe tatsächlich um ein systematisches Projekt handelt, das intelligente Sensorik, intelligente Argumentation für Benutzerabsichten und intelligente Informationspräsentation umfasst. Nur so kann eine interaktive Schnittstelle ohne Informationsbarrieren aufgebaut werden.
Um die Generalisierungsfähigkeit von KI-Modellen zu verbessern und Maschinen modalübergreifende Bildanalyse- und Verständnisfunktionen zu ermöglichen, entstanden multimodale Algorithmen, die durch „maschinelles Sehen + natürliches Sprachverständnis“ dargestellt werden, und entwickelten sich schnell.
Dieses Algorithmusmodell für mehrere informationsmodale Interaktionen kann die Wahrnehmungs-, Verständnis- und Interaktionsfähigkeiten der KI erheblich verbessern. Sobald es ausgereift und im Bereich der KI-Blindheitshilfe angewendet wird, wird es Hunderten Millionen blinden Menschen zugute kommen können. „Die Welt sehen“.
Laut WHO-Statistiken sind mindestens 2,2 Milliarden Menschen auf der Welt sehbehindert oder blind, und mein Land ist das Land mit den meisten blinden Menschen auf der Welt, was 18–20 % aller Blinden ausmacht Die Zahl der neuen Blinden auf der Welt beträgt jedes Jahr bis zu 45.000.
Die Technologie zur Wahrnehmung der Ich-Perspektive ist für die KI zur Unterstützung von Blinden von großer Bedeutung. Es ist nicht erforderlich, dass blinde Menschen als Teilnehmer auftreten, um intelligente Geräte zu bedienen. Stattdessen kann es von der realen Perspektive der blinden Person ausgehen und Wissenschaftlern dabei helfen, Algorithmusmodelle zu entwickeln, die besser mit der Wahrnehmung blinder Menschen übereinstimmen Grundlegende Forschungsaufgabe der visuellen Beantwortung von Fragen für blinde Menschen.
Die visuelle Frage-Antwort-Aufgabe für Blinde ist der Ausgangspunkt und eine der zentralen Forschungsrichtungen der akademischen Forschung zur KI-Unterstützung bei Blindheit. Allerdings hat die visuelle Frage-Antwort-Aufgabe für Blinde als Sonderform der visuellen Frage-Antwort-Aufgabe unter den aktuellen technischen Bedingungen im Vergleich zu gewöhnlichen visuellen Frage-Antwort-Aufgaben größere Schwierigkeiten bei der Verbesserung der Genauigkeit.
Einerseits sind die Arten von Fragen in visuellen Fragen und Antworten für Blinde komplexer, einschließlich Zielerkennung, Texterkennung, Farbe, Attributerkennung und anderen Arten von Fragen, wie z. B. der Identifizierung von Fleisch im Kühlschrank und der Beratung Anweisungen zur Einnahme von Medikamenten und zur Auswahl einzigartiger Farben, Einführung in den Buchinhalt usw.
Auf der anderen Seite ist es aufgrund der Besonderheit des blinden Menschen als Subjekt der Wahrnehmungsinteraktion für den blinden Menschen schwierig, den Abstand zwischen dem Mobiltelefon und dem Objekt beim Fotografieren zu erfassen, was oft zu Out- führt. In Situationen, in denen der Fokus fehlt, oder wenn das Objekt fotografiert wird, wird es nicht aufgenommen. Das gesamte Bild wird aufgenommen, oder die Schlüsselinformationen werden nicht aufgenommen, was die Schwierigkeit einer effektiven Merkmalsextraktion erheblich erhöht.
Gleichzeitig basieren die meisten vorhandenen visuellen Frage- und Antwortmodelle auf dem Training von Frage- und Antwortdaten in einer geschlossenen Umgebung. Sie sind durch die Stichprobenverteilung stark eingeschränkt und lassen sich nur schwer auf Frage- und Antwortszenarien übertragen offene Welt. Sie müssen externes Wissen für mehrstufiges Denken integrieren.
Blinde visuelle Frage- und Antwortdaten
Zweitens haben Wissenschaftler mit der Entwicklung der blinden visuellen Frage- und Antwortforschung während des Forschungsprozesses festgestellt, dass visuelle Fragen und Antworten auf abgeleitete Probleme stoßen, die durch Rauschstörungen verursacht werden . Daher steht die genaue Lokalisierung von Geräuschen und die Vervollständigung intelligenter Überlegungen ebenfalls vor großen Herausforderungen.
Da Blinde keine visuelle Wahrnehmung der Außenwelt haben, machen sie bei visuellen Frage- und Antwortaufgaben des Bild-Text-Matchings oft viele Fehler. Wenn beispielsweise eine blinde Person in einem Supermarkt einkaufen geht, ist es für eine blinde Person leicht, falsche Fragen zu stellen, weil die Produkte ähnlich aussehen und sich ähnlich anfühlen, wie zum Beispiel eine Flasche Essig in die Hand zu nehmen und zu fragen, wer der Hersteller ist Sojasauce ist. Diese Art von Sprachrauschen führt oft zum Scheitern bestehender KI-Modelle, was erfordert, dass die KI in der Lage ist, Rauschen und verfügbare Informationen aus komplexen Umgebungen zu analysieren.
Schließlich sollten KI-Blindenassistenzsysteme nicht nur die aktuellen Zweifel blinder Menschen beantworten, sondern auch die Fähigkeit haben, über intelligente Absichten nachzudenken und intelligente Informationen zu präsentieren. Intelligente Interaktionstechnologie ist eine wichtige Forschungsrichtung, und die Algorithmenforschung ist immer noch wichtig noch in den Kinderschuhen.
Der Forschungsschwerpunkt der intelligenten Absichtsschlusstechnologie besteht darin, daraus zu schließen, dass sehbehinderte Benutzer ihre Interaktionsabsichten ausdrücken möchten, indem sie der Maschine ermöglichen, kontinuierlich die Sprache und Verhaltensgewohnheiten sehbehinderter Benutzer zu lernen. Beispielsweise kann durch die Aktion einer blinden Person, die einen Wasserbecher hält und sich hinsetzt, die nächste Aktion, nämlich das Abstellen des Wasserbechers auf den Tisch, vorhergesagt werden. Indem die blinde Person Fragen zur Farbe oder zum Stil der Kleidung stellt, kann dies der Fall sein vorhergesagt, dass eine Person reisen könnte usw.
Die Schwierigkeit dieser Technologie besteht darin, dass das psychologische Modell der interaktiven Entscheidungsfindung ebenfalls zufällig ist, da der Ausdruck und die Ausdruckshandlungen des Benutzers zeitlich und räumlich zufällig sind. Daher ist es sehr wichtig, effektiv zu extrahieren Nutzen Sie die von Benutzern eingegebenen Informationen aus zufälligen Verhaltensdaten und entwerfen Sie ein dynamisches, nicht deterministisches, multimodales Modell, um die beste Darstellung verschiedener Aufgaben zu erreichen.
Es besteht kein Zweifel daran, dass große Durchbrüche in den oben genannten Grundlagenforschungsbereichen der Schlüssel für die frühzeitige Implementierung der KI-Technologie sind Blindheit unterstützen. Derzeit unternimmt das hochmoderne Forschungsteam von Inspur Information alle Anstrengungen, um die Weiterentwicklung der KI-Blindheitsunterstützungsforschung durch mehrere Algorithmusinnovationen, Pre-Training-Modelle und den Aufbau grundlegender Datensätze voranzutreiben.
Im Bereich der blinden visuellen Frage- und Antwortaufgabenforschung ist VizWiz-VQA ein globaler multimodaler Top-blinder visueller Frage-und-Antwort-Wettbewerb, der gemeinsam von Wissenschaftlern der Carnegie Mellon University und anderen Institutionen unter Verwendung des „VizWiz“-Blinds ins Leben gerufen wurde Visueller Datensatz für das Training Das KI-Modell gibt dann Antworten auf die vom Blinden bereitgestellten zufälligen Bild-Text-Paare. Bei der visuellen Frage-und-Antwort-Aufgabe für Blinde hat das Inspur Information Frontier Research Team viele häufige Probleme bei der visuellen Frage-und-Antwort-Aufgabe für Blinde gelöst.
Da die von Blinden aufgenommenen Bilder verschwommen sind und weniger aussagekräftige Informationen enthalten, sind die Fragen in der Regel subjektiver und vager , so dass es schwierig ist, die Anforderungen von Blinden zu verstehen und Antworten zu geben.
Das Team schlug ein multimodales Dual-Stream-Ankerpunktausrichtungsmodell vor, das Schlüsseleinheiten und Attribute der visuellen Zielerkennung als Ankerpunkte verwendet, um Bilder und Fragen zu verbinden und so eine multimodale semantische Verbesserung zu erreichen.
Zweitens angesichts des Problems, dass es für blinde Menschen schwierig ist, beim Aufnehmen von Bildern die richtige Richtung sicherzustellen, durch automatische Korrektur von Bildwinkeln und Verbesserung der Zeichensemantik in Kombination mit optischer Zeichenerkennungs- und -erkennungstechnologie Das Problem, „was“ zu verstehen, ist gelöst.
Schließlich sind die von Blinden aufgenommenen Bilder normalerweise verschwommen und unvollständig, was es für allgemeine Algorithmen schwierig macht, die Art und den Zweck des Zielobjekts zu beurteilen die wahre Absicht des Benutzers.
Zu diesem Zweck schlug das Team einen Algorithmus vor, der antwortgesteuerte visuelle Positionierung mit großem Modellbild- und Textabgleich kombiniert, und schlug eine mehrstufige Cross-Training-Strategie vor. Während der Argumentation werden die übergreifenden visuellen Positionierungs- und Bild-Text-Matching-Modelle verwendet, um gleichzeitig den Antwortbereich abzuleiten und zu lokalisieren, die regionalen Zeichen werden basierend auf dem optischen Zeichenerkennungsalgorithmus bestimmt und der Ausgabetext wird an gesendet Der Text-Encoder und schließlich der Text des Bild-Text-Matching-Modells lautet Der Decoder erhielt die Antwort, dass der Blinde um Hilfe gebeten hatte, und die endgültige Genauigkeit des multimodalen Algorithmus lag 9,5 Prozentpunkte über der menschlichen Leistung.
Eines der größten Hindernisse für die aktuelle Anwendung der visuellen Positionierungsforschung ist die intelligente Verarbeitung von Rauschen. In realen Szenen sind Textbeschreibungen oft verrauscht, wie z. B. menschliche Versprecher. Unklarheiten, Rhetorik etc. Experimente haben ergeben, dass Textrauschen dazu führen kann, dass bestehende KI-Modelle versagen.
Zu diesem Zweck untersuchte das Inspur Information Frontier Research Team das Problem der multimodalen Nichtübereinstimmung, das durch menschliche Sprachfehler in der realen Welt verursacht wird, und schlug erstmals die visuelle Positionierungsaufgabe FREC zur Entrauschung von Texten vor, die eine korrekte Modellierung erfordert Suchen Sie den Text, der der Geräuschbeschreibung entspricht, und geben Sie weitere Hinweise darauf, dass der Text laut ist.
FREC bietet 30.000 Bilder und mehr als 250.000 Textanmerkungen und deckt eine Vielzahl von Störgeräuschen wie Versprecher, Mehrdeutigkeit, subjektive Abweichungen usw. ab. Außerdem bietet es interpretierbare Bezeichnungen wie Störgeräuschkorrektur und verrauschte Beweise.
FCTR-Strukturdiagramm
Gleichzeitig erstellte das Team auch das erste interpretierbare visuelle Positionierungsmodell zur Rauschunterdrückung (FCTR). Unter der Bedingung einer verrauschten Textbeschreibung ist die Genauigkeit um 11 Prozentpunkte höher als das traditionelle Modell.
Dieses Forschungsergebnis wurde auf der ACM Multimedia 2022-Konferenz veröffentlicht, der Top-Konferenz im internationalen Multimedia-Bereich und der einzigen von CCF empfohlenen internationalen Klasse-A-Konferenz in diesem Bereich.
Papieradresse: https://www.php.cn/link/9f03268e82461f179f372e61621f42d9
Um die Fähigkeit der KI zu erkunden, mit Gedanken auf der Grundlage von Bildern und Text zu interagieren, Inspur Information ier Das Forschungsteam schlägt eine neue Forschungsrichtung für die Branche vor und schlägt eine erklärbare visuelle interaktive Frage- und Antwortaufgabe AI-VQA vor, die den vorhandenen Inhalt von Bildern und Texten erweitern kann, indem logische Ketten für die Suche in einer riesigen Wissensdatenbank eingerichtet werden.
Derzeit hat das Team einen Open-Source-Datensatz für AI-VQA erstellt, der mehr als 144.000 umfangreiche Wissensdatenbanken zu Ereignissen, 19.000 vollständig manuell kommentierte interaktive Verhaltensfragen zum kognitiven Denken sowie Schlüsselobjekte und unterstützende Fakten enthält und Argumentationspfade usw. Interpretierbare Anmerkung.
ARE-Strukturdiagramm
Gleichzeitig schlug das Team das ARE (Encoder-Decoder-Modell für alternative Gründe und Erklärungen) vor, das erste Algorithmusmodell zum Verständnis des interaktiven Verhaltens von Agenten. Realisiert zum ersten Mal eine durchgängige interaktive Verhaltenspositionierung. Basierend auf der multimodalen Bild- und Textfusionstechnologie und dem Wissensgraphen-Abrufalgorithmus wird ein visuelles Frage- und Antwortmodell mit langen Kausalketten-Argumentationsfähigkeiten implementiert .
Die Größe der Technologie besteht nicht nur darin, die Welt zu verändern, sondern, was noch wichtiger ist, darin, der Menschheit zu helfen und noch mehr unmögliche Dinge möglich zu machen.
Für Blinde ist es der größte Nutzen der Technologie, durch die KI-Technologie zur Linderung von Blindheit unabhängig wie andere Menschen leben zu können, anstatt speziell behandelt zu werden.
Jetzt, wo die KI in die Realität eindringt, ist die Technologie nicht mehr so kalt wie ein Berg, sondern voller Wärme humanistischer Fürsorge.
Inspur Information steht an der Spitze der KI-Technologie und hofft, dass die Forschung zur Technologie der künstlichen Intelligenz mehr Menschen dazu bewegen kann, die Implementierung der Technologie der künstlichen Intelligenz weiter zu fördern und die Welle der multimodalen KI zur Unterstützung von Blinden auf sich auszuweiten KI-Betrugsbekämpfung, KI-Diagnose und -Behandlung, KI-Katastrophenfrühwarnung und weitere Szenarien, um mehr Wert für unsere Gesellschaft zu schaffen.
Referenzlink: https://www.php.cn/link/9f03268e82461f179f372e61621f42d9
Das obige ist der detaillierte Inhalt vonNutzen Sie KI, um Hunderten Millionen blinden Menschen zu helfen, „die Welt wieder zu sehen'!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!