Wohin ist die „verkörperte Intelligenz', auf die sich Li Feifei konzentrierte, gelangt?-KI-php.cn

Inhaltsverzeichnis

Vergleich mit neuronalen Netzen

Die neue Grenze der Robotikforschung

Heim

Technologie-Peripheriegeräte

Wohin ist die „verkörperte Intelligenz', auf die sich Li Feifei konzentrierte, gelangt?

王林

Apr 17, 2023 pm 09:34 PM

智能计算机视觉

Im Jahr 2009 leitete Li Feifei, ein damals an der Princeton University tätiger Informatiker, die Erstellung eines Datensatzes, der die Geschichte der künstlichen Intelligenz veränderte – ImageNet. Es enthält Millionen beschrifteter Bilder, mit denen komplexe maschinelle Lernmodelle trainiert werden können, um Objekte in Bildern zu identifizieren.

Im Jahr 2015 übertrafen die maschinellen Erkennungsfähigkeiten die des Menschen. Li Feifei wandte sich bald einem neuen Ziel zu und suchte nach einem weiteren „Nordstern“, wie sie es nannte (der „Polaris“ bezieht sich hier auf das zentrale wissenschaftliche Problem, auf dessen Lösung sich Forscher konzentrieren und das ihre Forschungsbegeisterung wecken und bahnbrechende Fortschritte erzielen kann).

Wohin ist die „verkörperte Intelligenz', auf die sich Li Feifei konzentrierte, gelangt?

Sie fand Inspiration, indem sie 530 Millionen Jahre auf die kambrische Explosion des Lebens zurückblickte, als viele Landtierarten zum ersten Mal auftauchten. Eine einflussreiche Theorie besagt, dass die Explosion neuer Arten teilweise durch die Entstehung von Augen vorangetrieben wurde, die es den Lebewesen ermöglichten, die Welt um sie herum zum ersten Mal zu sehen. Li Feifei glaubt, dass das Sehen von Tieren nicht isoliert entsteht, sondern „tief in ein Ganzes eingebettet ist, das sich in einer sich schnell verändernden Umgebung bewegen, navigieren, überleben, manipulieren und verändern muss“, sagte sie Heute konzentriert sich Li Feifeis Arbeit auf KI-Agenten, die nicht nur statische Bilder aus Datensätzen empfangen, sondern auch dreidimensionale Virtualisierungen durchführen können.

Dies ist das allgemeine Ziel eines neuen Feldes namens „verkörperte KI“. Es gibt Überschneidungen mit der Robotik, da Roboter als physisches Äquivalent zu verkörperten KI-Agenten und verstärktem Lernen in der realen Welt angesehen werden können. Wohin ist die „verkörperte Intelligenz', auf die sich Li Feifei konzentrierte, gelangt? Li Feifei und andere glauben, dass die verkörperte KI uns einen großen Wandel bescheren kann, von der einfachen Fähigkeit des maschinellen Lernens, wie das Erkennen von Bildern, bis hin zum Erlernen, wie man komplexe, menschenähnliche Aufgaben in mehreren Schritten ausführt, wie zum Beispiel die Zubereitung eines Omeletts.

Heutzutage umfasst die Arbeit der verkörperten KI jeden Agenten, der seine eigene Umgebung erkennen und verändern kann. In der Robotik leben KI-Agenten immer in Roboterkörpern, während Agenten in realen Simulationen einen virtuellen Körper haben oder die Welt durch eine sich bewegende Kameraposition wahrnehmen und mit der Umgebung interagieren können. „Die Bedeutung der Verkörperung ist nicht der Körper selbst, sondern die allgemeinen Bedürfnisse und Funktionen der Interaktion mit der Umwelt und des Tuns von Dingen in der Umwelt“, erklärte Li Feifei.

Diese Interaktivität bietet Agenten eine neue – und in vielen Fällen bessere – Möglichkeit, die Welt zu verstehen. Dies entspricht der Tatsache, dass Sie zuvor nur die mögliche Beziehung zwischen zwei Objekten beobachtet haben, jetzt aber experimentieren und diese Beziehung selbst verwirklichen können. Mit diesem neuen Verständnis werden Ideen in die Praxis umgesetzt und es entsteht größere Weisheit. Mit der Einrichtung neuer virtueller Welten haben verkörperte KI-Agenten begonnen, dieses Potenzial zu erkennen und in ihren neuen Umgebungen erhebliche Fortschritte zu machen.

„Im Moment haben wir keine Beweise für die Existenz von Intelligenz, die nicht durch Interaktion mit der Welt lernt“, sagte Viviane Clay, Forscherin für verkörperte KI an der Universität Osnebrück in Deutschland.

Auf dem Weg zur perfekten Simulation

Obwohl Forscher schon lange reale virtuelle Welten schaffen wollten, die KI-Agenten erkunden können, werden sie erst seit etwa fünf Jahren geschaffen. Diese Fähigkeit ergibt sich aus Verbesserungen der Grafik in der Film- und Videospielindustrie. Im Jahr 2017 können KI-Agenten Innenräume so realistisch darstellen, als wären sie in einem Zuhause – einem virtuellen, aber wörtlichen „Zuhause“. Informatiker am Allen Institute for Artificial Intelligence haben einen Simulator namens AI2-Thor entwickelt, mit dem Agenten durch natürliche Küchen, Badezimmer, Wohnzimmer und Schlafzimmer herumlaufen können. Agenten können dreidimensionale Ansichten erlernen, die sich während ihrer Bewegung ändern, wobei der Simulator neue Blickwinkel zeigt, wenn sie sich für einen genaueren Blick entscheiden.

Diese neue Welt gibt intelligenten Agenten auch die Möglichkeit, über Veränderungen in einer neuen Dimension „Zeit“ nachzudenken. „Das ist eine große Veränderung“, sagte Manolis Savva, ein Computergrafikforscher an der Simon Fraser University. „In einer verkörperten KI-Umgebung gibt es diese zeitlich kohärenten Informationsflüsse, die Sie steuern können.“ gut genug, dass Agenten für völlig neue Aufgaben geschult werden können. Sie können ein Objekt nicht nur erkennen, sondern auch mit ihm interagieren, es aufnehmen und um es herum navigieren. Diese scheinbar kleinen Schritte sind notwendig, damit jeder Agent seine Umgebung versteht. Im Jahr 2020 haben virtuelle Agenten die Möglichkeit, über das Sehen hinauszugehen und die von virtuellen Dingen erzeugten Geräusche zu hören, was eine neue Perspektive auf das Verständnis von Objekten und ihre Funktionsweise in der Welt bietet.

Verkörperte KI-Agenten, die in einer virtuellen Welt (ManipulaTHOR-Umgebung) laufen können, lernen auf andere Weise und eignen sich möglicherweise besser für komplexere, menschenähnliche Aufgaben.

Der Simulator hat jedoch auch seine eigenen Einschränkungen. „Selbst die besten Simulatoren sind weitaus weniger realistisch als die reale Welt“, sagt Daniel Yamins, Informatiker an der Stanford University. Yamins hat ThreeDWorld gemeinsam mit Kollegen am MIT und IBM entwickelt, ein Projekt, das sich auf die Simulation realer Physik in virtuellen Welten konzentriert, beispielsweise auf das Verhalten von Flüssigkeiten und darauf, wie manche Objekte in einem Bereich starr und in einem anderen wieder flexibel sind .

Dies ist eine sehr herausfordernde Aufgabe, die erfordert, dass die KI auf neue Weise lernt.

Vergleich mit neuronalen Netzen

Eine einfache Möglichkeit, den bisherigen Fortschritt der verkörperten KI zu messen, besteht darin, die Leistung verkörperter Agenten mit Algorithmen zu vergleichen, die auf einfachere statische Bildaufgaben trainiert wurden. Die Forscher stellen fest, dass diese Vergleiche nicht perfekt sind, aber erste Ergebnisse deuten darauf hin, dass verkörperte KI anders und manchmal besser lernt als ihre Vorgänger.

In einer aktuellen Arbeit („Interactron: Embodied Adaptive Object Detection“) fanden Forscher heraus, dass ein verkörperter KI-Agent bestimmte Objekte genauer erkennen konnte, fast 12 % besser als herkömmliche Methoden. „Es hat mehr als drei Jahre gedauert, bis der Bereich der Objekterkennung diesen Grad der Verbesserung erreicht hat“, sagte der Co-Autor der Studie, Roozbeh Mottaghi, ein Informatiker am Allen Institute for Artificial Intelligence. „Und wir haben allein durch die Interaktion so viel erreicht.“ „Andere Arbeiten haben gezeigt, dass Objekterkennungsalgorithmen Fortschritte machen, wenn man die Form einer verkörperten KI annimmt und sie einen virtuellen Raum einmal erkunden lässt oder herumläuft und mehrere Ansichten eines Objekts sammelt.“

Forscher fanden außerdem heraus, dass verkörperte Algorithmen und traditionelle Algorithmen völlig unterschiedlich lernen. Um dies zu demonstrieren, betrachten wir neuronale Netze, den Grundbestandteil der Lernfähigkeiten jedes verkörperten Algorithmus und vieler körperloser Algorithmen. Neuronale Netzwerke bestehen aus vielen Schichten miteinander verbundener künstlicher Neuronenknoten und sind den Netzwerken im menschlichen Gehirn lose nachempfunden. In zwei separaten Arbeiten stellten Forscher fest, dass in neuronalen Netzwerken verkörperter Agenten weniger Neuronen auf visuelle Informationen reagieren, was bedeutet, dass jedes einzelne Neuron selektiver reagiert. Körperlose Netzwerke sind viel weniger effizient und erfordern die meiste Zeit mehr Neuronen, um aktiv zu bleiben. Ein Forschungsteam (unter der Leitung der neuen NYU-Professorin Grace Lindsay) verglich sogar verkörperte und nicht verkörperte neuronale Netze mit der neuronalen Aktivität in einem lebenden Gehirn (dem visuellen Kortex von Mäusen) und stellte fest, dass verkörperte neuronale Netze dem Leben am nächsten kommen Körper.

Lindsay weist schnell darauf hin, dass dies nicht unbedingt bedeutet, dass die verkörperten Versionen besser sind, sie sind einfach nur anders. Im Gegensatz zum Artikel zur Objekterkennung vergleicht die Studie von Lindsay et al. die potenziellen Unterschiede desselben neuronalen Netzwerks und ermöglicht es den Agenten, völlig unterschiedliche Aufgaben zu erledigen, sodass sie möglicherweise neuronale Netzwerke benötigen, die unterschiedlich funktionieren, um ihre Ziele zu erreichen.

Während der Vergleich verkörperter neuronaler Netze mit nicht verkörperten neuronalen Netzen eine Möglichkeit ist, Verbesserungen zu messen, wollen Forscher in Wirklichkeit nicht die Leistung verkörperter Agenten bei bestehenden Aufgaben verbessern, sondern vielmehr die Leistung verkörperter Agenten verbessern Das Ziel besteht darin, komplexere, menschenähnliche Aufgaben zu erlernen. Das ist es, was die Forscher am meisten begeistert und sie sehen beeindruckende Fortschritte, insbesondere bei Navigationsaufgaben. Bei diesen Aufgaben muss sich der Agent an die langfristigen Ziele seines Ziels erinnern und gleichzeitig einen Plan formulieren, um dorthin zu gelangen, ohne sich zu verlaufen oder mit Gegenständen zusammenzustoßen.

In nur wenigen Jahren hat ein Team unter der Leitung des Georgia Tech-Informatikers Dhruv Batra, einem Forschungsdirektor bei Meta AI, große Fortschritte bei einer bestimmten Navigationsaufgabe namens „Punkt-Ziel-Navigation“ gemacht. Bei dieser Aufgabe wird der Agent in eine völlig neue Umgebung versetzt und muss ohne Karte zu einer bestimmten Koordinate gehen (z. B. „Gehe zu dem Punkt, der 5 Meter nördlich und 10 Meter östlich liegt“).

Batra sagte, dass sie den Agenten in einer virtuellen Meta-Welt namens „AI Habitat“ trainiert und ihm ein GPS und einen Kompass gegeben hätten. Sie stellten fest, dass er bei Standarddatensätzen eine Genauigkeit von mehr als 99,9 % erreichen konnte. In jüngerer Zeit haben sie ihre Ergebnisse erfolgreich auf ein schwierigeres und realistischeres Szenario ausgeweitet – ohne Kompass oder GPS. Dadurch erreichte der Agent eine Genauigkeit von 94 % bei der Schätzung seiner Position, indem er nur den Pixelstrom nutzte, den er während der Bewegung sah.

Wohin ist die „verkörperte Intelligenz', auf die sich Li Feifei konzentrierte, gelangt?

Die virtuelle Welt „AI Habitat“, erstellt vom Meta AI Dhruv Batra-Team. Sie hoffen, die Geschwindigkeit von Simulationen zu erhöhen, bis die verkörperte KI 20 Jahre Simulationserfahrung in nur 20 Minuten Arbeitszeit erreichen kann.

Mottaghi sagte: „Das ist eine große Verbesserung, aber es bedeutet nicht, dass das Navigationsproblem vollständig gelöst wurde. Denn viele andere Arten von Navigationsaufgaben erfordern die Verwendung komplexerer Sprachanweisungen, wie zum Beispiel „Geh durch die Küche.“ Um die Gegenstände auf den Nachttisch im Schlafzimmer zu bringen, beträgt die Genauigkeit immer noch nur etwa 30 % bis 40 %.

Aber die Navigation bleibt eine der einfachsten Aufgaben in der verkörperten KI, da der Agent nichts manipulieren muss, während er sich durch die Umgebung bewegt. Bisher sind verkörperte KI-Agenten weit davon entfernt, überhaupt objektbezogene Aufgaben zu meistern. Ein Teil der Herausforderung besteht darin, dass ein Agent bei der Interaktion mit neuen Objekten viele Fehler machen und sich die Fehler häufen können. Derzeit gehen die meisten Forscher dieses Problem an, indem sie Aufgaben mit nur wenigen Schritten auswählen. Die meisten menschenähnlichen Aktivitäten wie Backen oder Geschirrspülen erfordern jedoch lange Aktionssequenzen an mehreren Objekten. Um dieses Ziel zu erreichen, müssen KI-Agenten noch größere Fortschritte machen.

Fei-Fei Li könnte in dieser Hinsicht wieder an vorderster Front stehen, da ihr Team einen simulierten Datensatz – BEHAVIOR – entwickelt hat, in der Hoffnung, zur verkörperten KI beizutragen, was ihr ImageNet-Projekt für die Objekterkennung geleistet hat.

Wohin ist die „verkörperte Intelligenz', auf die sich Li Feifei konzentrierte, gelangt?

Dieser Datensatz enthält mehr als 100 menschliche Aktivitäten, die Agenten ausführen müssen, und Tests können in jeder virtuellen Umgebung durchgeführt werden. Der neue Datensatz des Teams von Fei-Fei Li wird es der Community ermöglichen, den Fortschritt virtueller KI-Agenten besser einzuschätzen, indem Metriken erstellt werden, die Agenten, die diese Aufgaben ausführen, mit echten Videos von Menschen vergleichen, die dieselben Aufgaben ausführen.

Sobald der Agent diese komplexen Aufgaben erfolgreich abschließt, glaubt Li Feifei, dass der Zweck der Simulation darin besteht, für den endgültigen betriebsfähigen Raum zu trainieren – die reale Welt.

„Meiner Meinung nach ist Simulation einer der wichtigsten und spannendsten Bereiche in der Robotikforschung.“

Die neue Grenze der Robotikforschung

Roboter sind im Wesentlichen verkörperte Intelligenz. Sie bewohnen eine Art physischen Körper in der realen Welt und stellen die extremste Form eines verkörperten KI-Agenten dar. Doch viele Forscher haben herausgefunden, dass auch solche Agenten von der Ausbildung in virtuellen Welten profitieren können.

Mottaghi sagte, dass die fortschrittlichsten Algorithmen in der Robotik, wie zum Beispiel Reinforcement Learning, oft Millionen von Iterationen erfordern, um etwas Sinnvolles zu lernen. Daher kann es Jahre dauern, echte Roboter für die Ausführung schwieriger Aufgaben zu trainieren.

Wohin ist die „verkörperte Intelligenz', auf die sich Li Feifei konzentrierte, gelangt?

Roboter können in der realen Welt durch unsicheres Gelände navigieren. Neue Forschungsergebnisse zeigen, dass das Training in virtuellen Umgebungen Robotern dabei helfen kann, diese und andere Fähigkeiten zu erlernen.

Aber wenn man sie zuerst in der virtuellen Welt trainiert, geht es viel schneller. Tausende Agenten können gleichzeitig in Tausenden unterschiedlichen Räumen geschult werden. Darüber hinaus ist virtuelles Training sowohl für Roboter als auch für Menschen sicherer.

Im Jahr 2018 zeigten OpenAI-Forscher, dass von einem Agenten in der virtuellen Welt erlernte Fähigkeiten auf die reale Welt übertragen werden können, sodass viele Robotikexperten begannen, Simulatoren mehr Aufmerksamkeit zu schenken. Sie brachten einer Roboterhand bei, einen Würfel zu manipulieren, der bisher nur in Simulationen zu sehen war. Zu den jüngsten Forschungen gehört auch, Drohnen in die Lage zu versetzen, Kollisionen in der Luft zu vermeiden, selbstfahrende Autos in städtischen Umgebungen auf zwei verschiedenen Kontinenten einzusetzen und einem vierbeinigen Roboterhund zu ermöglichen, eine einstündige Wanderung in den Schweizer Alpen (und Italien) zu absolvieren dauert genauso lange wie der Mensch).

In Zukunft könnten Forscher auch Menschen über Virtual-Reality-Headsets in den virtuellen Raum schicken und so die Lücke zwischen Simulation und realer Welt schließen. Dieter Fox, leitender Direktor für Robotikforschung bei Nvidia und Professor an der University of Washington, wies darauf hin, dass ein Hauptziel der Robotikforschung darin besteht, Roboter zu bauen, die für Menschen in der realen Welt hilfreich sind. Dazu müssen sie jedoch zunächst mit Menschen in Berührung kommen und lernen, mit ihnen umzugehen.

Fox sagt, es wäre ein sehr wirkungsvoller Ansatz, mithilfe der Virtual-Reality-Technologie Menschen in diese simulierten Umgebungen zu versetzen und sie dann Präsentationen halten und mit Robotern interagieren zu lassen.

Ob in der Simulation oder in der realen Welt, verkörperte KI-Agenten lernen, mehr wie Menschen zu sein und Aufgaben zu erledigen, die eher menschlichen Aufgaben ähneln. Das Feld schreitet in allen Aspekten voran, einschließlich neuer Welten, neuer Aufgaben und neuer Lernalgorithmen.

„Ich sehe die Verschmelzung von Deep Learning, Roboterlernen, Vision und sogar Sprache“, sagte Li Feifei. „Jetzt denke ich, dass wir durch diesen ‚Mondschuss‘ oder ‚Nordstern‘ für verkörperte KI die Grundlagen der Intelligenz erlernen werden.“ „Technologie, das kann wirklich zu großen Durchbrüchen führen“

Wohin ist die „verkörperte Intelligenz', auf die sich Li Feifei konzentrierte, gelangt?

Li Feifeis Artikel über das „North Star“-Problem der Computer Vision. Link: https://www.amacad.org/publication/searching-computer-vision-north-stars

Das obige ist der detaillierte Inhalt vonWohin ist die „verkörperte Intelligenz', auf die sich Li Feifei konzentrierte, gelangt?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7514

CakePHP-Tutorial

1378

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Die herumfliegenden Gesichtszüge, das Öffnen des Mundes, das Starren und das Hochziehen der Augenbrauen können von der KI perfekt nachgeahmt werden, sodass Videobetrug nicht verhindert werden kann Dec 14, 2023 pm 11:30 PM

Mit solch einer mächtigen KI-Imitationsfähigkeit ist es wirklich unmöglich, dies zu verhindern. Hat die Entwicklung der KI mittlerweile dieses Niveau erreicht? Ihr vorderer Fuß lässt Ihre Gesichtszüge fliegen, und auf Ihrem hinteren Fuß wird genau der gleiche Ausdruck reproduziert. Starren, Augenbrauen hochziehen, schmollen, egal wie übertrieben der Ausdruck ist, alles wird perfekt nachgeahmt. Erhöhen Sie den Schwierigkeitsgrad, heben Sie die Augenbrauen höher, öffnen Sie die Augen weiter, und sogar die Mundform ist schief und der Ausdruck des Avatars kann perfekt reproduziert werden. Wenn Sie die Parameter auf der linken Seite anpassen, ändert der virtuelle Avatar auf der rechten Seite auch seine Bewegungen entsprechend, um eine Nahaufnahme von Mund und Augen zu erhalten. Man kann nicht sagen, dass die Nachahmung genau gleich ist, aber der Ausdruck ist genau derselbe gleich (ganz rechts). Die Forschung stammt von Institutionen wie der Technischen Universität München, die GaussianAvatars vorschlägt

Der Unterschied zwischen einstufigen und zweistufigen Zielerkennungsalgorithmen Jan 23, 2024 pm 01:48 PM

Die Objekterkennung ist eine wichtige Aufgabe im Bereich Computer Vision und dient der Identifizierung von Objekten in Bildern oder Videos und der Lokalisierung ihrer Standorte. Diese Aufgabe wird üblicherweise in zwei Kategorien von Algorithmen unterteilt, einstufige und zweistufige, die sich hinsichtlich Genauigkeit und Robustheit unterscheiden. Einstufiger Zielerkennungsalgorithmus Der einstufige Zielerkennungsalgorithmus wandelt die Zielerkennung in ein Klassifizierungsproblem um. Sein Vorteil besteht darin, dass er schnell ist und die Erkennung in nur einem Schritt abschließen kann. Aufgrund der übermäßigen Vereinfachung ist die Genauigkeit jedoch normalerweise nicht so gut wie beim zweistufigen Objekterkennungsalgorithmus. Zu den gängigen einstufigen Zielerkennungsalgorithmen gehören YOLO, SSD und FasterR-CNN. Diese Algorithmen nehmen im Allgemeinen das gesamte Bild als Eingabe und führen einen Klassifikator aus, um das Zielobjekt zu identifizieren. Im Gegensatz zu herkömmlichen zweistufigen Zielerkennungsalgorithmen müssen Bereiche nicht im Voraus definiert, sondern direkt vorhergesagt werden

Anwendung der KI-Technologie bei der hochauflösenden Bildrekonstruktion Jan 23, 2024 am 08:06 AM

Bei der superauflösenden Bildrekonstruktion werden hochauflösende Bilder aus Bildern mit niedriger Auflösung mithilfe von Deep-Learning-Techniken wie Convolutional Neural Networks (CNN) und Generative Adversarial Networks (GAN) generiert. Das Ziel dieser Methode besteht darin, die Qualität und Detailgenauigkeit von Bildern zu verbessern, indem Bilder mit niedriger Auflösung in Bilder mit hoher Auflösung umgewandelt werden. Diese Technologie findet breite Anwendung in vielen Bereichen, beispielsweise in der medizinischen Bildgebung, Überwachungskameras, Satellitenbildern usw. Durch die hochauflösende Bildrekonstruktion können wir klarere und detailliertere Bilder erhalten, die dabei helfen, Ziele und Merkmale in Bildern genauer zu analysieren und zu identifizieren. Rekonstruktionsmethoden Hochauflösende Bildrekonstruktionsmethoden können im Allgemeinen in zwei Kategorien unterteilt werden: interpolationsbasierte Methoden und Deep-Learning-basierte Methoden. 1) Interpolationsbasierte Methode Hochauflösende Bildrekonstruktion basierend auf Interpolation

Wie man KI-Technologie nutzt, um alte Fotos wiederherzustellen (mit Beispielen und Code-Analyse) Jan 24, 2024 pm 09:57 PM

Bei der Restaurierung alter Fotos handelt es sich um eine Methode zur Nutzung künstlicher Intelligenz, um alte Fotos zu reparieren, aufzuwerten und zu verbessern. Mithilfe von Computer-Vision- und maschinellen Lernalgorithmen kann die Technologie Schäden und Unvollkommenheiten in alten Fotos automatisch erkennen und reparieren, sodass diese klarer, natürlicher und realistischer aussehen. Die technischen Prinzipien der Restaurierung alter Fotos umfassen hauptsächlich die folgenden Aspekte: 1. Bildrauschen und -verbesserung Bei der Wiederherstellung alter Fotos müssen diese zunächst entrauscht und verbessert werden. Bildverarbeitungsalgorithmen und -filter wie Mittelwertfilterung, Gaußsche Filterung, bilaterale Filterung usw. können zur Lösung von Rausch- und Farbfleckproblemen eingesetzt werden, wodurch die Qualität von Fotos verbessert wird. 2. Bildwiederherstellung und -reparatur Bei alten Fotos können einige Mängel und Schäden wie Kratzer, Risse, Ausbleichen usw. auftreten. Diese Probleme können durch Bildwiederherstellungs- und Reparaturalgorithmen gelöst werden

SIFT-Algorithmus (Scale Invariant Features). Jan 22, 2024 pm 05:09 PM

Der Scale Invariant Feature Transform (SIFT)-Algorithmus ist ein Merkmalsextraktionsalgorithmus, der in den Bereichen Bildverarbeitung und Computer Vision verwendet wird. Dieser Algorithmus wurde 1999 vorgeschlagen, um die Objekterkennung und die Matching-Leistung in Computer-Vision-Systemen zu verbessern. Der SIFT-Algorithmus ist robust und genau und wird häufig in der Bilderkennung, dreidimensionalen Rekonstruktion, Zielerkennung, Videoverfolgung und anderen Bereichen eingesetzt. Es erreicht Skaleninvarianz, indem es Schlüsselpunkte in mehreren Skalenräumen erkennt und lokale Merkmalsdeskriptoren um die Schlüsselpunkte herum extrahiert. Zu den Hauptschritten des SIFT-Algorithmus gehören die Skalenraumkonstruktion, die Erkennung von Schlüsselpunkten, die Positionierung von Schlüsselpunkten, die Richtungszuweisung und die Generierung von Merkmalsdeskriptoren. Durch diese Schritte kann der SIFT-Algorithmus robuste und einzigartige Merkmale extrahieren und so eine effiziente Bildverarbeitung erreichen.

MotionLM: Sprachmodellierungstechnologie für die Bewegungsvorhersage mit mehreren Agenten Oct 13, 2023 pm 12:09 PM

Dieser Artikel wird mit Genehmigung des öffentlichen Kontos von Autonomous Driving Heart nachgedruckt. Bitte wenden Sie sich für den Nachdruck an die Quelle. Originaltitel: MotionLM: Multi-Agent Motion Forecasting as Language Modeling Papierlink: https://arxiv.org/pdf/2309.16534.pdf Autorenzugehörigkeit: Waymo Konferenz: ICCV2023 Papieridee: Für die Sicherheitsplanung autonomer Fahrzeuge das zukünftige Verhalten zuverlässig vorhersagen der Straßenverkehrsbeamten ist von entscheidender Bedeutung. Diese Studie stellt kontinuierliche Trajektorien als Sequenzen diskreter Bewegungstokens dar und behandelt die Bewegungsvorhersage mit mehreren Agenten als eine Sprachmodellierungsaufgabe. Das von uns vorgeschlagene Modell MotionLM hat die folgenden Vorteile: Erstens

Eine Einführung in Bildannotationsmethoden und gängige Anwendungsszenarien Jan 22, 2024 pm 07:57 PM

In den Bereichen maschinelles Lernen und Computer Vision ist Bildannotation der Prozess der Anwendung menschlicher Anmerkungen auf Bilddatensätze. Bildanmerkungsmethoden können hauptsächlich in zwei Kategorien unterteilt werden: manuelle Anmerkung und automatische Anmerkung. Manuelle Anmerkung bedeutet, dass menschliche Annotatoren Bilder durch manuelle Vorgänge mit Anmerkungen versehen. Für diese Methode müssen menschliche Annotatoren über Fachwissen und Erfahrung verfügen und in der Lage sein, Zielobjekte, Szenen oder Merkmale in Bildern genau zu identifizieren und zu kommentieren. Der Vorteil der manuellen Annotation besteht darin, dass die Annotationsergebnisse zuverlässig und genau sind, der Nachteil besteht jedoch darin, dass sie zeitaufwändig und kostspielig ist. Unter automatischer Annotation versteht man die Methode, Computerprogramme zum automatischen Annotieren von Bildern zu verwenden. Diese Methode nutzt maschinelles Lernen und Computer-Vision-Technologie, um eine automatische Annotation durch Trainingsmodelle zu erreichen. Die Vorteile der automatischen Etikettierung sind hohe Geschwindigkeit und niedrige Kosten, der Nachteil besteht jedoch darin, dass die Etikettierungsergebnisse möglicherweise nicht genau sind.

Interpretation des Konzepts der Zielverfolgung in der Computer Vision Jan 24, 2024 pm 03:18 PM

Die Objektverfolgung ist eine wichtige Aufgabe in der Bildverarbeitung und wird häufig in der Verkehrsüberwachung, Robotik, medizinischen Bildgebung, automatischen Fahrzeugverfolgung und anderen Bereichen eingesetzt. Es verwendet Deep-Learning-Methoden, um die Position des Zielobjekts in jedem aufeinanderfolgenden Bild im Video vorherzusagen oder abzuschätzen, nachdem die Anfangsposition des Zielobjekts bestimmt wurde. Die Objektverfolgung hat im realen Leben ein breites Anwendungsspektrum und ist im Bereich Computer Vision von großer Bedeutung. Bei der Objektverfolgung handelt es sich üblicherweise um den Prozess der Objekterkennung. Im Folgenden finden Sie einen kurzen Überblick über die Schritte der Objektverfolgung: 1. Objekterkennung, bei der der Algorithmus Objekte klassifiziert und erkennt, indem er Begrenzungsrahmen um sie herum erstellt. 2. Weisen Sie jedem Objekt eine eindeutige Identifikation (ID) zu. 3. Verfolgen Sie die Bewegung erkannter Objekte in Bildern und speichern Sie gleichzeitig relevante Informationen. Arten von Zielverfolgungszielen

See all articles