Wenn GPT-4 lernt, Bilder und Texte zu lesen, ist eine Produktivitätsrevolution unaufhaltsam-KI-php.cn

Inhaltsverzeichnis

Die Verarbeitung von Grafiken und Text beginnt mit der zugrunde liegenden Vision

Von Wörtern über Tabellen bis hin zu Kapiteln: Lesen Sie Bilder und Texte Schritt für Schritt.

Großes Modell, Multimodalität, Weltmodell... Wo ist die Zukunft?

Heim

Technologie-Peripheriegeräte

Wenn GPT-4 lernt, Bilder und Texte zu lesen, ist eine Produktivitätsrevolution unaufhaltsam

青灯夜游

Mar 31, 2023 pm 10:38 PM

技术图像

Viele Forscher aus Wissenschaft und Industrie führten ausführliche Diskussionen zum Thema „Intelligente Bild- und Textverarbeitungstechnologie und Multi-Szenario-Anwendungstechnologie“.

„Es ist zu kompliziert!“

Nach dem Erleben von GPT-4 und Microsoft Microsoft 365 Copilot After Angesichts der ständigen Bombenangriffe glaube ich, dass viele Menschen dieses Gefühl haben.

Im Vergleich zu GPT-3.5 hat GPT-4 in vielen Aspekten erhebliche Verbesserungen erzielt. Beispielsweise hat es sich bei der simulierten Anwaltsprüfung von den ursprünglichen unteren 10 % auf positive 10 % entwickelt. Natürlich haben normale Menschen möglicherweise keine Ahnung von diesen Berufsprüfungen. Aber wenn ich Ihnen ein Bild zeige, werden Sie verstehen, wie erschreckend die Verbesserung ist:

Wenn GPT-4 lernt, Bilder und Texte zu lesen, ist eine Produktivitätsrevolution unaufhaltsam

Quelle: Tang Jie, Professor der Computerabteilung der Tsinghua-Universität, Weibo. Link: https://m.weibo.cn/detail/4880331053992765

Dies ist eine physikalische Frage, die erforderlich ist, um das Problem Schritt für Schritt anhand von Bildern und Texten zu lösen. Dies ist GPT-3.5 zum ChatGPT vor dem Upgrade) Abhängige Modelle) verfügen nicht über Funktionen. Einerseits ist GPT-3.5 nur darauf trainiert, Text zu verstehen, das Bild in der Frage kann es jedoch nicht verstehen. Andererseits ist die Problemlösungsfähigkeit von GPT-3.5 auch sehr schwach und kann von einem Huhn und einem Kaninchen im selben Käfig überwältigt werden. Aber dieses Mal scheinen beide Probleme wunderbar gelöst worden zu sein.

Gerade als alle dachten, das sei eine große Sache, veröffentlichte Microsoft einen weiteren Blockbuster: GPT-4. Diese Funktionen wurden in eine neue Anwendung namens Microsoft 365 Copilot integriert. Mit seinen leistungsstarken Bild- und Textverarbeitungsfunktionen kann Microsoft 365 Copilot Ihnen nicht nur beim Schreiben verschiedener Dokumente helfen, sondern auch problemlos Dokumente in PPT konvertieren und Excel-Daten automatisch in Diagrammen zusammenfassen ...

Wenn GPT-4 lernt, Bilder und Texte zu lesen, ist eine Produktivitätsrevolution unaufhaltsam

Vom Technologiedebüt bis zur Produkteinführung. OpenAI und Microsoft gaben der Öffentlichkeit nur zwei Tage Zeit, um zu antworten. Scheinbar über Nacht hat eine neue Produktivitätsrevolution begonnen.

Da sich Veränderungen so schnell vollziehen, befinden sich sowohl die Wissenschaft als auch die Industrie mehr oder weniger in einem Zustand der Verwirrung und „FOMO (Angst, etwas zu verpassen)“. Derzeit möchte jeder eine Antwort wissen: Was können wir in dieser Welle tun? Welche Möglichkeiten gibt es? In der von Microsoft veröffentlichten Demo können wir einen klaren Durchbruch erkennen: Intelligente Bild- und Textverarbeitung.

In realen Szenarien hängen viele Jobs in verschiedenen Branchen mit der Grafik- und Textverarbeitung zusammen, z. B. dem Organisieren unstrukturierter Daten in Diagrammen, dem Schreiben von Berichten auf der Grundlage von Diagrammen, dem Extrahieren nützlicher Informationen aus umfangreichen grafischen Informationen usw. Aus diesem Grund könnten die Auswirkungen dieser Revolution weitaus tiefgreifender sein, als sich viele Menschen vorstellen. Ein aktuelles Blockbuster-Papier von OpenAI und der Wharton School prognostiziert diese Auswirkungen: Bei etwa 80 % der US-Arbeitskräfte könnten mindestens 10 % ihrer Arbeitsaufgaben von der Einführung von GPT betroffen sein, und etwa 19 % der Arbeitnehmer werden wahrscheinlich mindestens davon betroffen sein 50 % der Aufgaben betroffen. Es ist absehbar, dass ein großer Teil der Arbeit grafische und textliche Intelligenz beinhaltet.

Welche Forschungsanstrengungen oder technischen Anstrengungen sind an einem solchen Einstiegspunkt eine Erkundung wert? Bei der jüngsten CSIG Enterprise Tour-Veranstaltung, die von der Chinese Society of Image and Graphics (CSIG) veranstaltet und gemeinsam von Hehe Information und dem CSIG Document Image Analysis and Recognition Professional Committee organisiert wurde, konzentrierten sich viele Forscher aus Wissenschaft und Industrie auf „Intelligente Verarbeitung von Bildern und Text „Technologie und Multi-Szenario-Anwendungstechnologie “ führte eine ausführliche Diskussion durch, die Forschern und Praktikern, die sich mit dem Bereich der intelligenten Bild- und Textverarbeitung befassen, Inspiration bieten kann.

Die Verarbeitung von Grafiken und Text beginnt mit der zugrunde liegenden Vision

Wie bereits erwähnt, sind die Grafik- und Textverarbeitungsfähigkeiten von GPT-4 sehr schockierend. Zusätzlich zu der oben genannten physikalischen Frage wurden im technischen Bericht von OpenAI auch andere Beispiele angeführt, wie beispielsweise die Möglichkeit, GPT-4 das Papierbild lesen zu lassen: Die zugrunde liegende Vision ist eine davon.

Die Merkmale der zugrunde liegenden Vision sind sehr offensichtlich: Die Eingabe ist ein Bild und die Ausgabe ist ebenfalls ein Bild. In diese Kategorie fallen Bildvorverarbeitung, Filterung, Wiederherstellung und Verbesserung. Wenn GPT-4 lernt, Bilder und Texte zu lesen, ist eine Produktivitätsrevolution unaufhaltsam

„Die Theorien und Methoden des zugrunde liegenden Sehens sind in vielen Bereichen weit verbreitet, beispielsweise bei Mobiltelefonen, der medizinischen Bildanalyse, der Sicherheitsüberwachung usw. Unternehmen und Institutionen, die Wert auf die Qualität von Bildern und Videoinhalten legen, müssen der Forschung Aufmerksamkeit schenken.“ Wenn die zugrunde liegende Vision nicht gut umgesetzt wird, können viele hochrangige Bildverarbeitungssysteme (z. B. Erkennung, Erkennung und Verständnis) nicht wirklich implementiert werden Informationen, sagte während der CSIG Enterprise Tour-Veranstaltung.

Wie ist dieser Satz zu verstehen? Wir können uns einige Beispiele ansehen:

Anders als in der Idealsituation, die in OpenAI- und Microsoft-Demos gezeigt wird, liegen reale Grafiken und Texte immer in anspruchsvollen Formen vor, wie z. B. Verformungen, Schatten und Moiré-Mustern, was die Schwierigkeit des späteren Erkennens und Verstehens erhöht. Das Ziel des Teams von Guo Fengjun ist es, diese Probleme in der Anfangsphase zu lösen.

Zu diesem Zweck haben sie diese Aufgabe in mehrere Module unterteilt, darunter die Extraktion des interessierenden Bereichs (RoI), die Verformungskorrektur, die Bildwiederherstellung (z. B. Schattenentfernung, Moiré) und die Qualitätsverbesserung (z. B. verbesserte Schärfung, Klarheit).

Durch die Kombination dieser Technologien können einige sehr interessante Anwendungen entstehen. Nach Jahren der Erforschung haben diese Module recht gute Ergebnisse erzielt und die entsprechende Technologie wurde auf das intelligente Texterkennungsprodukt „Scanner“ des Unternehmens angewendet.

Von Wörtern über Tabellen bis hin zu Kapiteln: Lesen Sie Bilder und Texte Schritt für Schritt.

Nachdem das Bild verarbeitet wurde, besteht der nächste Schritt darin, den Inhalt des Bildes und des Textes zu identifizieren. Dies ist ebenfalls eine sehr detaillierte Arbeit und kann sogar in Einheiten von „Wörtern“ durchgeführt werden.

In vielen realen Szenarien erscheinen Zeichen möglicherweise nicht unbedingt in standardisierter Druckform, was die Zeichenerkennung vor Herausforderungen stellt.

Nehmen Sie die Bildungsszene als Beispiel. Angenommen, Sie sind Lehrer und möchten auf jeden Fall, dass die KI Ihnen direkt dabei hilft, die Hausaufgaben aller Schüler zu korrigieren und gleichzeitig die Beherrschung der einzelnen Teile des Wissens zusammenzufassen. Geben Sie am besten auch falsche Fragen, Tippfehler und Korrekturen Vorschläge. Du Jun, außerordentlicher Professor am National Engineering Laboratory for Speech and Language Information Processing an der University of Science and Technology of China, arbeitet in diesem Bereich.

Konkret haben sie ein System zur Erkennung, Erzeugung und Bewertung chinesischer Schriftzeichen entwickelt, das auf Radikalen basiert, da es im Vergleich zur Modellierung ganzer Schriftzeichen viel weniger Kombinationen von Radikalen gibt. Unter ihnen werden Erkennung und Generierung gemeinsam optimiert, was ein wenig dem Prozess der gegenseitigen Stärkung der Lese- und Schreibfähigkeit beim Lernen der Schüler ähnelt. In der Vergangenheit konzentrierten sich die meisten Auswertungsarbeiten auf die grammatikalische Ebene, doch Du Juns Team hat eine Methode entwickelt, die Tippfehler direkt im Bild finden und die Fehler detailliert erklären kann. Diese Methode wird in Szenarien wie der intelligenten Markierung sehr nützlich sein.

Neben Text stellt die Identifizierung und Verarbeitung von Tabellen tatsächlich eine große Schwierigkeit dar, da nicht nur der darin enthaltene Inhalt identifiziert, sondern auch die strukturelle Beziehung zwischen diesen Inhalten geklärt werden muss, was bei einigen Tabellen möglicherweise nicht einmal der Fall ist Drahtgitter. Zu diesem Zweck entwickelte Du Juns Team eine Methode „Zuerst teilen, dann zusammenführen“, das heißt, das Tabellenbild wird zunächst in eine Reihe grundlegender Raster aufgeteilt und dann durch Zusammenführen weitere Korrekturen vorgenommen.

Die Formularerkennungsmethode „Erst teilen, dann zusammenführen“ des Teams von Du Jun.

Natürlich wird all diese Arbeit letztendlich eine Rolle bei der Strukturierung und dem Verständnis von Dokumenten auf Kapitelebene spielen. In realen Umgebungen umfassen die meisten Dokumente, mit denen Models konfrontiert werden, mehr als eine Seite (z. B. ein Papier). In dieser Richtung konzentriert sich die Arbeit von Du Juns Team auf die Klassifizierung seitenübergreifender Dokumentelemente und die Wiederherstellung seitenübergreifender Dokumentstruktur. Allerdings weisen diese Methoden in Multi-Layout-Szenarien immer noch Einschränkungen auf.

Großes Modell, Multimodalität, Weltmodell... Wo ist die Zukunft?

Wenn es um die Verarbeitung und das Verständnis von Bildern und Texten auf Kapitelebene geht, sind wir tatsächlich nicht weit von GPT-4 entfernt. „Nachdem das multimodale GPT-4 herauskam, haben wir auch darüber nachgedacht, ob wir in diesen Aspekten etwas tun könnten“, sagte Du Jun auf der Veranstaltung. Ich glaube, dass viele Forscher oder Praktiker im Bereich der Bild- und Textverarbeitung diese Idee haben.

Das Ziel der GPT-Modellreihe bestand schon immer darin, die Vielseitigkeit zu verbessern und letztendlich eine allgemeine künstliche Intelligenz (AGI) zu erreichen. Die leistungsstarken Bild- und Textverständnisfähigkeiten, die GPT-4 dieses Mal demonstriert, sind ein wichtiger Teil dieser allgemeinen Fähigkeit. Um ein Modell mit ähnlichen Fähigkeiten zu erstellen, hat OpenAI einige Hinweise gegeben, aber auch viele Rätsel und ungelöste Probleme hinterlassen.

Zunächst einmal zeigt der Erfolg von GPT-4, dass der Ansatz von großem Modell + Multimodalität machbar ist. Welche Probleme in großen Modellen untersucht werden sollten und wie die überhöhten Anforderungen an die Rechenleistung multimodaler Modelle gelöst werden können, sind jedoch alles Herausforderungen, denen sich Forscher gegenübersehen.

Zur ersten Frage gab Qiu Xipeng, Professor an der Fakultät für Informatik der Fudan-Universität, einige Hinweise, die es wert sind, erwähnt zu werden. Laut einigen zuvor von OpenAI veröffentlichten Informationen wissen wir, dass ChatGPT untrennbar mit mehreren Schlüsseltechnologien verbunden ist, darunter kontextbezogenes Lernen, Gedankenkette und Lernen aus Anweisungen. Qiu Xipeng wies in seinem Vortrag darauf hin, dass in dieser Richtung noch viele Fragen zu diskutieren seien, etwa woher diese Fähigkeiten kommen, wie man sich weiter verbessern könne und wie man sie nutzen könne, um bestehende Lernparadigmen zu transformieren. Darüber hinaus teilte er auch die Fähigkeiten mit, die bei der Erstellung groß angelegter Konversationssprachmodelle berücksichtigt werden sollten, und die Forschungsrichtungen, die in Betracht gezogen werden können, um diese Modelle mit der realen Welt in Einklang zu bringen.

Zur zweiten Frage hat Nanqiang Distinguished Professor Ji Rongrong von der Universität Xiamen eine wichtige Idee beigesteuert. Er glaubt, dass es einen natürlichen Zusammenhang zwischen Sprache und Sehen gibt und dass gemeinsames Lernen zwischen beiden der allgemeine Trend ist. Aber angesichts dieser Welle ist die Macht einer Universität oder eines Labors unbedeutend. Ausgehend von der Xiamen-Universität, an der er arbeitet, versucht er nun, Forscher davon zu überzeugen, Rechenleistung zu integrieren und ein Netzwerk zu bilden, um große multimodale Modelle zu erstellen. Tatsächlich äußerte Akademiker E Weinan, der sich auf KI für die Wissenschaft konzentriert, bei einer Veranstaltung vor einiger Zeit ähnliche Ansichten und hoffte, dass alle Lebensbereiche „es wagen würden, Ressourcen in originelle Innovationsrichtungen zu bündeln“.

Aber wird der von GPT-4 eingeschlagene Weg definitiv zu allgemeiner künstlicher Intelligenz führen? Einige Forscher stehen dem skeptisch gegenüber, und Turing-Preisträger Yann LeCun ist einer von ihnen. Er glaubt, dass diese aktuellen großen Modelle einen enormen Bedarf an Daten und Rechenleistung haben, ihre Lerneffizienz jedoch sehr gering ist (z. B. selbstfahrende Autos). Deshalb entwickelte er eine Theorie namens „Weltmodell“ (ein internes Modell der Funktionsweise der Welt) und glaubte, dass das Erlernen eines Weltmodells (das als Ausführen einer Simulation für die reale Welt verstanden werden kann) der Schlüssel zum Erreichen von AGI sein könnte. Bei der Veranstaltung teilte „Professor Yang Xiaokang von der Shanghai Jiao Tong University“ seine Arbeit in dieser Richtung mit. Sein Team konzentrierte sich insbesondere auf das Weltmodell der visuellen Intuition (da visuelle Intuition eine große Menge an Informationen enthält) und versuchte, Vision, Intuition und die Wahrnehmung von Zeit und Raum zu modellieren. Abschließend betonte er auch die Bedeutung der Schnittstelle zwischen Mathematik, Physik, Informationskognition und Computerdisziplinen für diese Art von Forschung. „Eine Raupe extrahiert Nährstoffe aus der Nahrung und verwandelt sich dann in einen Schmetterling. Die Menschen haben Milliarden von Hinweisen zum Verständnis extrahiert. GPT-4 ist der menschliche Schmetterling.“ Am Tag nach der Veröffentlichung von GPT-4 twitterte Deep-Learning-Pater Geoffrey Hinton Das.

Derzeit kann niemand sagen, wie groß der Hurrikan sein wird, den dieser Schmetterling auslösen wird. Aber natürlich ist dies noch kein perfekter Schmetterling und das gesamte AGI-Welträtsel ist noch nicht vollständig. Jeder Forscher und Praktiker hat noch Möglichkeiten.

Das obige ist der detaillierte Inhalt vonWenn GPT-4 lernt, Bilder und Texte zu lesen, ist eine Produktivitätsrevolution unaufhaltsam. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7461

CakePHP-Tutorial

1376

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Das Stable Diffusion 3-Papier wird endlich veröffentlicht und die architektonischen Details werden enthüllt. Wird es helfen, Sora zu reproduzieren? Mar 06, 2024 pm 05:34 PM

Der Artikel von StableDiffusion3 ist endlich da! Dieses Modell wurde vor zwei Wochen veröffentlicht und verwendet die gleiche DiT-Architektur (DiffusionTransformer) wie Sora. Nach seiner Veröffentlichung sorgte es für großes Aufsehen. Im Vergleich zur Vorgängerversion wurde die Qualität der von StableDiffusion3 generierten Bilder erheblich verbessert. Es unterstützt jetzt Eingabeaufforderungen mit mehreren Themen, und der Textschreibeffekt wurde ebenfalls verbessert, und es werden keine verstümmelten Zeichen mehr angezeigt. StabilityAI wies darauf hin, dass es sich bei StableDiffusion3 um eine Reihe von Modellen mit Parametergrößen von 800 M bis 8 B handelt. Durch diesen Parameterbereich kann das Modell direkt auf vielen tragbaren Geräten ausgeführt werden, wodurch der Einsatz von KI deutlich reduziert wird

Dieser Artikel reicht aus, um etwas über autonomes Fahren und Flugbahnvorhersage zu lesen! Feb 28, 2024 pm 07:20 PM

Die Trajektorienvorhersage spielt eine wichtige Rolle beim autonomen Fahren. Unter autonomer Fahrtrajektorienvorhersage versteht man die Vorhersage der zukünftigen Fahrtrajektorie des Fahrzeugs durch die Analyse verschiedener Daten während des Fahrvorgangs. Als Kernmodul des autonomen Fahrens ist die Qualität der Trajektorienvorhersage von entscheidender Bedeutung für die nachgelagerte Planungssteuerung. Die Trajektorienvorhersageaufgabe verfügt über einen umfangreichen Technologie-Stack und erfordert Vertrautheit mit der dynamischen/statischen Wahrnehmung des autonomen Fahrens, hochpräzisen Karten, Fahrspurlinien, Fähigkeiten in der neuronalen Netzwerkarchitektur (CNN&GNN&Transformer) usw. Der Einstieg ist sehr schwierig! Viele Fans hoffen, so schnell wie möglich mit der Flugbahnvorhersage beginnen zu können und Fallstricke zu vermeiden. Heute werde ich eine Bestandsaufnahme einiger häufiger Probleme und einführender Lernmethoden für die Flugbahnvorhersage machen! Einführungsbezogenes Wissen 1. Sind die Vorschaupapiere in Ordnung? A: Schauen Sie sich zuerst die Umfrage an, S

DualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch! Mar 21, 2024 pm 05:21 PM

In diesem Artikel wird das Problem der genauen Erkennung von Objekten aus verschiedenen Blickwinkeln (z. B. Perspektive und Vogelperspektive) beim autonomen Fahren untersucht, insbesondere wie die Transformation von Merkmalen aus der Perspektive (PV) in den Raum aus der Vogelperspektive (BEV) effektiv ist implementiert über das Modul Visual Transformation (VT). Bestehende Methoden lassen sich grob in zwei Strategien unterteilen: 2D-zu-3D- und 3D-zu-2D-Konvertierung. 2D-zu-3D-Methoden verbessern dichte 2D-Merkmale durch die Vorhersage von Tiefenwahrscheinlichkeiten, aber die inhärente Unsicherheit von Tiefenvorhersagen, insbesondere in entfernten Regionen, kann zu Ungenauigkeiten führen. Während 3D-zu-2D-Methoden normalerweise 3D-Abfragen verwenden, um 2D-Features abzutasten und die Aufmerksamkeitsgewichte der Korrespondenz zwischen 3D- und 2D-Features über einen Transformer zu lernen, erhöht sich die Rechen- und Bereitstellungszeit.

Das erste Weltmodell zur Erzeugung autonomer Fahrszenen mit mehreren Ansichten | DrivingDiffusion: Neue Ideen für BEV-Daten und Simulation Oct 23, 2023 am 11:13 AM

Einige persönliche Gedanken des Autors Im Bereich des autonomen Fahrens sind mit der Entwicklung BEV-basierter Teilaufgaben/End-to-End-Lösungen hochwertige Multi-View-Trainingsdaten und der entsprechende Aufbau von Simulationsszenen immer wichtiger geworden. Als Reaktion auf die Schwachstellen aktueller Aufgaben kann „hohe Qualität“ in drei Aspekte zerlegt werden: Long-Tail-Szenarien in verschiedenen Dimensionen: z. B. Nahbereichsfahrzeuge in Hindernisdaten und präzise Kurswinkel beim Schneiden von Autos sowie Spurliniendaten . Szenen wie Kurven mit unterschiedlichen Krümmungen oder Rampen/Zusammenführungen/Zusammenführungen, die schwer zu erfassen sind. Diese basieren häufig auf der Sammlung großer Datenmengen und komplexen Data-Mining-Strategien, die kostspielig sind. Echter 3D-Wert – hochkonsistentes Bild: Die aktuelle BEV-Datenerfassung wird häufig durch Fehler bei der Sensorinstallation/-kalibrierung, hochpräzisen Karten und dem Rekonstruktionsalgorithmus selbst beeinträchtigt. das hat mich dazu geführt

„Minecraft' verwandelt sich in eine KI-Stadt und NPC-Bewohner spielen Rollenspiele wie echte Menschen Jan 02, 2024 pm 06:25 PM

Bitte beachten Sie, dass dieser kantige Mann die Stirn runzelt und über die Identität der „ungebetenen Gäste“ vor ihm nachdenkt. Es stellte sich heraus, dass sie sich in einer gefährlichen Situation befand, und als ihr dies klar wurde, begann sie schnell mit der mentalen Suche nach einer Strategie zur Lösung des Problems. Letztendlich entschloss sie sich, vom Unfallort zu fliehen, dann so schnell wie möglich Hilfe zu suchen und sofort Maßnahmen zu ergreifen. Gleichzeitig dachte die Person auf der Gegenseite das Gleiche wie sie... In „Minecraft“ gab es eine solche Szene, in der alle Charaktere von künstlicher Intelligenz gesteuert wurden. Jeder von ihnen hat eine einzigartige Identität. Das zuvor erwähnte Mädchen ist beispielsweise eine 17-jährige, aber kluge und mutige Kurierin. Sie haben die Fähigkeit, sich zu erinnern und zu denken und in dieser kleinen Stadt in Minecraft wie Menschen zu leben. Was sie antreibt, ist ein brandneues,

So bearbeiten Sie Fotos auf dem iPhone mit iOS 17 Nov 30, 2023 pm 11:39 PM

Die mobile Fotografie hat die Art und Weise, wie wir die Momente des Lebens festhalten und teilen, grundlegend verändert. Das Aufkommen von Smartphones, insbesondere des iPhone, spielte bei diesem Wandel eine Schlüsselrolle. Das iPhone ist für seine fortschrittliche Kameratechnologie und benutzerfreundlichen Bearbeitungsfunktionen bekannt und zur ersten Wahl sowohl für Amateur- als auch für erfahrene Fotografen geworden. Die Einführung von iOS 17 markiert einen wichtigen Meilenstein auf diesem Weg. Das neueste Update von Apple bietet erweiterte Fotobearbeitungsfunktionen und gibt Benutzern ein leistungsfähigeres Toolkit an die Hand, mit dem sie ihre alltäglichen Schnappschüsse in visuell ansprechende und künstlerisch anspruchsvolle Bilder umwandeln können. Diese technologische Entwicklung vereinfacht nicht nur den Fotografieprozess, sondern eröffnet auch neue Möglichkeiten für den kreativen Ausdruck und ermöglicht es Benutzern, ihren Fotos mühelos eine professionelle Note zu verleihen

Rezension! Tiefe Modellfusion (LLM/Basismodell/Verbundlernen/Feinabstimmung usw.) Apr 18, 2024 pm 09:43 PM

Am 23. September wurde das Papier „DeepModelFusion:ASurvey“ von der National University of Defense Technology, JD.com und dem Beijing Institute of Technology veröffentlicht. Deep Model Fusion/Merging ist eine neue Technologie, die die Parameter oder Vorhersagen mehrerer Deep-Learning-Modelle in einem einzigen Modell kombiniert. Es kombiniert die Fähigkeiten verschiedener Modelle, um die Verzerrungen und Fehler einzelner Modelle zu kompensieren und so eine bessere Leistung zu erzielen. Die tiefe Modellfusion bei groß angelegten Deep-Learning-Modellen (wie LLM und Basismodellen) steht vor einigen Herausforderungen, darunter hohe Rechenkosten, hochdimensionaler Parameterraum, Interferenzen zwischen verschiedenen heterogenen Modellen usw. Dieser Artikel unterteilt bestehende Methoden zur Tiefenmodellfusion in vier Kategorien: (1) „Musterverbindung“, die Lösungen im Gewichtsraum über einen verlustreduzierenden Pfad verbindet, um eine bessere anfängliche Modellfusion zu erzielen

Mehr als nur 3D-Gauß! Aktueller Überblick über modernste 3D-Rekonstruktionstechniken Jun 02, 2024 pm 06:57 PM

Oben geschrieben & Nach persönlichem Verständnis des Autors ist die bildbasierte 3D-Rekonstruktion eine anspruchsvolle Aufgabe, bei der aus einer Reihe von Eingabebildern auf die 3D-Form eines Objekts oder einer Szene geschlossen werden muss. Lernbasierte Methoden haben wegen ihrer Fähigkeit, 3D-Formen direkt abzuschätzen, Aufmerksamkeit erregt. Dieser Übersichtsartikel konzentriert sich auf modernste 3D-Rekonstruktionstechniken, einschließlich der Generierung neuartiger, unsichtbarer Ansichten. Es wird ein Überblick über die jüngsten Entwicklungen bei Gaußschen Splash-Methoden gegeben, einschließlich Eingabetypen, Modellstrukturen, Ausgabedarstellungen und Trainingsstrategien. Auch ungelöste Herausforderungen und zukünftige Ausrichtungen werden besprochen. Angesichts der rasanten Fortschritte auf diesem Gebiet und der zahlreichen Möglichkeiten zur Verbesserung der 3D-Rekonstruktionsmethoden scheint eine gründliche Untersuchung des Algorithmus von entscheidender Bedeutung zu sein. Daher bietet diese Studie einen umfassenden Überblick über die jüngsten Fortschritte in der Gaußschen Streuung. (Wischen Sie mit dem Daumen nach oben

See all articles