Stereosehen und Tiefenwahrnehmung in Computer Vision und Beispiele-KI-php.cn

Inhaltsverzeichnis

Stereo Vision und Tiefenwahrnehmung in Computer Vision Python Beispielimplementierung:

App

Oberflächen ohne Textur und Merkmale: Stereo-Matching-Algorithmen basieren auf der Suche nach entsprechenden Merkmalen im linken und rechten Bild. Bei Oberflächen, denen es an Textur oder einzigartigen Merkmalen mangelt, wie etwa glatte Wände oder gleichmäßige Hintergründe, kann es schwierig sein, sie genau abzugleichen, was zu Fehlern bei der Tiefenschätzung führt.

Heim

Technologie-Peripheriegeräte

Stereosehen und Tiefenwahrnehmung in Computer Vision und Beispiele

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 21, 2023 am 08:21 AM

人工智能计算机视觉

In der faszinierenden Welt der künstlichen Intelligenz und Bildverarbeitung spielen diese Konzepte eine Schlüsselrolle dabei, dass Maschinen die dreidimensionale Welt um uns herum genauso wahrnehmen können wie unsere Augen. Erkunden Sie mit uns die Technologie hinter Stereovision und Tiefenwahrnehmung und enthüllen Sie die Geheimnisse, wie Computer anhand von 2D-Bildern Tiefe, Entfernung und Raum verstehen.

Stereosehen und Tiefenwahrnehmung in Computer Vision und Beispiele

Was genau bedeuten Stereovision und Tiefenwahrnehmung in der Computer Vision?

Stereovision und Tiefenwahrnehmung sind wichtige Konzepte im Bereich Computer Vision, die darauf abzielen, die menschliche Fähigkeit nachzuahmen, aus visuellen Informationen Tiefe und dreidimensionale Struktur wahrzunehmen. Diese Konzepte werden häufig in Bereichen wie Robotik, selbstfahrenden Autos und Augmented Reality angewendet.

Stereoskopisches Sehen

Stereoskopisches Sehen, auch Stereopsis oder binokulares Sehen genannt, ist eine Methode zur Erfassung und Analyse zweier Objekte, die leicht voneinander entfernt platziert sind Eine Technologie, die Bilder von einer oder mehreren Kameras nutzt, um die Tiefe einer Szene wahrzunehmen und dabei die Funktionsweise des menschlichen Auges nachahmt.

Das Grundprinzip des Stereosehens ist die Triangulation. Wenn zwei Kameras (oder „Stereokameras“) Bilder derselben Szene aus leicht unterschiedlichen Blickwinkeln aufnehmen, enthalten die resultierenden Bildpaare, sogenannte Stereopaare, den Unterschied oder die Differenz in den Positionen entsprechender Punkte in den beiden Bildern.

Durch die Analyse dieser Unterschiede können Computer-Vision-Systeme Tiefeninformationen für Objekte in der Szene berechnen. Bei Objekten, die näher an der Kamera sind, sind die Unterschiede größer, bei Objekten, die weiter von der Kamera entfernt sind, sind die Unterschiede geringer.

Stereo-Vision-Algorithmen umfassen typischerweise Techniken wie Feature Matching, Disparity Mapping und epipolare Geometrie, die zur Berechnung einer Tiefenkarte oder 3D-Darstellung einer Szene verwendet werden die Fähigkeit eines Systems, Informationen aus einem einzelnen zu extrahieren. Die Fähigkeit, die Entfernung von Objekten in einer 3D-Szene aus mehreren 2D-Bildern oder Videobildern zu verstehen und abzuschätzen.

Methoden zur Erzielung einer Tiefenwahrnehmung beschränken sich nicht nur auf stereoskopisches Sehen, sondern können auch auf andere Weise genutzt werden auch verwendet werden, einschließlich:

Monokulare Hinweise: Dies sind die Dinge, die in einem einzigen Tiefenhinweis erfolgen können, der in einer Kamera oder einem Bild wahrgenommen wird. Beispiele hierfür sind Perspektive, Texturverläufe, Schatten und Okklusion. Diese Hinweise können helfen, die Tiefe auch ohne Stereovision abzuschätzen.

LiDAR (Light Detection and Ranging): LiDAR-Sensoren messen mithilfe von Laserstrahlen die Entfernung von Objekten in einer Szene und liefern präzise Tiefeninformationen in Form von Punktwolken. Diese Informationen können für eine genauere Tiefenwahrnehmung mit visuellen Daten kombiniert werden.

Strukturiertes Licht: Bei strukturiertem Licht wird ein bekanntes Muster auf eine Szene projiziert und die Verformung dieses Musters auf Objekten in der Szene analysiert. Aus dieser Verformung können Tiefeninformationen berechnet werden.

Time of Flight (ToF)-Kamera: Eine ToF-Kamera misst die Zeit, die Licht benötigt, um von einem Objekt reflektiert zu werden und zur Kamera zurückzukehren. Diese Informationen werden zur Schätzung der Tiefe verwendet.
In Computer-Vision-Anwendungen ist die Tiefenwahrnehmung entscheidend für Aufgaben wie das Vermeiden von Hindernissen, das Identifizieren von Objekten, das Durchführen von 3D-Rekonstruktionen und das Verstehen von Szenen

Stereo-Vision und Tiefenwahrnehmungskomponenten in Computer-Vision

Stereokameras: Stereovision basiert auf zwei oder mehr Kameras (Stereokameras), die in einem bekannten Abstand voneinander platziert sind. Diese Kameras nehmen Bilder derselben Szene aus leicht unterschiedlichen Blickwinkeln auf und simulieren so die Art und Weise, wie das menschliche Auge die Tiefe wahrnimmt.

Bildaufnahme: Die Kamera erfasst Bilder oder Videobilder der Szene. Diese Bilder werden oft als linkes Bild (von der linken Kamera) und rechtes Bild (von der rechten Kamera) bezeichnet.

Kalibrierung: Um Tiefeninformationen genau berechnen zu können, muss die Stereokamera kalibriert werden. Dieser Prozess beinhaltet die Bestimmung von Kameraparametern wie intrinsischen Matrizen, Verzerrungskoeffizienten und extrinsischen Parametern (Rotationen und Translationen zwischen Kameras). Durch die Kalibrierung wird sichergestellt, dass die Bilder der beiden Kameras korrigiert und korrekt abgeglichen werden.

Korrektur: Bei der Korrektur handelt es sich um eine geometrische Transformation, die auf das aufgenommene Bild angewendet wird, um entsprechende Merkmale auf den Epipolarlinien auszurichten. Dies vereinfacht den Stereo-Matching-Prozess, indem Unterschiede vorhersehbarer werden.
Stereo-Matching: Beim Stereo-Matching werden entsprechende Punkte oder Matching-Punkte zwischen dem linken Bild und dem rechten Bild gefunden. Der Pixelwert, der zur Berechnung der Differenz für jedes Pixel verwendet wird, wird als Disparität bezeichnet und stellt die horizontale Verschiebung des Merkmals im Bild dar. Zum Auffinden dieser entsprechenden Punkte stehen verschiedene Stereo-Matching-Algorithmen zur Verfügung, darunter Block-Matching, semi-globales Matching und Graph Cuts.
- Differenzkarte: Eine Differenzkarte ist ein Graustufenbild, in dem der Intensitätswert jedes Pixels der Differenz oder Tiefe an diesem Punkt in der Szene entspricht. Bei Objekten, die näher an der Kamera liegen, sind die Unterschiede größer, bei Objekten, die weiter von der Kamera entfernt sind, sind die Unterschiede geringer.
- Tiefenkarte: Die Tiefenkarte wird aus der Differenzkarte abgeleitet, indem eine bekannte Basislinie (Abstand zwischen Kameras) und die Brennweite der Kamera verwendet werden. Es berechnet die Tiefe in realen Einheiten (z. B. Metern) für jedes Pixel, nicht die Differenz.
- Visualisierung: Tiefen- und Differenzkarten werden häufig visualisiert, um eine für Menschen lesbare Darstellung der 3D-Struktur einer Szene bereitzustellen. Diese Diagramme können als Graustufenbilder angezeigt oder zur 3D-Visualisierung in Punktwolken umgewandelt werden.
- Einige Hardware: Zusätzlich zu Kameras können Sie auch spezielle Hardware wie Tiefenerkennungskameras (wie Microsoft Kinect, Intel RealSense) oder LiDAR-Sensoren (Light Detection and Ranging) verwenden, um Tiefeninformationen zu erhalten. Diese Sensoren liefern die Tiefe direkt, ohne dass eine Stereoanpassung erforderlich ist.
Stereo Vision und Tiefenwahrnehmung in Computer Vision Python Beispielimplementierung:
```
import cv2import numpy as np# Create two video capture objects for left and right cameras (adjust device IDs as needed)left_camera = cv2.VideoCapture(0)right_camera = cv2.VideoCapture(1)# Set camera resolution (adjust as needed)width = 640height = 480left_camera.set(cv2.CAP_PROP_FRAME_WIDTH, width)left_camera.set(cv2.CAP_PROP_FRAME_HEIGHT, height)right_camera.set(cv2.CAP_PROP_FRAME_WIDTH, width)right_camera.set(cv2.CAP_PROP_FRAME_HEIGHT, height)# Load stereo calibration data (you need to calibrate your stereo camera setup first)stereo_calibration_file = ‘stereo_calibration.yml’calibration_data = cv2.FileStorage(stereo_calibration_file, cv2.FILE_STORAGE_READ)if not calibration_data.isOpened():print(“Calibration file not found.”)exit()camera_matrix_left = calibration_data.getNode(‘cameraMatrixLeft’).mat()camera_matrix_right = calibration_data.getNode(‘cameraMatrixRight’).mat()distortion_coeff_left = calibration_data.getNode(‘distCoeffsLeft’).mat()distortion_coeff_right = calibration_data.getNode(‘distCoeffsRight’).mat()R = calibration_data.getNode(‘R’).mat()T = calibration_data.getNode(‘T’).mat()calibration_data.release()# Create stereo rectification mapsR1, R2, P1, P2, Q, _, _ = cv2.stereoRectify(camera_matrix_left, distortion_coeff_left,camera_matrix_right, distortion_coeff_right,(width, height), R, T)left_map1, left_map2 = cv2.initUndistortRectifyMap(camera_matrix_left, distortion_coeff_left, R1, P1, (width, height), cv2.CV_32FC1)right_map1, right_map2 = cv2.initUndistortRectifyMap(camera_matrix_right, distortion_coeff_right, R2, P2, (width, height), cv2.CV_32FC1)while True:# Capture frames from left and right camerasret1, left_frame = left_camera.read()ret2, right_frame = right_camera.read()if not ret1 or not ret2:print(“Failed to capture frames.”)break# Undistort and rectify framesleft_frame_rectified = cv2.remap(left_frame, left_map1, left_map2, interpolation=cv2.INTER_LINEAR)right_frame_rectified = cv2.remap(right_frame, right_map1, right_map2, interpolation=cv2.INTER_LINEAR)# Convert frames to grayscaleleft_gray = cv2.cvtColor(left_frame_rectified, cv2.COLOR_BGR2GRAY)right_gray = cv2.cvtColor(right_frame_rectified, cv2.COLOR_BGR2GRAY)# Perform stereo matching to calculate depth map (adjust parameters as needed)stereo = cv2.StereoBM_create(numDisparities=16, blockSize=15)disparity = stereo.compute(left_gray, right_gray)# Normalize the disparity map for visualizationdisparity_normalized = cv2.normalize(disparity, None, alpha=0, beta=255, norm_type=cv2.NORM_MINMAX, dtype=cv2.CV_8U)# Display the disparity mapcv2.imshow(‘Disparity Map’, disparity_normalized)if cv2.waitKey(1) & 0xFF == ord(‘q’):break# Release resourcesleft_camera.release()right_camera.release()cv2.destroyAllWindows()
```
Nach dem Login kopieren
Hinweis: Für die Einrichtung einer Stereokamera ist eine Kamerakalibrierung erforderlich und die Kalibrierungsdaten werden in einer .yml-Datei gespeichert. Geben Sie den Pfad in den Beispielcode ein .

App

nutzt Tiefeninformationen zur Zielerkennung und -verfolgung, um eine präzisere Positionierung und Identifizierung zu erreichen. Durch die Nutzung von Tiefeninformationen für Virtual-Reality- und Augmented-Reality-Anwendungen können Benutzer realistischer mit virtuellen Umgebungen interagieren. Nutzen Sie Tiefeninformationen für die Gesichtserkennung und Ausdrucksanalyse, um die Genauigkeit und Robustheit der Gesichtserkennung zu verbessern. Nutzen Sie Tiefeninformationen für die 3D-Rekonstruktion und -Modellierung, um realistische 3D-Szenen zu generieren. Nutzen Sie Tiefeninformationen zur Haltungsschätzung und Verhaltensanalyse, um eine genauere Handlungserkennung und ein genaueres Verhaltensverständnis zu erreichen. Nutzen Sie Tiefeninformationen für autonomes Fahren und Roboternavigation, um die Sicherheit und Effizienz im Bereich des intelligenten Transports und der Automatisierung zu verbessern Realität

Gestenerkennung
- Einschränkungen
- Hier sind einige wichtige Einschränkungen:
- Abhängigkeit von der Kamerakalibrierung: Stereovisionssysteme erfordern eine genaue Kalibrierung der verwendeten Kameras. Eine genaue Kalibrierung ist entscheidend, um eine korrekte Berechnung der Tiefeninformationen sicherzustellen. Jegliche Fehler bei der Kalibrierung können zu einer ungenauen Tiefenwahrnehmung führen.
- Begrenztes Sichtfeld: Stereo-Vision-Systeme haben ein begrenztes Sichtfeld, basierend auf dem Basisabstand zwischen den beiden Kameras. Dies kann zu toten Winkeln oder Schwierigkeiten bei der Wahrnehmung von Objekten außerhalb des Sichtfelds beider Kameras führen.
Oberflächen ohne Textur und Merkmale: Stereo-Matching-Algorithmen basieren auf der Suche nach entsprechenden Merkmalen im linken und rechten Bild. Bei Oberflächen, denen es an Textur oder einzigartigen Merkmalen mangelt, wie etwa glatte Wände oder gleichmäßige Hintergründe, kann es schwierig sein, sie genau abzugleichen, was zu Fehlern bei der Tiefenschätzung führt.

Okklusion: Objekte, die sich in der Szene gegenseitig verdecken, können zu Schwierigkeiten beim stereoskopischen Sehen führen. Wenn ein Objekt ein anderes Objekt teilweise blockiert, kann die Bestimmung der Tiefe des verdeckten Bereichs problematisch sein.

Begrenzte Reichweite und Auflösung: Die Genauigkeit der Tiefenwahrnehmung mithilfe von Stereovision nimmt mit zunehmender Entfernung von der Kamera ab. Darüber hinaus nimmt die Auflösung von Tiefenmessungen mit zunehmender Entfernung ab, sodass die Details entfernter Objekte nur schwer erkennbar sind.
- Rechenressourcen: Stereo-Matching-Algorithmen können umfangreiche Rechenressourcen erfordern, insbesondere bei der Verarbeitung hochauflösender Bilder oder Echtzeit-Videostreams. Echtzeitanwendungen erfordern möglicherweise leistungsstarke Hardware für eine effiziente Verarbeitung.
- Kosten und Komplexität: Die Einrichtung eines Stereobildsystems mit kalibrierten Kameras kann teuer und zeitaufwändig sein. Hardwareanforderungen, einschließlich Kameras und Kalibrierungsausrüstung, können für einige Anwendungen ein Hindernis darstellen.
- Ungenauigkeiten bei transparenten oder reflektierenden Objekten: Transparente oder stark reflektierende Oberflächen können zu Fehlern beim stereoskopischen Sehen führen, da diese Materialien das Licht möglicherweise nicht in einer für die Tiefenwahrnehmung geeigneten Weise reflektieren.
- Dynamische Szenen: Stereovision geht davon aus, dass die Szene während der Bildaufnahme statisch ist. In dynamischen Szenen mit sich bewegenden Objekten oder Kamerabewegungen kann die Aufrechterhaltung der Übereinstimmung zwischen linken und rechten Bildern eine Herausforderung sein, was zu einer ungenauen Tiefenschätzung führt.
- Eingeschränkte Verwendung im Freien: Stereo-Vision-Systeme können in Außenumgebungen mit hellem Sonnenlicht oder Szenen ohne Textur, wie z. B. bei klarem Himmel, Probleme haben.
- Zusammenfassend lässt sich sagen, dass stereoskopisches Sehen und Tiefenwahrnehmung in Computer Vision neue Möglichkeiten für Maschinen eröffnen, mit dem dreidimensionalen Reichtum unserer Umgebung zu interagieren und ihn zu verstehen. Wie wir in diesem Artikel diskutieren, bilden diese Technologien den Kern einer Vielzahl von Anwendungen, darunter Bereiche wie Robotik und autonome Fahrzeuge, Augmented Reality und medizinische Bildgebung

Das obige ist der detaillierte Inhalt vonStereosehen und Tiefenwahrnehmung in Computer Vision und Beispiele. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

Ersparnis in R.E.P.O. Erklärt (und speichern Dateien)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassins Creed Shadows - So finden Sie den Schmied und entsperren Sie die Waffen- und Rüstungsanpassung

4 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7569

CakePHP-Tutorial

1386

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

107

Related knowledge

Bytedance Cutting führt SVIP-Supermitgliedschaft ein: 499 Yuan für ein fortlaufendes Jahresabonnement, das eine Vielzahl von KI-Funktionen bietet Jun 28, 2024 am 03:51 AM

Diese Seite berichtete am 27. Juni, dass Jianying eine von FaceMeng Technology, einer Tochtergesellschaft von ByteDance, entwickelte Videobearbeitungssoftware ist, die auf der Douyin-Plattform basiert und grundsätzlich kurze Videoinhalte für Benutzer der Plattform produziert Windows, MacOS und andere Betriebssysteme. Jianying kündigte offiziell die Aktualisierung seines Mitgliedschaftssystems an und führte ein neues SVIP ein, das eine Vielzahl von KI-Schwarztechnologien umfasst, wie z. B. intelligente Übersetzung, intelligente Hervorhebung, intelligente Verpackung, digitale menschliche Synthese usw. Preislich beträgt die monatliche Gebühr für das Clipping von SVIP 79 Yuan, die Jahresgebühr 599 Yuan (Hinweis auf dieser Website: entspricht 49,9 Yuan pro Monat), das fortlaufende Monatsabonnement beträgt 59 Yuan pro Monat und das fortlaufende Jahresabonnement beträgt 499 Yuan pro Jahr (entspricht 41,6 Yuan pro Monat). Darüber hinaus erklärte der Cut-Beamte auch, dass diejenigen, die den ursprünglichen VIP abonniert haben, das Benutzererlebnis verbessern sollen

Kontexterweiterter KI-Codierungsassistent mit Rag und Sem-Rag Jun 10, 2024 am 11:08 AM

Verbessern Sie die Produktivität, Effizienz und Genauigkeit der Entwickler, indem Sie eine abrufgestützte Generierung und ein semantisches Gedächtnis in KI-Codierungsassistenten integrieren. Übersetzt aus EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, Autor JanakiramMSV. Obwohl grundlegende KI-Programmierassistenten natürlich hilfreich sind, können sie oft nicht die relevantesten und korrektesten Codevorschläge liefern, da sie auf einem allgemeinen Verständnis der Softwaresprache und den gängigsten Mustern beim Schreiben von Software basieren. Der von diesen Coding-Assistenten generierte Code eignet sich zur Lösung der von ihnen zu lösenden Probleme, entspricht jedoch häufig nicht den Coding-Standards, -Konventionen und -Stilen der einzelnen Teams. Dabei entstehen häufig Vorschläge, die geändert oder verfeinert werden müssen, damit der Code in die Anwendung übernommen wird

Kann LLM durch Feinabstimmung wirklich neue Dinge lernen: Die Einführung neuen Wissens kann dazu führen, dass das Modell mehr Halluzinationen hervorruft Jun 11, 2024 pm 03:57 PM

Large Language Models (LLMs) werden auf riesigen Textdatenbanken trainiert und erwerben dort große Mengen an realem Wissen. Dieses Wissen wird in ihre Parameter eingebettet und kann dann bei Bedarf genutzt werden. Das Wissen über diese Modelle wird am Ende der Ausbildung „verdinglicht“. Am Ende des Vortrainings hört das Modell tatsächlich auf zu lernen. Richten Sie das Modell aus oder verfeinern Sie es, um zu erfahren, wie Sie dieses Wissen nutzen und natürlicher auf Benutzerfragen reagieren können. Aber manchmal reicht Modellwissen nicht aus, und obwohl das Modell über RAG auf externe Inhalte zugreifen kann, wird es als vorteilhaft angesehen, das Modell durch Feinabstimmung an neue Domänen anzupassen. Diese Feinabstimmung erfolgt mithilfe von Eingaben menschlicher Annotatoren oder anderer LLM-Kreationen, wobei das Modell auf zusätzliches Wissen aus der realen Welt trifft und dieses integriert

Sieben coole technische Interviewfragen für GenAI und LLM Jun 07, 2024 am 10:06 AM

Um mehr über AIGC zu erfahren, besuchen Sie bitte: 51CTOAI.x Community https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou unterscheidet sich von der traditionellen Fragendatenbank, die überall im Internet zu sehen ist erfordert einen Blick über den Tellerrand hinaus. Large Language Models (LLMs) gewinnen in den Bereichen Datenwissenschaft, generative künstliche Intelligenz (GenAI) und künstliche Intelligenz zunehmend an Bedeutung. Diese komplexen Algorithmen verbessern die menschlichen Fähigkeiten, treiben Effizienz und Innovation in vielen Branchen voran und werden zum Schlüssel für Unternehmen, um wettbewerbsfähig zu bleiben. LLM hat ein breites Anwendungsspektrum und kann in Bereichen wie der Verarbeitung natürlicher Sprache, der Textgenerierung, der Spracherkennung und Empfehlungssystemen eingesetzt werden. Durch das Lernen aus großen Datenmengen ist LLM in der Lage, Text zu generieren

Fünf Schulen des maschinellen Lernens, die Sie nicht kennen Jun 05, 2024 pm 08:51 PM

Maschinelles Lernen ist ein wichtiger Zweig der künstlichen Intelligenz, der Computern die Möglichkeit gibt, aus Daten zu lernen und ihre Fähigkeiten zu verbessern, ohne explizit programmiert zu werden. Maschinelles Lernen hat ein breites Anwendungsspektrum in verschiedenen Bereichen, von der Bilderkennung und der Verarbeitung natürlicher Sprache bis hin zu Empfehlungssystemen und Betrugserkennung, und es verändert unsere Lebensweise. Im Bereich des maschinellen Lernens gibt es viele verschiedene Methoden und Theorien, von denen die fünf einflussreichsten Methoden als „Fünf Schulen des maschinellen Lernens“ bezeichnet werden. Die fünf Hauptschulen sind die symbolische Schule, die konnektionistische Schule, die evolutionäre Schule, die Bayes'sche Schule und die Analogieschule. 1. Der Symbolismus, auch Symbolismus genannt, betont die Verwendung von Symbolen zum logischen Denken und zum Ausdruck von Wissen. Diese Denkrichtung glaubt, dass Lernen ein Prozess der umgekehrten Schlussfolgerung durch das Vorhandene ist

Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Jul 25, 2024 am 06:42 AM

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

SOTA Performance, eine multimodale KI-Methode zur Vorhersage der Protein-Ligand-Affinität in Xiamen, kombiniert erstmals molekulare Oberflächeninformationen Jul 17, 2024 pm 06:37 PM

Herausgeber |. KX Im Bereich der Arzneimittelforschung und -entwicklung ist die genaue und effektive Vorhersage der Bindungsaffinität von Proteinen und Liganden für das Arzneimittelscreening und die Arzneimitteloptimierung von entscheidender Bedeutung. Aktuelle Studien berücksichtigen jedoch nicht die wichtige Rolle molekularer Oberflächeninformationen bei Protein-Ligand-Wechselwirkungen. Auf dieser Grundlage schlugen Forscher der Universität Xiamen ein neuartiges Framework zur multimodalen Merkmalsextraktion (MFE) vor, das erstmals Informationen über Proteinoberfläche, 3D-Struktur und -Sequenz kombiniert und einen Kreuzaufmerksamkeitsmechanismus verwendet, um verschiedene Modalitäten zu vergleichen Ausrichtung. Experimentelle Ergebnisse zeigen, dass diese Methode bei der Vorhersage von Protein-Ligand-Bindungsaffinitäten Spitzenleistungen erbringt. Darüber hinaus belegen Ablationsstudien die Wirksamkeit und Notwendigkeit der Proteinoberflächeninformation und der multimodalen Merkmalsausrichtung innerhalb dieses Rahmens. Verwandte Forschungen beginnen mit „S

SK Hynix wird am 6. August neue KI-bezogene Produkte vorstellen: 12-Layer-HBM3E, 321-High-NAND usw. Aug 01, 2024 pm 09:40 PM

Laut Nachrichten dieser Website vom 1. August hat SK Hynix heute (1. August) einen Blogbeitrag veröffentlicht, in dem es ankündigt, dass es am Global Semiconductor Memory Summit FMS2024 teilnehmen wird, der vom 6. bis 8. August in Santa Clara, Kalifornien, USA, stattfindet viele neue Technologien Generation Produkt. Einführung des Future Memory and Storage Summit (FutureMemoryandStorage), früher Flash Memory Summit (FlashMemorySummit), hauptsächlich für NAND-Anbieter, im Zusammenhang mit der zunehmenden Aufmerksamkeit für die Technologie der künstlichen Intelligenz wurde dieses Jahr in Future Memory and Storage Summit (FutureMemoryandStorage) umbenannt Laden Sie DRAM- und Speicheranbieter und viele weitere Akteure ein. Neues Produkt SK Hynix wurde letztes Jahr auf den Markt gebracht

See all articles