aktueller Standort:Heim > Technische Artikel > Technologie-Peripheriegeräte > KI
- Richtung:
- alle web3.0 Backend-Entwicklung Web-Frontend Datenbank Betrieb und Instandhaltung Entwicklungswerkzeuge PHP-Framework tägliche Programmierung WeChat-Applet häufiges Problem andere Technik CMS-Tutorial Java System-Tutorial Computer-Tutorials Hardware-Tutorial Mobiles Tutorial Software-Tutorial Tutorial für Handyspiele
- Klassifizieren:
-
- NVIDIA hält Mull und Greifnadeln in der Hand und arbeitet mit vielen Universitäten zusammen, um chirurgische Roboter zu entwickeln
- Herausgeber | NVIDIA hat sich mit Forschern der University of Toronto, der University of California, Berkeley, der ETH Zürich und dem Georgia Institute of Technology zusammengetan, um ORBIT-Surgical zu entwickeln, ein Simulationsframework für das Training von Robotern, das die Fähigkeiten technischer Teams verbessern und gleichzeitig die Kosten verringern kann kognitive Belastung von Chirurgen. ORBIT-Surgical ist ein auf künstlicher Intelligenz basierendes Simulationsframework, das durch eine virtuelle Operationsumgebung und ein intelligentes Coaching-System eine äußerst realistische chirurgische Simulation erreicht. Ärzte können mit diesem System interagieren, um die verschiedenen Situationen und Komplexitäten realer Operationen zu simulieren. Diese Simulationstechnologie kann nicht nur dabei helfen, Patienten zu schulen, die sich einer laparoskopischen Operation unterziehen (auch
- KI 566 2024-06-09 13:23:16
-
- CLIP wird als CVPR ausgewählt, wenn es als RNN verwendet wird: Es kann unzählige Konzepte ohne Schulung segmentieren | Oxford University & Google Research
- CLIP wird zyklisch aufgerufen, um unzählige Konzepte ohne zusätzliche Schulung effektiv zu segmentieren. Jede Phrase, einschließlich Filmfiguren, Sehenswürdigkeiten, Marken und allgemeine Kategorien. Dieses neue Ergebnis des gemeinsamen Teams der Universität Oxford und Google Research wurde von CVPR2024 akzeptiert und der Code wurde als Open Source bereitgestellt. Das Team schlug eine neue Technologie namens CLIPasRNN (kurz CaR) vor, die mehrere Schlüsselprobleme im Bereich der Bildsegmentierung mit offenem Vokabular löst: Es sind keine Trainingsdaten erforderlich: Herkömmliche Methoden erfordern eine große Anzahl von Maskenanmerkungen oder Bild-Text-Datensätzen -Tuning, CaR Die Technologie funktioniert ohne zusätzliche Trainingsdaten. Einschränkungen des offenen Vokabulars: Vorab trainierte visuelle Sprachmodelle (VLMs) sind nach der Feinabstimmung nur begrenzt in der Lage, mit offenem Vokabular umzugehen. C
- KI 529 2024-06-09 12:53:28
-
- Unterstützt die Synthese einminütiger hochauflösender Videos. UniAnimate schlug ein neues Framework für die Erzeugung menschlicher Tanzvideos vor.
- Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Erstellung von menschlichen Tanzvideos ist eine fesselnde und herausfordernde kontrollierbare Videosyntheseaufgabe, die darauf abzielt, qualitativ hochwertige, lebensechte Bilder auf der Grundlage von eingegebenen Referenzbildern und Zielposensequenzen zu erzeugen. Mit der rasanten Entwicklung der Videogenerierungstechnologie, insbesondere der iterativen Weiterentwicklung generativer Modelle,
- KI 1120 2024-06-09 11:10:58
-
- Ein geschmeidigerer Regelalgorithmus als PID und Carnegie Mellon University
- Der MPC-Steuerungsalgorithmus, vollständiger Name ModelPredictiveControl (Model Predictive Control), ist eine Steuerungstechnologie, die auf systemdynamischen Modellen basiert. Es funktioniert, indem es das zukünftige Verhalten des Systems durch mathematische Modelle vorhersagt und die Steuereingaben des Systems auf der Grundlage dieser Vorhersagen optimiert, um die gewünschte Ausgabe zu erzielen. Die Kernidee des MPC-Steuerungsalgorithmus besteht darin, die beste Steuerungseingabe zu erhalten, indem die Vorhersageergebnisse für einen bestimmten Zeitraum in der Zukunft in jedem Steuerungszyklus optimiert werden. Diese Optimierung basiert auf einigen Vorhersageergebnissen, um die Steuereingabe des Systems zu optimieren, um die gewünschte Ausgabe zu erzielen. Der MPC-Steuerungsalgorithmus ist weit verbreitet und eignet sich besonders für Steuerungssysteme, die bestimmte Einschränkungen erfüllen müssen. Durch die Kombination von Systemmodellen und Optimierungstechniken bietet MP
- KI 880 2024-06-09 09:57:28
-
- Der Granatenskandal macht den Direktor des Stanford AI Lab wütend! Zwei Mitglieder des Plagiatsteams nahmen die Schuld auf sich und eine Person verschwand, und sein Vorstrafenregister wurde aufgedeckt. Netizens: Chinas Open-Source-Modell neu verstehen
- Der Vorfall, dass das Stanford-Team ein großes Modell der Tsinghua-Universität plagiierte, ereignete sich später – das Llama3-V-Team gab ein Plagiat zu und zwei der Studenten aus Stanford trennten sich sogar von einem anderen Autor. Die neuesten Entschuldigungs-Tweets wurden von SiddharthSharma und AkshGarg gesendet. Nicht darunter, Mustafa Aljadery (kurz: Lao Mu) von der University of Southern California wird als Hauptverursacher angeklagt, und er wird seit gestern vermisst: Wir hoffen, dass Lao Mu die erste Aussage machen wird, aber das haben wir getan Ich konnte ihn seit gestern nicht erreichen. Siddharth, ich (Akshi) und Lao Mu haben gemeinsam Llama3-V veröffentlicht und Lao Mu hat den Code für das Projekt geschrieben. Siddharth und meine Aufgabe ist es, ihm beim Einstieg in Medium und T zu helfen
- KI 1352 2024-06-09 09:38:08
-
- Als Google erneut von OpenAI abgefangen wurde, startete es ein Open-Source-Modell für visuelle Sprache: PaliGemma
- Vorwort Dieses Modell kombiniert das visuelle SigLIP-Modell und das Gemma-Sprachmodell, beides offene Komponenten, wodurch PaliGemma hervorragend für die Verarbeitung von Aufgaben geeignet ist, die Vision und Sprache kombinieren. Zu den Einsatzszenarien von PaliGemma gehören Bilduntertitel, Bild-Tags und visuelle Fragenbeantwortung. Diese Anwendungsszenarien nutzen die Fähigkeit von PaliGemma, Bildinhalte zu verstehen, Schlüsselfunktionen zu extrahieren und diese Informationen dann in eine Sprachausgabe umzuwandeln, um eine Interaktion mit Benutzern oder eine automatisierte Inhaltsgenerierung zu ermöglichen. Aufgrund dieser Flexibilität eignet sich PaliGemma nicht nur für Forschungs- und Entwicklungsumgebungen, sondern auch für kommerzielle Anwendungen wie Kundenservice, Inhaltsempfehlungssysteme usw. Bilder Was kann PaliGemma tun? Bilder können verwendet werden, wenn Sie dazu aufgefordert werden.
- KI 685 2024-06-09 09:17:06
-
- LightGBM tatsächlicher Kampf + zufällige Suchparameteranpassung: Genauigkeitsrate 96,67 %
- Hallo zusammen, ich bin Peter~LightGBM ist ein klassischer Algorithmus für maschinelles Lernen. Sein Hintergrund, seine Prinzipien und Eigenschaften sind sehr studienwürdig. Der Algorithmus von LightGBM bietet Funktionen wie Effizienz, Skalierbarkeit und hohe Genauigkeit. In diesem Artikel werden kurz die Merkmale und Prinzipien von LightGBM sowie einige Fälle vorgestellt, die auf LightGBM und zufälliger Suchoptimierung basieren. LightGBM-Algorithmus Im Bereich des maschinellen Lernens sind Gradient Boosting Machines (GBMs) eine Klasse leistungsstarker Ensemble-Lernalgorithmen, die durch schrittweises Hinzufügen schwacher Lernender (normalerweise Entscheidungsbäume) ein leistungsstarkes Modell erstellen, um Vorhersagefehler zu minimieren. GBMs werden oft verwendet, um Vor- und Nachteile zu minimieren.
- KI 782 2024-06-08 22:45:30
-
- Das Open-Source-Codemodell von Mistral erobert den Thron! Codestral legt großen Wert auf Schulungen in über 80 Sprachen und einheimische Tongyi-Entwickler bitten um Teilnahme!
- Produziert von 51CTO Technology Stack (WeChat-ID: blog51cto) Mistral hat sein erstes Codemodell Codestral-22B veröffentlicht! Das Verrückte an diesem Modell ist nicht nur, dass es auf über 80 Programmiersprachen trainiert ist, darunter Swift usw., die von vielen Codemodellen ignoriert werden. Ihre Geschwindigkeiten sind nicht genau gleich. Es ist erforderlich, ein „Publish/Subscribe“-System in der Go-Sprache zu schreiben. Der GPT-4o hier wird ausgegeben und Codestral reicht das Papier so schnell ein, dass es kaum zu erkennen ist! Da das Modell gerade erst auf den Markt gekommen ist, wurde es noch nicht öffentlich getestet. Doch laut Mistral-Verantwortlichen ist Codestral derzeit das leistungsstärkste Open-Source-Codemodell. Freunde, die sich für das Bild interessieren, können zu: - Umarmen Sie das Gesicht: https
- KI 1278 2024-06-08 21:55:01
-
- Auf dem Weg zum „Closed Loop' |. PlanAgent: Neues SOTA für die Closed-Loop-Planung des autonomen Fahrens auf Basis von MLLM!
- Das Deep-Reinforcement-Learning-Team des Instituts für Automatisierung der Chinesischen Akademie der Wissenschaften hat zusammen mit Li Auto und anderen ein neues Closed-Loop-Planungsframework für autonomes Fahren vorgeschlagen, das auf dem multimodalen großen Sprachmodell MLLM basiert – PlanAgent. Bei dieser Methode werden die Szene aus der Vogelperspektive und diagrammbasierte Textaufforderungen als Eingabe betrachtet. Dabei werden die Fähigkeiten des multimodalen Verständnisses und des gesunden Menschenverstandes des multimodalen großen Sprachmodells genutzt, um hierarchische Überlegungen vom Szenenverständnis bis zur Generierung durchzuführen von horizontalen und vertikalen Bewegungsanweisungen und generieren Sie außerdem die vom Planer benötigten Anweisungen. Die Methode wird im groß angelegten und anspruchsvollen nuPlan-Benchmark getestet und Experimente zeigen, dass PlanAgent sowohl in regulären als auch in Long-Tail-Szenarien eine State-of-the-Art-Leistung (SOTA) erreicht. Im Vergleich zu herkömmlichen LLM-Methoden (Large Language Model) bietet PlanAgent
- KI 511 2024-06-08 21:30:27
-
- Um Komponenten modular zu rekonstruieren, fügen Sie einfach 1-2 Dateien hinzu. Die Open-Source-TinyLLaVA-Fabrik ist da.
- Das TinyLLaVA+-Projekt wurde gemeinsam vom Team von Professor Wu Ji vom Multimedia Signal and Intelligent Information Processing Laboratory (MSIIP) der Fakultät für Elektronik der Tsinghua-Universität und dem Team von Professor Huang Lei von der School of Artificial Intelligence der Beihang-Universität erstellt. Das MSIIP-Labor der Tsinghua-Universität engagiert sich seit langem in Forschungsbereichen wie intelligenter medizinischer Versorgung, Verarbeitung natürlicher Sprache und Wissensentdeckung sowie Multimodalität. Das Team von Beijing Airlines engagiert sich seit langem in Forschungsfeldern wie Deep Learning, Multimodalität und Computer Vision. Ziel des TinyLLaVA+-Projekts ist die Entwicklung eines kleinen sprachübergreifenden intelligenten Assistenten mit multimodalen Fähigkeiten wie Sprachverständnis, Fragen und Antworten sowie Dialog. Das Projektteam wird seine jeweiligen Vorteile voll ausschöpfen, gemeinsam technische Probleme überwinden und den Entwurf und die Entwicklung intelligenter Assistenten realisieren. Dies wird Möglichkeiten für intelligente medizinische Versorgung, Verarbeitung natürlicher Sprache und Wissen bieten
- KI 594 2024-06-08 21:21:29
-
- Liegen die USA bei Robotikanwendungen weit zurück? Nach 15 Jahren haben zehn Spitzenuniversitäten die „National Robotics Roadmap' neu gestartet
- Die Robotiktechnologie hat eine 70-jährige Geschichte und die Vereinigten Staaten sind seit ihrer Einführung führend. Seit 2009, als die Vereinigten Staaten zum ersten Mal ihre National Robotics Roadmap veröffentlichten, ist der Einsatz der Vereinigten Staaten in industriellen Anwendungen (z. B. Automobile, Luft- und Raumfahrt und Haushaltsgeräte) auf den vierten Platz weltweit zurückgefallen. Seit 2015 haben die USA den Einsatz von Robotertechnologie weiter ausgebaut und liegen weltweit auf Platz zehn. Der asiatische Robotermarkt ist fünf- bis zehnmal so groß wie der US-Markt. China liegt in diesem Bereich „weit vorne“ Im Jahr 2023 kaufte China etwa 52 % der verkauften Roboter, was darauf hindeutet, dass Robotik in den Vereinigten Staaten keine nationale Priorität mehr hat. Zuletzt von der University of California, Pennsylvania
- KI 1142 2024-06-08 20:57:00
-
- Das neueste Meisterwerk des MIT: Verwendung von GPT-3.5 zur Lösung des Problems der Erkennung von Zeitreihenanomalien
- Heute möchte ich Ihnen einen letzte Woche vom MIT veröffentlichten Artikel vorstellen, in dem GPT-3.5-turbo verwendet wird, um das Problem der Erkennung von Zeitreihenanomalien zu lösen, und zunächst die Wirksamkeit von LLM bei der Erkennung von Zeitreihenanomalien überprüft wird. Im gesamten Prozess gibt es keine Feinabstimmung, und GPT-3.5-Turbo wird direkt zur Anomalieerkennung verwendet. Der Kern dieses Artikels besteht darin, wie man Zeitreihen in Eingaben umwandelt, die von GPT-3.5-Turbo erkannt werden können, und wie man sie entwirft Eingabeaufforderungen oder Pipelines, damit LLM die Anomalieerkennungsaufgabe lösen kann. Lassen Sie mich Ihnen diese Arbeit im Detail vorstellen. Titel des Bildpapiers: Largelingualmodelscanbezero-shotanomalydete
- KI 747 2024-06-08 18:09:01
-
- Auf der Microsoft Build-Konferenz erhielten Fabric, PostgreSQL und Cosmos DB KI-Verbesserungen
- Microsoft hat kürzlich auf seiner Build-Konferenz etwa 60 Ankündigungen veröffentlicht, darunter neue Funktionen für künstliche Intelligenz für seine Cloud-Datenbankverwaltungsprodukte. Fabric, die im letzten Jahr eingeführte einheitliche Datenplattform des Unternehmens, ist einer der Hauptnutznießer. Ein Workload Development Kit (Workload Development Kit), das sich derzeit in der Vorschau befindet, kann zum Erweitern von Anwendungen im Fabric verwendet werden. FabricDataSharing ist eine neue Funktion, die Echtzeitdaten über Benutzer und Anwendungen hinweg verarbeitet. Es umfasst eine Anwendungsprogrammierschnittstelle für den Zugriff auf in externen Quellen gespeicherte Daten. Neue Automatisierungsfunktionen (Automation) vereinfachen sich wiederholende Aufgaben. Das gesamte System Fusion ist ein brandneues RESTfu
- KI 1111 2024-06-08 17:46:24
-
- Das Neueste von der University of California! CarDreamer: Eine umfassende und flexible Open-Source-Plattform für das Testen von autonomen Fahralgorithmen
- Oben geschrieben & persönliches Verständnis des Autors Um komplexe reale Szenarien sicher zu bewältigen, müssen autonome Fahrzeuge in der Lage sein, sich an verschiedene Straßenbedingungen anzupassen und zukünftige Ereignisse vorherzusagen. Auf Weltmodellen basierendes Reinforcement Learning (RL) hat sich als vielversprechender Ansatz herausgestellt, um dies durch Lernen und Vorhersagen der komplexen Dynamik verschiedener Umgebungen zu erreichen. Allerdings gibt es derzeit keine zugängliche Plattform zum Trainieren und Testen solcher Algorithmen in komplexen Fahrumgebungen. Um diese Lücke zu schließen, wird hier CarDreamer vorgestellt, die erste Open-Source-Lernplattform, die speziell für die Entwicklung und Bewertung autonomer Fahralgorithmen auf Basis von Weltmodellen entwickelt wurde. Es enthält drei Schlüsselkomponenten: 1%) World Model (WM) Backbone: CarDreamer integriert einige
- KI 1250 2024-06-08 16:57:52
-
- Agenda der Intelligent Source-Konferenz 2024 enthüllt: Generatives Modell
- Vom 14. bis 15. Juni 2024 findet die 6. Beijing Intelligent Source Conference in einer Kombination aus Offline und Online statt. Der Offline-Veranstaltungsort befindet sich im Zhongguancun National Independent Innovation Demonstration Zone Conference Center. Die Zhiyuan-Konferenz 2024 bringt erneut herausragende Forscher des Jahres mit einer globalen Perspektive zusammen, um neue Ideen auszutauschen, neue Ideen zu erkunden und neue Grenzen zu erschließen. Die Registrierungskanäle sind jetzt offiziell geöffnet. Countdown zur Beijing Zhiyuan-Konferenz: 11-tägiges Generative Model Forum | 15. Juni nachmittags Die generative funktionale Modellierung ist eines der Grundparadigmen der künstlichen Intelligenz und ein wichtiger Schritt in Richtung allgemeiner künstlicher Intelligenz. Mit der rasanten Entwicklung generativer Modellierungsmethoden und dem rasanten Wachstum des Modellmaßstabs wird generative künstliche Intelligenz, dargestellt durch autoregressive Modelle und Diffusionswahrscheinlichkeitsmodelle (wie GPT-Serie, Sora, StableD
- KI 690 2024-06-08 16:08:31