aktueller Standort:Heim > Technische Artikel > Technologie-Peripheriegeräte > KI
- Richtung:
- alle web3.0 Backend-Entwicklung Web-Frontend Datenbank Betrieb und Instandhaltung Entwicklungswerkzeuge PHP-Framework tägliche Programmierung WeChat-Applet häufiges Problem andere Technik CMS-Tutorial Java System-Tutorial Computer-Tutorials Hardware-Tutorial Mobiles Tutorial Software-Tutorial Tutorial für Handyspiele
- Klassifizieren:
-
- Im Gespräch mit der Maschine: Zehn Geheimnisse der schnellen Technik gelüftet
- Um mehr über AIGC zu erfahren, besuchen Sie bitte: 51CTOAI.x-Community https://www.51cto.com/aigc/ Die Kraft von Eingabeaufforderungen ist erstaunlich. Wir müssen nur ein paar Wörter wegwerfen, die der menschlichen Sprache nahe kommen, um eine Wohltat zu erhalten. formatierte und strukturierte Antworten. Kein Thema ist unklar und keine Tatsache unerreichbar. Zumindest solange es Teil des Trainingskorpus ist und vom Schattencontroller des Modells (ShadowyController) genehmigt wird, können wir die Antwort mit einer einfachen Eingabeaufforderung erhalten. Einige Menschen bemerken jedoch, dass die Magie von Aufforderungen nicht absolut ist. Unsere Hinweise führen nicht immer zu den gewünschten Ergebnissen. Einige Eingabeaufforderungssprachen sind sogar besser als andere
- KI 394 2024-06-03 10:53:11
-
- Microsoft stellt einen Investitionsplan für KI-Infrastruktur in Höhe von 3,3 Milliarden US-Dollar zur Erweiterung der Rechenzentrumskapazität in den Vereinigten Staaten vor
- Microsoft wird bis Ende 2026 eine vierteilige Investitionsstrategie starten. Das Technologieunternehmen wird einen Rechenzentrumscampus errichten und plant, bis 2030 landesweit mehr als 10 Millionen Menschen in GenAI weiterzubilden. AWS, Google und Microsoft entwickeln umfassende Infrastrukturpläne, um die wachsende Nachfrage nach Rechenleistung zu decken, und investieren in Bundesstaaten in den Vereinigten Staaten. Anfang des Jahres kündigte AWS eine Investition von 210 Millionen US-Dollar in Rechenzentren in Indonesien und Mississippi an. Dies ist die größte Kapitalinvestition in beiden Bundesstaaten. Google gab letzten Monat bekannt, dass es geplant sei, 3 Milliarden US-Dollar in den Bau und die Erweiterung von Rechenzentrumscampussen in Virginia und Indiana zu investieren. Ein im Oktober von SynergyResearchGroup veröffentlichter Bericht
- KI 1129 2024-06-03 10:52:37
-
- Ein amerikanischer Professor trainierte mit seiner zweijährigen Tochter ein KI-Modell für den Auftritt in „Science'! Junge Menschen nutzen am Kopf angebrachte Kameras, um neue KI zu trainieren
- Unglaublich: Um ein KI-Modell zu trainieren, befestigte ein Professor der State University of New York seiner Tochter eine GoPro-ähnliche Kamera an den Kopf! Obwohl es unglaublich klingt, ist das Verhalten dieses Professors tatsächlich begründet. Um das komplexe neuronale Netzwerk hinter LLM zu trainieren, sind umfangreiche Daten erforderlich. Ist unser aktueller LLM-Ausbildungsprozess unbedingt der einfachste und effizienteste Weg? Sicherlich nicht! Wissenschaftler haben herausgefunden, dass das Gehirn von Kleinkindern wie ein Schwamm Wasser aufnimmt und so schnell ein zusammenhängendes Weltbild bildet. Obwohl LLM zeitweise erstaunliche Leistungen erbringt, werden menschliche Kinder mit der Zeit schlauer und kreativer als das Modell! Das Geheimnis, dass Kinder die Sprache besser trainieren. Wenn Wissenschaftler über die Lösung verwirrt sind,
- KI 707 2024-06-03 10:08:09
-
- ICML 2024 |. Die neue Grenze des Pre-Trainings für große Sprachmodelle: „Best Adaptation Packaging' gestaltet die Standards für die Dokumentenverarbeitung neu
- Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Im Trainingsprozess großer Sprachmodelle ist die Art der Datenverarbeitung von entscheidender Bedeutung. Herkömmliche Methoden funktionieren normalerweise durch das Zusammenfügen und Aufteilen einer großen Anzahl von Dokumenten in Trainingssequenzen, die der Kontextlänge des Modells entsprechen. Obwohl dies die Schulungseffizienz verbessert, führt es häufig zu unnötigem Abschneiden von Dokumenten.
- KI 637 2024-06-02 21:42:20
-
- Das große Tencent Hunyuan-Modell wurde im Preis vollständig reduziert! Hunyuan-lite ist ab sofort kostenlos
- Am 22. Mai kündigte Tencent Cloud einen neuen großen Modell-Upgrade-Plan an. Bei einem der Hauptmodelle, dem Hunyuan-Lite-Modell, ist geplant, die gesamte API-Eingabe- und Ausgabelänge von derzeit 4.000 auf 256.000 zu erhöhen und den Preis von 0,008 Yuan/tausend Token auf völlig kostenlos anzupassen. Der API-Eingabepreis nach Hunyuan-Standard sank von 0,01 Yuan/Tausend Token auf 0,0045 Yuan/Tausend Token, was einem Rückgang von 55 % entspricht, und der API-Ausgabepreis sank von 0,01 Yuan/Tausend Token auf 0,005 Yuan/Tausend Token, was einem Rückgang um 50 % entspricht %. Der neu eingeführte Hunyuan-Standard-256k ist in der Lage, ultralange Texte mit mehr als 380.000 Zeichen zu verarbeiten, und der API-Eingabepreis wurde auf 0,015 Yuan/Tausend Toke gesenkt.
- KI 437 2024-06-02 20:07:09
-
- Das Neueste von der Universität Oxford |. Fast 400 Zusammenfassungen! Sprechen Sie über die neueste Überprüfung großer Sprachmodelle und der dreidimensionalen Welt
- Oben geschrieben und persönliches Verständnis des Autors: Mit der Entwicklung großer Sprachmodelle (LLM) wurden schnelle Fortschritte bei der Integration zwischen ihnen und 3D-Geodaten (3DLLM) erzielt, was beispiellose Möglichkeiten zum Verständnis und zur Interaktion mit dem physischen Raum bietet. Dieser Artikel bietet einen umfassenden Überblick über den LLM-Ansatz zur Verarbeitung, zum Verständnis und zur Generierung von 3D-Daten. Wir heben die einzigartigen Vorteile von LLMs hervor, wie kontextuelles Lernen, schrittweises Denken, offene Vokabelfähigkeiten und umfassendes Weltwissen, und betonen ihr Potenzial, das räumliche Verständnis und die Interaktion mit eingebetteten Systemen der künstlichen Intelligenz (KI) zu fördern. Unsere Forschung umfasst verschiedene 3D-Datendarstellungen von Punktwolken bis hin zu Neural Rendering Fields (NeRF). und analysierten ihre Integration mit LLM für 3D-Szenenverständnis, Untertitel,
- KI 419 2024-06-02 19:41:32
-
- Lesen Sie diesen Artikel, um das Open-Source-Framework AutoGen für die Erstellung von Multiagenten zu verstehen
- Hallo Leute, mein Name ist Luga, und heute werden wir über Technologien im Zusammenhang mit dem ökologischen Bereich der künstlichen Intelligenz (KI) sprechen – AutoGen – ein einheitliches Multi-Agenten-Dialog-Framework. Stellen Sie sich ein Szenario vor, in dem wir nicht mehr alleine kämpfen, sondern über ein hochgradig personalisiertes, domänenübergreifendes integriertes KI-Team verfügen. Jedes Teammitglied ist kompetent und professionell auf seinem Gebiet, arbeitet nahtlos zusammen, kommuniziert effizient und wird nie müde. Sie sind in der Lage, in hohem Maße kooperativ zusammenzuarbeiten, um komplexe und sich ständig ändernde Herausforderungen zu bewältigen. Dies ist die Essenz von AutoGen – einem bahnbrechenden Multi-Agenten-Dialog-Framework. AutoGen+ bietet uns unbegrenzte Möglichkeiten und ermöglicht es uns, nach Belieben unser eigenes strategisches Team für künstliche Intelligenz zu bilden. Jedes Mitglied hat ein Unikat
- KI 1149 2024-06-02 19:12:02
-
- Mehr als nur 3D-Gauß! Aktueller Überblick über modernste 3D-Rekonstruktionstechniken
- Oben geschrieben & Nach persönlichem Verständnis des Autors ist die bildbasierte 3D-Rekonstruktion eine anspruchsvolle Aufgabe, bei der aus einer Reihe von Eingabebildern auf die 3D-Form eines Objekts oder einer Szene geschlossen werden muss. Lernbasierte Methoden haben wegen ihrer Fähigkeit, 3D-Formen direkt abzuschätzen, Aufmerksamkeit erregt. Dieser Übersichtsartikel konzentriert sich auf modernste 3D-Rekonstruktionstechniken, einschließlich der Generierung neuartiger, unsichtbarer Ansichten. Es wird ein Überblick über die jüngsten Entwicklungen bei Gaußschen Splash-Methoden gegeben, einschließlich Eingabetypen, Modellstrukturen, Ausgabedarstellungen und Trainingsstrategien. Auch ungelöste Herausforderungen und zukünftige Ausrichtungen werden besprochen. Angesichts der rasanten Fortschritte auf diesem Gebiet und der zahlreichen Möglichkeiten zur Verbesserung der 3D-Rekonstruktionsmethoden scheint eine gründliche Untersuchung des Algorithmus von entscheidender Bedeutung zu sein. Daher bietet diese Studie einen umfassenden Überblick über die jüngsten Fortschritte in der Gaußschen Streuung. (Wischen Sie mit dem Daumen nach oben
- KI 875 2024-06-02 18:57:35
-
- Datensatz mit GPT-3.5 generieren! Neues SOTA für die Bildbearbeitung der Peking-Universität Tiangong und anderer Teams kann physische Weltszenen genau simulieren
- Es gibt viele Methoden zur qualitativ hochwertigen Bildbearbeitung, aber keine davon bildet die reale physische Welt genau ab. Probieren Sie EdittheWorld also aus. Die Peking-Universität, TiamatAI, Tiangong AI und Mila Labs schlugen EditWorld vor, das eine neue Bearbeitungsaufgabe einführte, die weltgesteuerte Bildbearbeitung. Es definiert und kategorisiert Anweisungen basierend auf verschiedenen Weltszenarien. Bilder werden von einer Reihe vorab trainierter Modelle wie GPT-3.5, Video-LLava und SDXL unterstützt, um einen multimodalen Datensatz mit weltweiten Anweisungen zu erstellen. Anhand dieses Datensatzes wurde ein diffusionsbasiertes Bildbearbeitungsmodell EditWorld trainiert und die Ergebnisse in seiner neuen Aufgabe umgesetzt
- KI 849 2024-06-02 17:18:08
-
- Neues SOTA zur Zielerkennung, Echtzeiterkennung auf dem Gerät und an der Seite, Shen Xiangyang leitet selten weiter und mag es
- Der Bereich der Zielerkennung hat neue Fortschritte gebracht – GroundingDINO1.5, erstellt vom Team des IDEA Research Institute, das eine Echtzeiterkennung auf der Geräteseite erreichen kann. Dieser Fortschritt wurde vom KI-Tycoon Shen Xiangyang vorangetrieben, der normalerweise jedes Jahr Änderungen vornimmt. Es gibt zwei Hauptversionen dieser Version: Pro und Edge. Die Pro-Version ist stärker und die Edge-Version schneller. Es behält weiterhin die Dual-Encoder-Einzel-Decoder-Struktur der Vorgängerversion GroundingDINO bei. Auf dieser Basis erweitert es die Modellgröße durch die Kombination eines größeren visuellen Rückgrats und nutzt mehr als 20 Millionen Grounding-Daten, um einen umfangreichen Korpus zu erhalten, was die Erkennung erheblich verbessert Genauigkeit und Geschwindigkeit und sind mit den Pro- und Edge-Versionen auf verschiedene Anwendungen ausgerichtet.
- KI 1193 2024-06-02 16:41:05
-
- DiffMap: das erste Netzwerk, das LDM nutzt, um die hochpräzise Kartenerstellung zu verbessern
- Titel des Papiers: DiffMap: EnhancingMapSegmentationwithMapPriorUsingDiffusionModel Autor des Papiers: PeijinJia, TuopuWen, ZiangLuo, MengmengYang, KunJiang, ZhiquanLei, des Umweltverständnisses (Wahrnehmung) und der Präzision der Navigation. Allerdings künstlich konstruierte Zeichenflächen
- KI 847 2024-06-02 16:26:44
-
- Lesen Sie GPT-4o vs. GPT-4 Turbo in einem Artikel
- Hallo Leute, ich bin Luga. Heute werden wir über Technologien im Zusammenhang mit dem ökologischen Bereich der künstlichen Intelligenz (KI) sprechen – das GPT-4o-Modell. Am 13. Mai 2024 brachte OpenAI sein fortschrittlichstes und modernstes Modell GPT-4o auf den Markt, das einen großen Durchbruch auf dem Gebiet der Chat-Roboter mit künstlicher Intelligenz und groß angelegter Sprachmodelle darstellte. GPT-4o läutet eine neue Ära der Fähigkeiten der künstlichen Intelligenz ein und verfügt über erhebliche Leistungsverbesserungen, die seinen Vorgänger GPT-4 sowohl in Bezug auf Geschwindigkeit als auch Vielseitigkeit übertreffen. Diese bahnbrechende Weiterentwicklung löst die Latenzprobleme, die beim Vorgänger häufig auftraten, und sorgt für ein nahtloses und reaktionsschnelles Benutzererlebnis. Was ist GPT-4o? Am 13. Mai 2024 wurde OpenAI veröffentlicht
- KI 736 2024-06-02 16:02:40
-
- Die erste rein visuelle statische Rekonstruktion des autonomen Fahrens
- Eine rein visuelle Annotationslösung nutzt hauptsächlich die visuelle Darstellung sowie einige Daten von GPS, IMU und Radgeschwindigkeitssensoren für die dynamische Annotation. Für Massenproduktionsszenarien muss es sich natürlich nicht nur um visuelle Aspekte handeln. Einige in Massenproduktion hergestellte Fahrzeuge verfügen über Sensoren wie Festkörperradar (AT128). Wenn wir aus Sicht der Massenproduktion einen geschlossenen Datenkreislauf erstellen und alle diese Sensoren verwenden, können wir das Problem der Kennzeichnung dynamischer Objekte effektiv lösen. Aber in unserem Plan gibt es kein Festkörperradar. Aus diesem Grund stellen wir diese gängigste Etikettierungslösung für die Massenproduktion vor. Der Kern einer rein visuellen Annotationslösung liegt in der hochpräzisen Posenrekonstruktion. Wir verwenden das Posenrekonstruktionsschema von Structure from Motion (SFM), um die Genauigkeit der Rekonstruktion sicherzustellen. Aber pass
- KI 770 2024-06-02 15:24:40
-
- Die Gedankenkette existiert nicht mehr? Neueste Forschung der New York University: Der Argumentationsschritt kann weggelassen werden
- Die beliebte Denkkettentechnologie könnte gestürzt werden! Sind Sie immer noch überrascht, dass große Modelle mithilfe von Denkketten tatsächlich Schritt für Schritt denken können? Haben Sie immer noch Probleme damit, dass Sie nicht in der Lage sind, Wörter für die Gedankenkette zu schreiben? Forscher der New York University sagten: „Es spielt keine Rolle, es ist alles das Gleiche.“ Der Argumentationsschritt ist nicht wichtig, wenn Sie nicht möchten, verwenden Sie stattdessen einfach Auslassungspunkte . Papieradresse: https://arxiv.org/pdf/2404.15758 Im Titel dieses Artikels wird „Let’sthinkdotbydot“ sogar direkt verwendet, um es mit dem „Let’sthinkstepbystep“ der Denkkette zu vergleichen, was die Kraft der „Ellipse“ zeigt. Die Kraft von „Punkten und Punkten“ Forscher haben das Chain-O entdeckt
- KI 427 2024-06-02 15:21:41
-
- Microsoft veröffentlicht den Copilot-Agenten und bringt auch ein natives kleines Sprachmodell mit
- Laut Nachrichten vom 22. Mai 2022, am Dienstag Ortszeit, hat Microsoft auf der Build-Entwicklerkonferenz den neuen Agenten Copilot vorgestellt. Er ist wie ein virtueller Mitarbeiter und kann Aufgaben automatisch ausführen. Microsoft glaubt, dass diese Art von künstlicher Intelligenz langweilige Arbeitsinhalte beseitigen wird, anstatt die Arbeit der Mitarbeiter vollständig zu ersetzen. Microsofts Copilot wird auf Basis des Open-Source-Codemodells GPT-3 entwickelt, das eine große Anzahl von Codebibliotheken und Algorithmen nutzt, um Entwicklern dabei zu helfen, Code effizienter zu schreiben. Copilot ist in der Lage, den Kontext zu analysieren und passende Codeausschnitte zu generieren, was die Geschwindigkeit und Qualität der Entwicklung erheblich beschleunigt. Allerdings ist die Funktionalität von Copilot noch eingeschränkt und es kann künstliche Intelligenz nicht vollständig ersetzen. Darüber hinaus hat Microsoft auch Copi im Visier
- KI 406 2024-06-02 14:56:12