aktueller Standort:Heim > Technische Artikel > Technologie-Peripheriegeräte > KI
- Richtung:
- alle web3.0 Backend-Entwicklung Web-Frontend Datenbank Betrieb und Instandhaltung Entwicklungswerkzeuge PHP-Framework tägliche Programmierung WeChat-Applet häufiges Problem andere Technik CMS-Tutorial Java System-Tutorial Computer-Tutorials Hardware-Tutorial Mobiles Tutorial Software-Tutorial Tutorial für Handyspiele
- Klassifizieren:
-
- LLM |. Yuan 2.0-M32: Expertenmischungsmodell mit Aufmerksamkeitsrouting
- Bild 1. Die Schlussfolgerung ist oben geschrieben. Yuan+2.0-M32 ist eine Infrastruktur, ähnlich wie Yuan-2.0+2B, die eine Experten-Hybridarchitektur mit 32 Experten verwendet. 2 dieser Experten sind aktiv. Es wird eine Experten-Hybridarchitektur mit 32 Experten vorgeschlagen und übernommen, um Experten effizienter auszuwählen. Im Vergleich zum Modell mit dem klassischen Routing-Netzwerk wird die Genauigkeitsrate um 3,8 % verbessert. Yuan+2.0-M32 wird von Grund auf mit 2000B-Tokens trainiert und sein Trainingsverbrauch beträgt nur 9,25 % des eines dichten Ensemble-Modells mit der gleichen Parametergröße. Um Experten besser auswählen zu können, wird der Aufmerksamkeitsrouter eingeführt, der über die Fähigkeit verfügt, schnell zu erkennen und so eine bessere Auswahl von Experten zu ermöglichen. Yuan2,0-
- KI 706 2024-06-07 09:06:30
-
- Konstruktion eines Skalierungsgesetzes aus 80 Modellen: eine neue Arbeit eines chinesischen Doktoranden, die vom Autor der Denkkette wärmstens empfohlen wird
- Im Bereich der KI sind Skalierungsgesetze (Scalinglaws) ein leistungsstarkes Werkzeug zum Verständnis von LM-Skalierungstrends. Sie bieten eine Richtlinie für Forscher. Dieses Gesetz bietet einen wichtigen Leitfaden für das Verständnis, wie sich die Leistung von Sprachmodellen mit der Skalierung ändert. Leider ist die Skalierungsanalyse in vielen Benchmarking- und Post-Training-Studien nicht üblich, da die meisten Forscher nicht über die Rechenressourcen verfügen, um Skalierungsgesetze von Grund auf zu erstellen, und offene Modelle auf zu wenigen Skalen trainiert werden, um zuverlässige Skalierungsvorhersagen zu treffen. Forscher der Stanford University, der University of Toronto und anderer Institutionen haben eine alternative Beobachtungsmethode vorgeschlagen: Observational Scaling Laws (Observational Scaling Laws), die die Funktionen von Sprachmodellen (LM) mit Cross-Multiple-Modellen kombiniert.
- KI 667 2024-06-06 20:40:36
-
- Neugestaltung des Cloud-Build-Erlebnisses im Zeitalter der generativen KI
- Im Zeitalter der generativen KI beschleunigen sich die Veränderungen in der Cloud-Computing-Branche auf breiter Front und es ist an der Zeit, eine neue Cloud aufzubauen. Wie können wir uns als Entwickler problemlos an technologische Innovationen anpassen? Wie kann man neue Technologiechancen schnell nutzen, um schnell durchzustarten und zu wachsen? Nehmen Sie am Amazon Cloud Technology China Summit 2024 teil, einer unverzichtbaren Veranstaltung für Entwickler, die Ihnen dabei helfen kann, Ihre Fragen zu beantworten und Belohnungen zu erhalten! Amazon Cloud Technology gestaltet die One-Stack-Konstruktion von Entwicklung, Betrieb und Wartung sowie Optimierung im Zeitalter der generativen KI in der Cloud neu. Auf diesem Gipfel präsentieren wir Ihnen eine neue Entwicklerreise der generativen KI-Erkundung, einschließlich immersiver Star-Produkte . Erfahrung, praktische Spezialschulungen und Spitzenherausforderungen, Kompetenzzertifizierung und kostenloses Lernen, zukunftsweisender Technologieaustausch, Dialog mit globalen Community-Führungskräften, Entwickler-Kreativmarkt usw. helfen Entwicklern, unbegrenzt zu genießen
- KI 908 2024-06-06 18:48:01
-
- Die menschliche Präferenz ist der Herrscher! Mit der SPPO-Ausrichtungstechnologie können große Sprachmodelle miteinander und mit sich selbst konkurrieren
- Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Richard Sutton hat in „TheBitterLesson“ diese Einschätzung abgegeben: „Die wichtigste Lehre, die aus 70 Jahren Forschung im Bereich der künstlichen Intelligenz gezogen werden kann, ist, dass die allgemeinen Methoden, die Computer nutzen, es irgendwann tun werden.“ ist am effektivsten und hat den Vorteil
- KI 689 2024-06-06 18:32:31
-
- Das von der physikalischen Wärmeübertragung inspirierte visuelle Darstellungsmodell vHeat versucht, den Aufmerksamkeitsmechanismus zu durchbrechen und weist sowohl eine geringe Komplexität als auch ein globales Empfangsfeld auf.
- Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Autoren dieses Artikels sind die ursprünglichen Mitglieder von VMamba. Der Erstautor Wang Zhaozhi ist ein gemeinsam ausgebildeter Doktorand der University of Chinese Academy of Sciences und des Pengcheng Laboratory. Der Co-Autor ist Liu Yuesi, direkter Doktorand der Universität der Chinesischen Akademie der Wissenschaften im Jahr 2021. Ihre Hauptforschungsrichtung ist visuell
- KI 698 2024-06-06 17:28:46
-
- DenserRadar: 4D-Millimeterwellenradar-Punktwolkendetektor basierend auf einer dichten LiDAR-Punktwolke
- Originaltitel: DenserRadar: A4Dmillimeter-waveradarpointclouddetectorbasedondenseLiDARpointclouds Papierlink: https://arxiv.org/pdf/2405.05131 Autorenzugehörigkeit: Tsinghua University Papieridee: 4D-Millimeterwellenradar (mmWave) ist bekannt für seine Robustheit in extremen Umgebungen und seinen breiten Erkennungsbereich Die Fähigkeit, Geschwindigkeit und Höhe zu messen, hat ein erhebliches Potenzial zur Verbesserung der Wahrnehmung gezeigt, wenn autonome Fahrsysteme vor Herausforderungen stehen. Allerdings bestehen bei 4D-Millimeterwellenradar-Punktwolken inhärente Einschränkungen hinsichtlich der spärlichen Beschaffenheit und des Rauschens
- KI 885 2024-06-06 14:10:54
-
- Es werden die Bewertungsergebnisse des großen Sitzsackmodells enthüllt, die 19 % höher sind als die der vorherigen Generation „Skylark'.
- Kürzlich wurde das große Sitzsackmodell offiziell auf der Volcano Engine Power Conference vorgestellt. Während der Preissenkungstrend bei großen Modellen zu extrem niedrigen Preisen vorangetrieben wird, haben die Modellfähigkeiten von Doubao auch die Aufmerksamkeit der Branche auf sich gezogen. In einer Produktinformation von Volcano Engine veröffentlichte das Doubao Model-Team einige der internen Testergebnisse der ersten Phase: Auf den öffentlichen Bewertungssätzen von 11 Mainstream-Branchen wie MMLU, BBH, GSM8K, HumanEval usw. wurde die Gesamtpunktzahl ermittelt Doubao-pro-4k Es erzielte 76,8 Punkte, eine Steigerung von 19 % im Vergleich zu den 64,5 Punkten des Vorgängermodells Skylark 2. Dies ist auch besser als bei anderen inländischen Modellen, die im gleichen Zeitraum getestet wurden. Diese Evaluierung wurde im Mai dieses Jahres abgeschlossen und umfasste hauptsächlich neun inländische Großsprachmodelle, darunter Universal Model Pro, Skylark2 und
- KI 428 2024-06-06 13:45:41
-
- Yann LeCun: ViT ist langsam und ineffizient. Die Echtzeit-Bildverarbeitung hängt immer noch von der Faltung ab.
- Ist es im Zeitalter der Vereinheitlichung von Transformers immer noch notwendig, die CNN-Richtung der Computer Vision zu untersuchen? Zu Beginn dieses Jahres machte das große Videomodell Sora von OpenAI die VisionTransformer (ViT)-Architektur populär. Seitdem gibt es eine anhaltende Debatte darüber, wer leistungsfähiger ist: ViT oder das traditionelle Convolutional Neural Network (CNN). Kürzlich beteiligte sich auch Yann LeCun, Turing-Preisträger und Meta-Chefwissenschaftler, der in den sozialen Medien aktiv war, an der Diskussion über den Streit zwischen ViT und CNN. Der Grund für diesen Vorfall war, dass Harald Schäfer, CTO von Comma.ai, seine neuesten Forschungsergebnisse vorführte. Er (wie viele neuere KI-Forscher) hat sich jedoch an Yann LeCuns Gesichtsausdruck orientiert
- KI 1149 2024-06-06 13:25:02
-
- Sanofi arbeitet mit OpenAI und Formation Bio zusammen, um die Entdeckung von KI-Medikamenten zu beschleunigen
- Herausgeber | Diese Zusammenarbeit wird für die Pharmaindustrie von entscheidender Bedeutung sein. Durch die Kombination von Daten, künstlicher Intelligenz und Fachwissen in der Arzneimittelentwicklung wollen sie die Art und Weise revolutionieren, wie neue Medikamente entdeckt und auf den Markt gebracht werden. Paul Hudson, CEO von Sanofi, sagte: „Diese Zusammenarbeit ist ein wichtiger Schritt auf unserem Weg zu einem KI-gestützten Pharmaunternehmen.“ Brad Lightcap, COO von OpenAI, sagte: „KI hat ein enormes Potenzial, die Arzneimittelentwicklung zu beschleunigen. Wir.“
- KI 645 2024-06-06 12:54:35
-
- Verbesserter Erkennungsalgorithmus: zur Zielerkennung in hochauflösenden optischen Fernerkundungsbildern
- 01Ausblicksübersicht Derzeit ist es schwierig, ein angemessenes Gleichgewicht zwischen Detektionseffizienz und Detektionsergebnissen zu erreichen. Wir haben einen verbesserten YOLOv5-Algorithmus zur Zielerkennung in hochauflösenden optischen Fernerkundungsbildern entwickelt, der mehrschichtige Merkmalspyramiden, Multierkennungskopfstrategien und hybride Aufmerksamkeitsmodule verwendet, um die Wirkung des Zielerkennungsnetzwerks in optischen Fernerkundungsbildern zu verbessern. Laut SIMD-Datensatz ist der mAP des neuen Algorithmus 2,2 % besser als YOLOv5 und 8,48 % besser als YOLOX, wodurch ein besseres Gleichgewicht zwischen Erkennungsergebnissen und Geschwindigkeit erreicht wird. 02 Hintergrund und Motivation Mit der rasanten Entwicklung der Fernerkundungstechnologie wurden hochauflösende optische Fernerkundungsbilder verwendet, um viele Objekte auf der Erdoberfläche zu beschreiben, darunter Flugzeuge, Autos, Gebäude usw. Objekterkennung bei der Interpretation von Fernerkundungsbildern
- KI 1163 2024-06-06 12:33:01
-
- Die Tsinghua-Universität übernahm und YOLOv10 kam heraus: Die Leistung wurde erheblich verbessert und es stand auf der GitHub-Hotlist
- Die Benchmark-Zielerkennungssysteme der YOLO-Serie haben erneut ein großes Upgrade erhalten. Seit der Veröffentlichung von YOLOv9 im Februar dieses Jahres wurde der Staffelstab der YOLO-Reihe (YouOnlyLookOnce) in die Hände von Forschern der Tsinghua-Universität übergeben. Letztes Wochenende erregte die Nachricht vom Start von YOLOv10 die Aufmerksamkeit der KI-Community. Es gilt als bahnbrechendes Framework im Bereich Computer Vision und ist für seine End-to-End-Objekterkennungsfunktionen in Echtzeit bekannt. Es führt das Erbe der YOLO-Serie fort und bietet eine leistungsstarke Lösung, die Effizienz und Genauigkeit vereint. Papieradresse: https://arxiv.org/pdf/2405.14458 Projektadresse: https://github.com/THU-MIG/yo
- KI 1607 2024-06-06 12:20:45
-
- Um die Nutzung optischer Datensätze zu verbessern, schlug das Tianda-Team ein KI-Modell vor, um den spektralen Vorhersageeffekt zu verbessern
- Herausgeber | Dead Leaf Butterfly Kürzlich berichteten das Team von außerordentlichem Professor Wu Liang und Akademiker Yao Jianquan vom Institut für Laser und Optoelektronik der Tianjin-Universität und das Team von Professor Xiong Deyi vom Natural Language Processing Laboratory über eine Lösung, die ein Deep-Learning-Modell verwendet mit Mehrfrequenz-Zusatzeingang zur Verbesserung des spektralen Vorhersageeffekts. Dieses Schema kann die Genauigkeit der Spektralvorhersage durch die Verwendung von Mehrfrequenz-Eingangsdaten verbessern. Darüber hinaus kann diese Lösung auch Rauschstörungen im Spektrumvorhersageprozess reduzieren und so den Vorhersageeffekt verbessern. Diese Lösung kann die Nutzung vorhandener optischer Datensätze verbessern und den Vorhersageeffekt spektraler Reaktionen entsprechend Metaoberflächenstrukturen verbessern, ohne die Schulungskosten zu erhöhen. Relevante Forschungsergebnisse tragen den Titel „Enhancedspectrumppredictionusingdeep“.
- KI 738 2024-06-06 12:09:28
-
- Ein einzelnes 4090 ableitbares, 200 Milliarden spärlich großes Modell „Tiangong MoE' ist Open Source
- In der Welle großer Modelle stellen das Training und der Einsatz hochmoderner LLMs mit dichter Menge große Herausforderungen hinsichtlich der Rechenanforderungen und der damit verbundenen Kosten dar, insbesondere bei Skalen von mehreren zehn oder hundert Milliarden Parametern. Um diesen Herausforderungen zu begegnen, werden dünnbesetzte Modelle wie Mixture of Experts (MoE)-Modelle immer wichtiger. Diese Modelle bieten eine wirtschaftlich sinnvolle Alternative, indem sie die Berechnung auf verschiedene spezialisierte Untermodelle oder „Experten“ verteilen und das Potenzial haben, die Leistung von Modellen mit dichter Menge zu erreichen oder sogar zu übertreffen, und das bei sehr geringem Ressourcenbedarf. Am 3. Juni kam eine weitere wichtige Nachricht aus dem Open-Source-Großmodellbereich: Kunlun Wanwei kündigte das 200 Milliarden spärliche Open-Source-Großmodell Skywork-MoE an, das die Inferenzkosten erheblich senkt und gleichzeitig eine starke Leistung beibehält. Basierend auf dem vorherigen Kunlun Wanwei Open Source Skywo
- KI 1029 2024-06-05 22:14:46
-
- HuggingFace zeigt Ihnen, wie Sie ein visuelles SOTA-Modell erstellen
- Es gab zuvor den GPT-4o von OpenAI, und die Reihe der hochentwickelten multimodalen Großmodelle von Google kam nacheinander auf den Markt. Andere Praktizierende waren schockiert und begannen darüber nachzudenken, wie sie diese Supermodels wieder einholen könnten. In diesem Artikel von HuggingFace und der Universität Sorbonne in Frankreich fassten sie die wichtigsten Erfahrungen beim Aufbau großer visueller Modelle zusammen und zeigten Entwicklern einen Weg auf. Diese Erfahrungen in den Bildern decken viele Aspekte wie die Auswahl der Modellarchitektur, Trainingsmethoden und Trainingsdaten ab. Der Autor gibt nach mehreren Vergleichen eine detaillierte Zusammenfassung: Wenn Sie bei großen visuellen Modellen gute Arbeit leisten möchten, ist die Wahl der Architektur sehr wichtig. Das Sprachmodell hat einen größeren Einfluss auf die Gesamtleistung als das visuelle Modul. Die Einführung einer abgestuften Pre-Training-Strategie ist für den Aufbau von Modellfähigkeiten förderlicher. Die Trainingsdaten sollten umfassen
- KI 1006 2024-06-05 21:39:58
-
- Fünf Schulen des maschinellen Lernens, die Sie nicht kennen
- Maschinelles Lernen ist ein wichtiger Zweig der künstlichen Intelligenz, der Computern die Möglichkeit gibt, aus Daten zu lernen und ihre Fähigkeiten zu verbessern, ohne explizit programmiert zu werden. Maschinelles Lernen hat ein breites Anwendungsspektrum in verschiedenen Bereichen, von der Bilderkennung und der Verarbeitung natürlicher Sprache bis hin zu Empfehlungssystemen und Betrugserkennung, und es verändert unsere Lebensweise. Im Bereich des maschinellen Lernens gibt es viele verschiedene Methoden und Theorien, von denen die fünf einflussreichsten Methoden als „Fünf Schulen des maschinellen Lernens“ bezeichnet werden. Die fünf Hauptschulen sind die symbolische Schule, die konnektionistische Schule, die evolutionäre Schule, die Bayes'sche Schule und die Analogieschule. 1. Der Symbolismus, auch Symbolismus genannt, betont die Verwendung von Symbolen zum logischen Denken und zum Ausdruck von Wissen. Diese Denkrichtung glaubt, dass Lernen ein Prozess der umgekehrten Schlussfolgerung durch das Vorhandene ist
- KI 982 2024-06-05 20:51:22