aktueller Standort:Heim > Technische Artikel > Technologie-Peripheriegeräte > KI
- Richtung:
- alle web3.0 Backend-Entwicklung Web-Frontend Datenbank Betrieb und Instandhaltung Entwicklungswerkzeuge PHP-Framework tägliche Programmierung WeChat-Applet häufiges Problem andere Technik CMS-Tutorial Java System-Tutorial Computer-Tutorials Hardware-Tutorial Mobiles Tutorial Software-Tutorial Tutorial für Handyspiele
- Klassifizieren:
-
- Das Doubao Big Model Team veröffentlicht einen neuen Bewertungsbenchmark für Detailbildunterschriften, um die Zuverlässigkeit der VLM-Untertitelbewertung zu verbessern
- Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Das aktuelle visuelle Sprachmodell (VLM) führt hauptsächlich eine Leistungsbewertung durch QA-Frage- und Antwortformat durch, es fehlt jedoch eine Bewertung des grundlegenden Verständnisses des Modells, wie z. B. zuverlässige Bewertungsmethoden für DetailimageCaption-Leistung. Als Reaktion auf dieses Problem hat die Chinesische Akademie der Wissenschaften,
- KI 927 2024-07-18 20:10:02
-
- Die neuen Produkte der Samsung China Galaxy Z-Serie greifen auf ein großes Sitzsackmodell zu
- Am 17. Juli brachte Samsung Electronics eine neue Generation von Produkten der Galaxy Z-Serie für den chinesischen Markt auf den Markt. Bei dem Treffen gaben Samsung Electronics und Volcano Engine offiziell ihre Zusammenarbeit bekannt, um Sitzsackmodelle mit den intelligenten Assistenten und der KI-Vision der Mobiltelefone Galaxy Z Fold6 und Galaxy Z Flip 6 zu verbinden und so das intelligente Anwendungserlebnis von Mobiltelefonen zu verbessern. Zuvor hatte Samsung bei der Einführung neuer Produkte im Ausland eine intensive Zusammenarbeit mit Google Gemini angekündigt. In China wurden Hersteller wie Volcano Engine als große Modellpartner ausgewählt. Fenye-Bildunterschrift: Das intelligente Assistenten- und KI-Sitzsackmodell für den visuellen Zugriff der Mobiltelefone Samsung Galaxy Z Fold6 und Galaxy Z Flip 6. Zusätzlich zu den bekannt gegebenen KI-Funktionen wie Kreissuche, Echtzeitübersetzung und Aufzeichnungstranskription usw., dieses Mal
- KI 646 2024-07-18 20:07:33
-
- Dieses multimodale große Modell der „nativen Version' verzichtet auf den visuellen Encoder und ist auch mit Mainstream-Methoden vergleichbar
- Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Diao Haiwen ist Doktorand an der Technischen Universität Dalian und sein Betreuer ist Professor Lu Huchuan. Derzeit absolviert er ein Praktikum am Beijing Zhiyuan Artificial Intelligence Research Institute. Der Dozent ist Dr. Wang Xinlong. Seine Forschungsinteressen sind Vision und Sprache, effiziente Übertragung großer Modelle, multimodale große Modelle usw. Lasst uns gemeinsam Cui machen
- KI 423 2024-07-18 19:21:11
-
- Sind alle diese VLMs blind? GPT-4o und Sonnet-3.5 haben den Sehtest nacheinander nicht bestanden
- Die vier großen VLMs versuchen alle, die Blinden zu täuschen? Lassen Sie die beliebtesten SOTA-Modelle (GPT-4o, Gemini-1.5, Sonnet-3, Sonnet-3.5) zählen, wie viele Schnittpunkte es zwischen zwei Linien gibt. Werden sie besser abschneiden als Menschen? Die Antwort ist wahrscheinlich nein. Seit der Einführung von GPT-4V haben visuelle Sprachmodelle (VLMs) die Intelligenz großer Modelle dem von uns vorgestellten Niveau der künstlichen Intelligenz einen großen Schritt näher gebracht. VLMs können sowohl Bilder verstehen als auch Sprache verwenden, um zu beschreiben, was sie sehen, und auf der Grundlage dieser Erkenntnisse komplexe Aufgaben ausführen. Wenn Sie dem VLM-Modell beispielsweise ein Bild eines Esstisches und ein Bild einer Speisekarte senden, kann es aus den beiden Bildern die Anzahl der Bierflaschen und den Stückpreis auf der Speisekarte extrahieren und berechnen
- KI 690 2024-07-18 18:18:02
-
- MotionClone: Keine Schulung erforderlich, Klonen von Videobewegungen mit einem Klick
- Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Übermittlungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Es ist keine Schulung oder Feinabstimmung erforderlich. Die Bewegung des Referenzvideos kann in der durch das Eingabeaufforderungswort angegebenen neuen Szene geklont werden Körperbewegungen können mit einem Klick durchgeführt werden. Papier: https://arxiv.org/abs/2406.05
- KI 1045 2024-07-18 17:06:12
-
- Ein neuer Weg für Menschen, KI zu imitieren, KI: Wenn es um Wahnsinn geht, bist du mein Vater
- Herausgeber des Berichts über die Macht der Maschinen: Yang Wens KI wurde von Menschen in die Irre geführt! Diese Welt ist so verrückt... Kürzlich sind in den sozialen Medien eine Menge lustiger Videos aufgetaucht, unter dem Motto KI, echte Menschen, die mit KI Cosplay machen, und Douyin hat sogar ein heißes Thema – den Human Imitation AI Contest. (Video vom Douyin-Blogger „Guan Ni Luan Shi“) Videolink: https://mp.weixin.qq.com/s/1DVc8skecSsO0a9QcklZlwDie Routinen sind alle gleich: ein altes Foto auf der linken Seite und „AI Repair“ auf der linken Seite richtig“ Untertitel, die blutige „Verschwörung“ fehlender Hirnstämme wird tatsächlich von echten Menschen aufgeführt. -1-AI: Dies ist das erste Mal, dass ich imitiert wurde, aber ich hatte nicht erwartet, dass es schlimmer sein würde als bei mir.
- KI 1788 2024-07-18 16:51:08
-
- Die Inferenzeffizienz großer Modelle wurde ohne Verlust um das Dreifache verbessert. Die University of Waterloo, die Peking University und andere Institutionen haben EAGLE veröffentlicht
- Große Sprachmodelle (LLM) werden zunehmend in verschiedenen Bereichen eingesetzt. Allerdings ist ihr Textgenerierungsprozess teuer und langsam. Diese Ineffizienz wird auf die Betriebsregeln der autoregressiven Dekodierung zurückgeführt: Die Generierung jedes Wortes (Tokens) erfordert eine Vorwärtsausbreitung, die den Zugriff auf ein LLM mit Milliarden bis Hunderten von Milliarden Parametern erfordert. Dies führt dazu, dass die herkömmliche autoregressive Dekodierung langsamer ist. Kürzlich haben die University of Waterloo, das Canadian Vector Institute, die Peking University und andere Institutionen gemeinsam EAGLE veröffentlicht, das darauf abzielt, die Inferenzgeschwindigkeit großer Sprachmodelle zu verbessern und gleichzeitig eine konsistente Verteilung des Modellausgabetextes sicherzustellen. Diese Methode extrapoliert den zweiten Merkmalsvektor der obersten Ebene von LLM, was die Generierungseffizienz erheblich verbessern kann. Technischer Bericht: https://sites.google.com/view
- KI 1044 2024-07-18 14:43:48
-
- Um die tatsächliche Leistung von Agent effektiv zu bewerten, gibt es das neue Online-Bewertungsframework WebCanvas
- Pan Yichen: Masterstudent im ersten Jahr an der Zhejiang-Universität. Kong Dehan: Leiter Modellalgorithmus bei Cross Star Technology. Zhou Sida: Er hat 2024 seinen Abschluss an der Nanchang-Universität gemacht und wird an der Xi'an University of Electronic Science and Technology einen Master-Abschluss machen. Cui Cheng: Absolvent der Zhejiang-Universität für Traditionelle Chinesische Medizin im Jahr 2024 und wird an der Universität Suzhou einen Master-Abschluss machen. Pan Yichen, Zhou Sida und Cui Cheng haben die Forschungsarbeit dieser Arbeit gemeinsam als Algorithmen-Praktikanten bei Cross Star Technology abgeschlossen. Im heutigen Zeitalter der rasanten technologischen Entwicklung verändert das Large Language Model (LLM) die Art und Weise, wie wir mit der digitalen Welt interagieren, in einem beispiellosen Tempo. LLM-basierte intelligente Agenten (LLMAgent) werden nach und nach von der einfachen Informationssuche bis hin zu komplexen Webseitenvorgängen integriert.
- KI 636 2024-07-18 14:04:51
-
- AKOOL unterstützt die Cannes Advertising Awards und bringt eine revolutionäre digitale Echtzeit-Menschenplattform auf den Markt
- Da die Europameisterschaft 2024 in vollem Gange ist, erfreute sich auch ein Fußballspielvideo des französischen Telekommunikationsunternehmens Orange schnell großer Beliebtheit. Im Video sahen wir Mbappe, Giroud, Griezmann ... Tatsächlich sind alle Athleten, die auf dem Platz laufen, keine echten Menschen, sondern virtuelle Charaktere, die durch künstliche Intelligenz generiert wurden. Aufgrund seiner herausragenden Kreativität und Einzigartigkeit gewann das Werk den „Oscar“ in der Branche für kreatives Werbemarketing – die Auszeichnung in der Sportkategorie beim diesjährigen Cannes Lions International Festival of Creativity. AKOOL leistete grundlegenden technischen Support für diese preisgekrönte Arbeit. Das von ihnen entwickelte KI-Gesichtserfassungssystem kann mithilfe sorgfältig entwickelter Rendering-Technologie die subtilen Ausdrücke und Bewegungen menschlicher Gesichter präzise erfassen
- KI 565 2024-07-18 09:26:11
-
- 178 Seiten, 128 Fälle, umfassende Bewertung von GPT-4V im medizinischen Bereich, noch weit von der klinischen Anwendung und praktischen Entscheidungsfindung entfernt
- Die Shanghai Jiao Tong University und das Shanghai AILab haben einen 178-seitigen medizinischen Fallbericht zu GPT-4V veröffentlicht, der erstmals umfassend die visuelle Leistung von GPT-4V im medizinischen Bereich enthüllt. Angetrieben durch groß angelegte Basismodelle hat die Entwicklung der künstlichen Intelligenz in letzter Zeit große Fortschritte gemacht, insbesondere die leistungsstarken Fähigkeiten von OpenAI in Bezug auf Frage und Antwort sowie Wissen, die den Eureka-Moment im KI-Bereich erhellten und eine breite Öffentlichkeit hervorriefen Sorge. GPT-4V(ision) ist das neueste multimodale Basismodell von OpenAI. Im Vergleich zu GPT-4 bietet es zusätzliche Bild- und Spracheingabefunktionen. Diese Studie zielt darauf ab, die Leistung von GPT-4V(ision) im Bereich der multimodalen medizinischen Diagnose durch eine Fallanalyse zu bewerten
- KI 1262 2024-07-18 06:20:10
-
- Ausschreibung und Herausforderung für den ICML 2024 AI for Math Workshop gestartet!
- ICML2024, AIforMathWorkshop-Workshop zu formalem und natürlichem KI-mathematischem Denken. Zeit: 26./27. Juli 2024. Ort: Wien, Österreich. Findet gleichzeitig vor Ort und online statt. Homepage des Workshops: https://sites.google.com/view/ai4mathworkshopicml2024/ Mathematische Argumentation ist der anspruchsvollste und tiefgreifendste Teil der menschlichen Intelligenz. Im Entwicklungsprozess des mathematischen Denkens hat der Mensch verschiedene formale Sprachen zusammengefasst, die mathematische Probleme und Beweisprozesse streng beschreiben können. In den letzten Jahren nähern sich maschinelle Lernalgorithmen und groß angelegte Sprachmodelle in einigen mathematischen Überlegungen allmählich der menschlichen Leistung an oder übertreffen sie sogar.
- KI 753 2024-07-18 05:36:50
-
- Meta entwickelt die System 2-Destillationstechnologie und die Aufgabengenauigkeit des Llama 2-Dialogmodells liegt bei nahezu 100 %
- Die Forscher sagten, dass die System2-Destillation, wenn sie zu einem wichtigen Merkmal zukünftiger kontinuierlich lernender KI-Systeme werden kann, die Leistung von Inferenzaufgaben weiter verbessern kann, bei denen System2 nicht so gut funktioniert. Wenn es um LLM-Strategien (Large Language Model) geht, gibt es im Allgemeinen zwei Typen: der eine ist unmittelbares System1 (schnelle Reaktion) und der andere ist System2 (langsames Denken). Während System2-Denken nachdenkliches Denken begünstigt, ermöglicht generatives Zwischendenken dem Modell (oder dem Menschen), zu schlussfolgern und zu planen, um eine Aufgabe erfolgreich abzuschließen oder auf Anweisungen zu reagieren. Beim System2-Denken ist eine anstrengende geistige Aktivität erforderlich, insbesondere in Situationen, in denen System1 (eher automatisches Denken) schief gehen kann. Daher ist System1
- KI 1175 2024-07-18 05:07:20
-
- Um direkt auf die tatsächlichen AGI-Bedürfnisse von Partei A einzugehen, wurde das Artificial Intelligence Empowerment Industry Integration Development Forum erfolgreich abgehalten
- Am 6. Juli fand im World Expo Exhibition and Convention Center feierlich das „2024WAIC Artificial Intelligence Empowerment Industry Integration Development Forum“ statt. Das Hauptthema dieses Forums ist die Erörterung von Fragen im Zusammenhang mit künstlicher Intelligenz, die die neue Industrialisierung ermöglicht und die Entwicklung der industriellen Integration fördert, einschließlich Führungsreden, Unterzeichnungszeremonien, Grundsatzreden, Veröffentlichung von Szenarioanforderungen für künstliche Intelligenz für zentrale und staatliche Unternehmen usw Roundtable-Foren. Viele Unternehmen aus zentralen Staatsunternehmen und Bereichen der künstlichen Intelligenz nahmen teil, darunter das China Electronic Information Industry Development Research Institute, das China Mobile Research Institute, das Sinopec Shengli Oilfield, das State Grid Customer Service Center, China Electronics Yuchuang, die China Southern Power Grid Digital Grid Group, Damo Institute, Baidu Smart Cloud, Innovation Qizhi usw. Im Fokus der Konferenzteilnehmer standen die Anwendungspraxis künstlicher Intelligenz in verschiedenen Bereichen, die Entwicklung und Anwendung großer Modelle sowie intelligente Bedienung und Wartung.
- KI 575 2024-07-18 03:14:57
-
- Wie können modische AIGC-Vermarkter eine Win-Win-Situation zwischen „lizi' und „face' erreichen?
- Innovation und Sicherheit der AIGC-Technologie im Marketingbereich Im vergangenen Jahr hat die KI-Technologie eine Welle des Wandels in allen Lebensbereichen ausgelöst. Der Marketingkreis, der schon immer „in Mode“ war, war der erste, der die AIGC-Technologie einführte. Relevante Daten zeigen, dass im Jahr 2023 fast die Hälfte der Werbetreibenden meines Landes die AIGC-Technologie bei Online-Marketingaktivitäten einsetzen wird und sich mehr als 90 % dieser Anwendungen auf die Erstellung von Inhalten und die kreative Entwicklung konzentrieren. Dieses neue technologiegetriebene Werbe- und Marketingmodell nimmt allmählich Gestalt an und bietet Werbetreibenden mehr Möglichkeiten, Kosten zu senken und die Effizienz zu steigern. Obwohl die AIGC-Technologie im Marketingbereich großen Nutzen findet, bringt sie auch viele Herausforderungen mit sich. Beispielsweise kann die AIGC-Technologie bei der Erstellung von Marketingmaterialien zu Inhaltsrisiken führen, und hoch investierte Marketingaktivitäten können versehentlich als Hochzeitskleid für illegale Produkte dienen. Also,
- KI 874 2024-07-18 01:41:21
-
- ICML 2024 |. Gradient Checkpointing zu langsam? Ohne den Videospeicher zu verlangsamen und zu sparen, verbessert LowMemoryBP die Effizienz des Backpropagation-Videospeichers erheblich
- Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Der Erstautor dieses Artikels ist Yang Yuchen, ein Masterstudent im zweiten Jahr an der Fakultät für Statistik und Datenwissenschaft der Nankai-Universität, und sein Berater ist außerordentlicher Professor Xu Jun an der Fakultät für Statistik und Datenwissenschaft der Nankai-Universität. Der Forschungsschwerpunkt des Teams von Professor Xu Jun liegt auf Computer Vision, generativer KI und effizientem maschinellen Lernen, und sie arbeiten daran
- KI 775 2024-07-18 01:39:51