Der Schwerpunkt des diesjährigen Upgrades liegt auf der Einführung multimodaler Großmodellfunktionen.
Während die von Sora und Suno geschaffenen Video- und Musikkompositionen weltweit eine audiovisuelle Revolution auslösen, wie werden sich groß angelegte multimodale Anwendungen in der Industrie entwickeln? Am 27. März stellte Innovation Qizhi als Chinas führender Lösungsanbieter für „KI+-Fertigung“ seine zukunftsweisende Antwort vor.
Nach einem halben Jahr harter Arbeit veröffentlichte Innovation Qizhi auf einer Pressekonferenz in Peking die leistungsstärkere Version des Qizhi Haiming Industrial Large Model 2.0 (AInno-75B). Mehrere große native Modellanwendungen kamen ebenfalls auf den Markt, darunter ChatVision, ChatCAD und ChatRobot wurde ebenfalls auf die Pro-Version aktualisiert.
raus raus
Menge. Derzeit besteht ein gewisser Konsens über die Schnittstelle. Durch die Verbesserung der Parameter kann die Modellleistung verbessert werden. Im Vergleich zu AInno-15B hat AInno-75B ein deutliches Wachstum in Größe und Leistung erzielt.
Der Schwerpunkt des diesjährigen Upgrades liegt auf der Einführung von Multimode-Fähigkeiten für große Modelle. Zhang Faen erklärte, dass dieses fortschrittliche große Modell mehrere Informationsmodalitäten verarbeiten kann, darunter Text, Bilder und Videos, und sogar Datentypen integrieren kann, die nur für industrielle Szenarien gelten, wie etwa CAD-Zeichnungen und EEG-Signale. Die Ausgabe ist ebenso vielfältig und kann Text, Bilder, Videos, CAD-Konstruktionszeichnungen oder Betriebsverhalten von Werkzeugkörpern generieren.
Die von der C-seitigen AIGC-Anwendung generierten Bilder und Videoarbeiten sind atemberaubend, und im Bereich der Unternehmensdienstleistungen sind die Ebenso spannend sind die Möglichkeiten zur KI-Generierung.
Industriedesign ist der Grundstein der Produktionsaktivitäten. Von Mobiltelefonen bis hin zu Fabriken für neue Energiefahrzeuge sollte das Industriedesign vor der Produktion und dem Bau abgeschlossen sein. Als Grundlage des Industriedesigns nimmt CAD-Software eine wichtige Stellung in der Industriekette ein. Der Medien-CAD-Softwaremarkt meines Landes wurde lange Zeit von ausländischen Herstellern dominiert, mit komplexen Schnittstellen und hohen Nutzungsbarrieren.
Wang Ein einzelnes Gebäude, egal ob es sich um ein Standardgeschoss oder einen Komplex handelt, erfordert, dass Designer es einzeln zeichnen. Das Gleiche gilt für Industriezeichnungen, die viel Arbeitskraft und Materialressourcen verbrauchen. Darüber hinaus gibt es viele Branchenspezifikationen und häufige Überarbeitungen, was die Designschwierigkeit weiter erhöht.
Um diese Situation zu durchbrechen, übernahm Chuangxinqizhi die Führung bei der Einführung der industriellen Großmodelltechnologie im Bereich des Industriedesigns und startete eine Text-zu-CAD-Anwendung – „ChatCAD“: durch ein einfaches Dialog- und Frage-und-Antwort-Format Sie können die kreativen Absichten des Designers schnell verstehen, automatisch Industriedesignzeichnungen erstellen, die den Anforderungen entsprechen, und den Export in herkömmliche Software zur Feinabstimmung unterstützen.
Geben Sie „Helfen Sie mir, eine industrielle Riemenscheibe zu entwerfen“ ein. Die Parameter lauten wie folgt: Der Radius der Riemenscheibe beträgt 6, die Dicke beträgt 5, die Kante der Riemenscheibe ragt um 0,8 nach außen, die Dicke des hervorstehenden Teils beträgt 0,5 Die Höhe der Mittelachse der Riemenscheibe beträgt 5 Zoll und der Radius beträgt 4 Zoll. ChatCAD generiert sofort Grafiken und verfeinert das Design kontinuierlich auf der Grundlage des Feedbacks. { Zum Beispiel: „Helfen Sie mir, eine Turbine zu entwerfen. Die Turbine besteht aus einem Motor und einer Motorabdeckung. Die spezifischen Anforderungen sind wie folgt: Der Motor ist zylindrisch, 20 cm lang und 16 cm im Durchmesser. Die Turbine besteht aus einer zylindrischen Turbinenwelle und 5 Lüfterblätter. Der Durchmesser beträgt 12, die Oberseite der Turbine sollte eine zylindrische, konische rotierende Welle haben, die Wellenkappenlänge beträgt 9, der Durchmesser beträgt 50 Die Länge beträgt 30 und der Abstand zwischen der Turbinenschaufel und der Haube beträgt 1. ChatCAD kann weiterhin Ergebnisse generieren und basierend auf Feedback weiter verbessern. Die von ChatCAD generierten Designs unterstützen auch gängige Dateiformate und können nahtlos mit anderer Industriesoftware verbunden werden, um die spätere Integration und Änderung zu erleichtern.
Live-Demonstration des Turbinendesigns
Diese Funktion begeistert Herrn Wang sehr. Er ist davon überzeugt, dass ChatCAD der Branche dabei helfen soll, sich wiederholende Arbeiten zu reduzieren und starre Spezifikationsbeschränkungen zu vermeiden, wodurch die manuelle Angebotserstellung in der gesamten Branche beeinträchtigt wird. Wie wird ChatCAD also implementiert? CAD unterscheidet sich von gängigen Modalitäten wie Text, Bildern und Videos. Es muss geometrische Daten wie Punkte, Linien, Kanten, Kreise, Spalten und Prozesse darstellen. „Deshalb nennen wir es auch eine Modalität, eine Modalität, die es auf der C-Seite nicht gibt. Wir müssen unsere eigene Zwischensprache erfinden, um CAD auszudrücken, diese Zwischensprache oder diesen Zwischencode für große Modelle generieren und diese Zwischencodes dann übersetzen.“ in CAD " Offiziell veröffentlicht Chatcad Demo Zhang Fa'en sagte ehrlich, dass die aktuellen einfachen Zeichnungen, die von Chatcad erzeugt wurden, direkt zur Verarbeitung verwendet werden können, aber komplexe Designs müssen noch verbessert werden. Das Ziel von ChatCAD ist es, ein Assistent der rechten Hand für Ingenieure in Designinstituten zu werden. Es wird erwartet, dass der Designprozess, der ursprünglich zehn Stunden dauerte, auf eine Stunde verkürzt wird, wobei das große Modell für 90 % der Arbeit verantwortlich ist und die restlichen 10 % manuell optimiert werden. Erwähnenswert ist, dass Chuangxinqizhi fortschrittliche Großmodelltechnologie erfolgreich in verschiedene Industriesoftware wie CAD, MES und BI integriert und so die Intelligenz des gesamten Prozesses „F&E-Design-Produktionssteuerung-Informationsmanagement“ bei Renovierungen und Upgrades realisiert hat. Produktionssicherheit und Compliance im Werk sind von entscheidender Bedeutung, Videoüberwachung und Bildanalyse sind unverzichtbar. Nehmen wir als Beispiel das Wellenlöten in einer Leiterplattenfabrik, wenn Arbeiter 280-Grad-Hochtemperatur-Zinnöfen reinigen, wenn sie nicht unbedingt Sicherheitsschutzausrüstung wie luftdichte Aktivkohlemasken, Hochtemperatur-Schutzhandschuhe usw. tragen ., es besteht die Gefahr schwerer Verbrennungen. Herkömmliche Überwachungsmethoden sind ineffizient, versteckte Gefahren sind leicht zu übersehen und es kommt zu offensichtlichen Verzögerungen bei nachfolgenden Inspektionen. Basierend auf dem industriellen Großmodell Alnno-75B kann ChatVision Überwachungsvideostreams, Videodateien und Bilder in Echtzeit mithilfe natürlicher Sprache analysieren, nicht konformes Verhalten genau identifizieren und sofort das Alarmsystem auslösen (z. B. automatisches Versenden von E-Mails an Administratoren). um die Sicherheit von Industrieunternehmen in der Produktion zu unterstützen. Bei der Live-Demonstration auf der Pressekonferenz reagierte ChatVision präzise auf umfassende Verständnisbefehle wie „Schauen Sie sich den aktuellen Bildschirm genau an und sagen Sie mir, wo dieser sein könnte“, sowie „Suchen Sie die Steckdose im Bildschirm“, „ „Finde den weißen Schutzhelm“ usw. Spezifische Zielerkennungsaufgaben zeigen seine breiten Anwendungsaussichten. Diese Anleitung scheint sehr einfach zu sein, nein Bei großen Modellen müssen für jede kleine Erkennungskategorie (z. B. Schutzhelme und Rauchen) spezifische Algorithmen entwickelt werden. Es ist schwierig, sie nach dem Debuggen und Bereitstellen zu ändern, und die Implementierungskosten sind hoch Große Modelle untergraben das traditionelle Paradigma. Ein einzelnes großes Modell kann die Funktionen mehrerer kleiner Modelle abdecken, übertrifft alle Aspekte in Bezug auf Leistung, Genauigkeit und Generalisierungsfähigkeiten und unterstützt die Interaktion in natürlicher Sprache, was den Entwicklungs- und Bereitstellungsprozess erheblich vereinfacht. Während der Live-Demonstration veränderte sich der Bildschirm: Ein Kollege zog ihn aus. Während der Arbeiter mit seinem Handy spielte, zog ein anderer Kollege seine Sicherheitskleidung aus und gab eine Anweisung: „Bitte analysieren Sie dieses Bild sorgfältig und senden Sie eine E-Mail an.“ Diese Anleitung ist sehr wissensintensiv und beinhaltet mehr als nur Verstöße. Zur Beurteilung müssen Sie auch entscheiden, ob der E-Mail-Versand und die Empfänger ausgelöst werden sollen. Dies ist der typische Servicemodus von großen -Modellieren Sie native Anwendungen. Daher nutzt ChatVision viele Sicherheitsüberwachungsfunktionen, um drei Verstöße zu identifizieren und nicht nur zu markieren. Rufen Sie externe Tools auf, um komplexe Videoverständnisaufgaben ordnungsgemäß abzuschließen Zhang Faen, CTO von Innovation Qizhi, sagte, dass das Unternehmen in den letzten Jahren mehr als 200 visuelle Algorithmen und Modell-Assets angesammelt habe und industrielle Großmodelle eine neue Welt für die Anwendung dieser Assets eröffnet hätten Intelligenter Orchestrator zur Optimierung des Benutzererlebnisses, aber seine multimodalen Fähigkeiten können auch das Videoverständnis verbessern und eine wichtige Rolle im Bereich der Unternehmenssicherheit spielen . Der letzte Demonstrationsfall verdeutlicht die innovative Anwendung großer Modelle im multimodalen Bereich. Angesichts eines echten Werkstattvideos stellte der Demonstrator eine schwierige Forderung: „Bitte analysieren Sie dieses Video sorgfältig, sagen Sie mir, ob jemand isst und markieren Sie den Zeitpunkt, zu dem diese Aktion stattgefunden hat.“ Für diese Aufgabe ist ein großes Modell erforderlich, um eine kontinuierliche Aktionserkennung für Langzeitsequenzbilder durchzuführen und die Start- und Endzeiten der Aktionen zu markieren. Dadurch konnte ChatVision die Szene, in der die Arbeiter aßen, innerhalb der ersten 15 Sekunden des Videos genau lokalisieren. „Essen ist ein sehr häufiges Ereignis, und die Fähigkeit großer Modelle, Ereignisse zu verstehen, ist weitaus besser als bei herkömmlichen kleinen Algorithmusmodellen“, erklärte Zhang Faen. Es besteht seit langem ein dringender Bedarf, die Produktions- und Techniksicherheit durch Video zu gewährleisten. Zukünftig wird erwartet, dass damit verbundene Arbeiten rund um große Modelle ein intelligentes Videoverständnis der Produktionssicherheitsbedingungen und der Einhaltung von Produktionsprozessen ermöglichen. Nach Ansicht von Wang Xian hat Sicherheit bei Ingenieurprojekten immer oberste Priorität. Seit vielen Jahren beinhaltet die technische Sicherheitsschulung selten die Gefahrenerkennung vor Ort. Er glaubt, dass ChatVision breite Anwendungsaussichten hat und voraussichtlich bei der Erkennung von Schutzhelmen vor Ort, dem Tragen von Sicherheitsseilen in großer Höhe, dem Tragen von Sicherheitsausrüstung und anderen Szenarien implementiert wird. ChatVision hat auch in der Überwachungsbranche großes Potenzial. Derzeit sind viele Sicherheitsinspektionen vor Ort immer noch stark auf Arbeitskräfte angewiesen. Die native Anwendung ChatRobot von AInno-15B hat die Sprachsteuerung von Industrierobotern implementiert. Sagen Sie ChatRobot einfach „Bring mir eine Tasse Kaffee“, und er kann den Industrieroboterarm anweisen, im Regal nach Kaffee zu suchen und seine eigene Route zu entwerfen, um die Waren an Sie zu liefern. ChatRobot Pro kann komplexere Informationsträger-EEG-Signale verarbeiten. EEG-Signale sind Signale, die während der Gehirnaktivität erzeugt werden. Der Zusammenhang zwischen Gehirnaktivität und EEG-Signalen ist für Forscher zu einem großen Problem geworden. Während herkömmliche Ansätze eine geringe Genauigkeit aufweisen, zeigt AInno-75B Potenzial für die Interpretation dieser Art multimodaler Informationen. Einige ausländische Gehirn-Computer-Schnittstellentechnologien verwenden invasive Elektroden, um EEG-Signale zu erhalten, was eine Reihe technischer Probleme mit sich bringt, wie z. B. Elektrodendesign, chirurgische Implantation, Abstoßungsreaktion, Signalübertragung und Signaldekodierung. Innovation Qizhi verwendet nicht-invasive EEG-Kappen zur Erfassung von EEG-Informationen, was den technischen Aufwand erheblich reduziert. Zhang Faen sagte jedoch auch, dass mit der invasiven Methode mehr Kanäle und klarere EEG-Signale erhalten werden können, was die spätere Entschlüsselung komplexerer Gehirnabsichten erleichtern wird. Eine anschauliche Metapher ist: Die invasive Methode zur Erfassung von EEG-Signalen ist so, als würde man einem Konzert in einem Stadion zuhören, während die nicht-invasive Methode so ist, als würde man einem Konzert außerhalb des Stadions zuhören. Es wird einen großen Unterschied in der Klarheit des Gesangs geben . Derzeit besteht die Forschungs- und Entwicklungsarbeit von Innovation Qizhi darin, die multimodalen Fähigkeiten großer Industriemodelle zu überprüfen und technische Voruntersuchungen für mögliche zukünftige gehirngesteuerte industrielle Automatisierungsszenarien durchzuführen. Dies ist auch eine native End-to-End-Anwendung, betonte Zhang Faen. Der gesamte Prozess von der Eingabe des EEG-Signals bis zur direkten Ausgabe des Endergebnisses (ein Roboterarm, der die Waren an den Demonstrator liefert) wird vom neuronalen Netzwerk abgeschlossen, ohne dass man sich auf manuell entworfene Funktionen oder traditionelle Datenverarbeitung verlassen muss. Zusätzlich zur natürlichen Sprachinteraktion und der Erkennung motorischer Vorstellungskraft nutzt ChatRobot Pro auch die industriellen Großmodell-Folgefähigkeiten voll aus, um die Orchestrierung langer Aufgabensequenzen und die komplexe Entscheidungsfindung zu erreichen. Die zukünftige Ausrichtung des innovativen Großmodells Qizhi Industrial wird auch darin bestehen, verschiedenen Körpern (sei es industrielle Roboterarme oder AGVs usw.) leistungsstarke intelligente Steuerungs- und Entscheidungsfähigkeiten zu verleihen. Im Zeitalter der generativen KI gibt es keinen Präzedenzfall für industrielle Innovationen. Qizhi hat verschiedene Möglichkeiten in industriellen Szenarien erkundet. Zhang Faen nennt die Aussicht auf große Modelle in Richtung Unternehmensdienstleistungen „vielversprechend“. Aber er räumte ein, dass in der Zeit des technologischen Wandels das Verständnis aller Menschen oft uneinheitlich ist, insbesondere bei relativ großen Veränderungen. Das Verständnis der Menschen braucht Zeit, um weiterzuverfolgen, und er ist keine Ausnahme. Zusätzlich zu den neuen nativen Anwendungen wurden die Gesamtleistung und Wirkung von ChatDOC, das letztes Jahr veröffentlicht wurde, verbessert und die Produktfunktionen sind vollständiger geworden. ChatBI hat Unterstützung für Excel- und CSV-Daten hinzugefügt und jetzt ist die Genauigkeit der Generierung von SQL-Anweisungen und Analyseberichten um 15 % gestiegen. Große Modellbereitstellungs-Engines sind einfacher bereitzustellen und bieten eine höhere Inferenzleistung. „Innovation Qizhi wird die ChatX-Anwendung weiter verbessern, die direkt auf den Kerngenerierungsfunktionen industrieller Großmodelle basiert.“
Bei der Pressekonferenz wählte der Demonstrator nach dem Zufallsprinzip ein Produkt (Uniform Green Tea) aus und bat eine Person mit mehreren an der Kopfhaut befestigten Elektroden, mithilfe ihrer motorischen Vorstellungskraft einen Industrieroboter zu steuern, der ihm das Getränk in die Hand gab. Der Mann, der den Kollektor trägt, versucht, an drei Dinge zu denken: links, rechts und Auswahl. Der Cursor bewegt sich basierend auf den vom großen Modell übersetzten Signalen auch nach links und rechts. Wenn sich der Cursor zum Zielsymbol bewegt, starrt er auf das Symbol und klickt mit dem Cursor, um es auszuwählen.
Als nächstes führt ChatRobot Pro selbstständig die intelligente Orchestrierung von Aufgaben durch, generiert ausführbare Aufgabenschritte und interagiert in Echtzeit mit der Schnittstelle des Industrieroboters, um den Roboter anzuweisen, die Aufgabe zu erledigen.
Das obige ist der detaillierte Inhalt vonSehen Sie sich Videos an, zeichnen Sie CAD und erkennen Sie bewegte Bilder! Das große multimodale Industriemodell von 75B ist so leistungsfähig. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!