


Wie wendet man große NLP-Modelle auf Zeitreihen an? Eine Zusammenfassung der fünf Methodenkategorien!
Kürzlich hat die University of California einen Übersichtsartikel veröffentlicht, in dem Methoden zur Anwendung vorab trainierter großer Sprachmodelle im Bereich der Verarbeitung natürlicher Sprache auf Zeitreihenvorhersagen untersucht werden. Dieser Artikel fasst die Anwendung von 5 verschiedenen NLP-Großmodellen im Zeitreihenbereich zusammen. Als Nächstes werden wir diese 5 in diesem Testbericht erwähnten Methoden kurz vorstellen.
Bilder
Papiertitel: Large Language Models for Time Series: A Survey
Download-Adresse: https://arxiv.org/pdf/2402.01801.pdf
Bilder
1 Prompt-Methode
Durch die direkte Verwendung der Prompt-Methode kann das Modell die Ausgabe für Zeitreihendaten vorhersagen. Bei der vorherigen Eingabeaufforderungsmethode bestand die Grundidee darin, einen Eingabeaufforderungstext vorab zu trainieren, ihn mit Zeitreihendaten zu füllen und das Modell Vorhersageergebnisse generieren zu lassen. Wenn Sie beispielsweise einen Text erstellen, der eine Zeitreihenaufgabe beschreibt, geben Sie die Zeitreihendaten ein und lassen Sie das Modell Vorhersageergebnisse direkt ausgeben.
Bilder
Bei der Verarbeitung von Zeitreihen werden Zahlen oft als Teil des Textes betrachtet, und auch das Thema der Tokenisierung von Zahlen hat große Aufmerksamkeit erregt. Einige Methoden fügen gezielt Leerzeichen zwischen Zahlen ein, um Zahlen klarer zu unterscheiden und unangemessene Unterscheidungen zwischen Zahlen in Wörterbüchern zu vermeiden.
2. Diskretisierung
Diese Art von Methode diskretisiert Zeitreihen und wandelt kontinuierliche Werte in diskrete ID-Ergebnisse um, um sie an die Eingabeform großer NLP-Modelle anzupassen. Ein Ansatz besteht beispielsweise darin, Zeitreihen mit Hilfe der Vector Quantized-Variational AutoEncoder (VQ-VAE)-Technologie in diskrete Darstellungen abzubilden. VQ-VAE ist eine auf VAE basierende Autoencoder-Struktur, die die ursprüngliche Eingabe über den Encoder in einen Darstellungsvektor umwandelt und dann die ursprünglichen Daten über den Decoder wiederherstellt. VQ-VAE stellt sicher, dass der zwischenzeitlich generierte Darstellungsvektor diskretisiert wird. Auf der Grundlage dieses diskretisierten Darstellungsvektors wird ein Wörterbuch erstellt, um die Abbildung der Diskretisierung von Zeitreihendaten zu realisieren. Eine andere Methode basiert auf der K-Means-Diskretisierung und verwendet die von Kmeans generierten Schwerpunkte, um die ursprüngliche Zeitreihe zu diskretisieren. Darüber hinaus werden in einigen Arbeiten Zeitreihen auch direkt in Text umgewandelt. In einigen Finanzszenarien werden beispielsweise tägliche Preiserhöhungen, Preissenkungen und andere Informationen direkt in entsprechende Buchstabensymbole als Eingabe für das große NLP-Modell umgewandelt.
Bilder
3. Zeitreihen-Textausrichtung
Diese Art von Methode basiert auf der Ausrichtungstechnologie im multimodalen Bereich, um die Darstellung von Zeitreihen im Textraum auszurichten, wodurch Zeitreihendaten direkt ausgerichtet werden können Eingabe in NLP-Großmodellziele.
Bei dieser Art von Methode werden häufig einige multimodale Ausrichtungsmethoden verwendet. Die typischste Variante ist die multimodale Ausrichtung, die auf kontrastivem Lernen basiert. Ähnlich wie bei CLIP werden ein Zeitreihen-Encoder und ein großes Modell verwendet, um die Darstellungsvektoren von Zeitreihen bzw. Text einzugeben, und dann wird kontrastives Lernen verwendet, um die Distanz zu verkürzen zwischen positiven Stichprobenpaaren. Ausrichtung von Darstellungen von Zeitreihen und Textdaten im latenten Raum.
Eine weitere Methode ist die Feinabstimmung basierend auf Zeitreihendaten, wobei das große NLP-Modell als Rückgrat verwendet wird und auf dieser Grundlage zusätzliche Zeitreihendaten zur Netzwerkanpassung eingeführt werden. Unter ihnen sind effiziente modalübergreifende Feinabstimmungsmethoden wie LoRA relativ verbreitet. Sie frieren die meisten Parameter des Backbones ein und optimieren nur eine kleine Anzahl von Parametern oder führen eine kleine Anzahl von Adapterparametern zur Feinabstimmung ein, um eine multimodale Ausrichtung zu erreichen.
Bilder
4. Einführung visueller Informationen
Diese Methode stellt normalerweise eine Verbindung zwischen Zeitreihen und visuellen Informationen her und führt dann multimodale Funktionen ein, die anhand von Bildern und Texten eingehend untersucht wurden . , um effektive Funktionen für nachgelagerte Aufgaben zu extrahieren. Beispielsweise richtet ImageBind die Daten von sechs Modalitäten, einschließlich Daten vom Typ Zeitreihe, einheitlich aus, um die Vereinheitlichung großer multimodaler Modelle zu erreichen. Einige Modelle im Finanzbereich wandeln Aktienkurse in Diagrammdaten um und verwenden dann CLIP, um Bilder und Texte auszurichten und diagrammbezogene Funktionen für nachgelagerte Zeitreihenaufgaben zu generieren.
5. Werkzeuge für große Modelle
Diese Art von Methode verbessert nicht mehr das NLP-Großmodell oder transformiert die Zeitreihendatenform für die Anpassung großer Modelle, sondern nutzt das NLP-Großmodell direkt als Werkzeug zur Lösung von Zeitreihenproblemen. Lassen Sie beispielsweise das große Modell Code generieren, um die Zeitreihenvorhersage zu lösen, und wenden Sie ihn auf die Zeitreihenvorhersage an, oder lassen Sie das große Modell die Open-Source-API aufrufen, um Zeitreihenprobleme zu lösen. Natürlich ist diese Methode eher auf praktische Anwendungen ausgerichtet.
Abschließend fasst der Artikel die repräsentativen Arbeiten und repräsentativen Datensätze verschiedener Methoden zusammen:
Bilder
Bilder
Das obige ist der detaillierte Inhalt vonWie wendet man große NLP-Modelle auf Zeitreihen an? Eine Zusammenfassung der fünf Methodenkategorien!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Am 30. Mai kündigte Tencent ein umfassendes Upgrade seines Hunyuan-Modells an. Die auf dem Hunyuan-Modell basierende App „Tencent Yuanbao“ wurde offiziell eingeführt und kann in den App-Stores von Apple und Android heruntergeladen werden. Im Vergleich zur Hunyuan-Applet-Version in der vorherigen Testphase bietet Tencent Yuanbao Kernfunktionen wie KI-Suche, KI-Zusammenfassung und KI-Schreiben für Arbeitseffizienzszenarien. Yuanbaos Gameplay ist außerdem umfangreicher und bietet mehrere Funktionen für KI-Anwendungen , und neue Spielmethoden wie das Erstellen persönlicher Agenten werden hinzugefügt. „Tencent strebt nicht danach, der Erste zu sein, der große Modelle herstellt.“ Liu Yuhong, Vizepräsident von Tencent Cloud und Leiter des großen Modells von Tencent Hunyuan, sagte: „Im vergangenen Jahr haben wir die Fähigkeiten des großen Modells von Tencent Hunyuan weiter gefördert.“ . In die reichhaltige und umfangreiche polnische Technologie in Geschäftsszenarien eintauchen und gleichzeitig Einblicke in die tatsächlichen Bedürfnisse der Benutzer gewinnen

Tan Dai, Präsident von Volcano Engine, sagte, dass Unternehmen, die große Modelle gut implementieren wollen, vor drei zentralen Herausforderungen stehen: Modelleffekt, Inferenzkosten und Implementierungsschwierigkeiten: Sie müssen über eine gute Basisunterstützung für große Modelle verfügen, um komplexe Probleme zu lösen, und das müssen sie auch Dank der kostengünstigen Inferenzdienste können große Modelle weit verbreitet verwendet werden, und es werden mehr Tools, Plattformen und Anwendungen benötigt, um Unternehmen bei der Implementierung von Szenarien zu unterstützen. ——Tan Dai, Präsident von Huoshan Engine 01. Das große Sitzsackmodell feiert sein Debüt und wird häufig genutzt. Das Polieren des Modelleffekts ist die größte Herausforderung für die Implementierung von KI. Tan Dai wies darauf hin, dass ein gutes Modell nur durch ausgiebigen Gebrauch poliert werden kann. Derzeit verarbeitet das Doubao-Modell täglich 120 Milliarden Text-Tokens und generiert 30 Millionen Bilder. Um Unternehmen bei der Umsetzung groß angelegter Modellszenarien zu unterstützen, wird das von ByteDance unabhängig entwickelte Beanbao-Großmodell durch den Vulkan gestartet

Heute möchte ich eine aktuelle Forschungsarbeit der University of Connecticut vorstellen, die eine Methode zum Abgleichen von Zeitreihendaten mit großen NLP-Modellen (Natural Language Processing) im latenten Raum vorschlägt, um die Leistung von Zeitreihenprognosen zu verbessern. Der Schlüssel zu dieser Methode besteht darin, latente räumliche Hinweise (Eingabeaufforderungen) zu verwenden, um die Genauigkeit von Zeitreihenvorhersagen zu verbessern. Titel des Papiers: S2IP-LLM: SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting Download-Adresse: https://arxiv.org/pdf/2403.05798v1.pdf 1. Hintergrundmodell für große Probleme

„Hohe Komplexität, hohe Fragmentierung und Cross-Domain“ waren schon immer die Hauptprobleme auf dem Weg zur digitalen und intelligenten Modernisierung der Transportbranche. Kürzlich ist das „Qinling·Qinchuan Traffic Model“ mit einer Parameterskala von 100 Milliarden, das gemeinsam von China Science Vision, der Bezirksregierung Xi'an Yanta und dem Xi'an Future Artificial Intelligence Computing Center entwickelt wurde, auf den Bereich des intelligenten Transports ausgerichtet und bietet Dienstleistungen für Xi'an und die umliegenden Gebiete. Die Region wird ein Dreh- und Angelpunkt für intelligente Transportinnovationen sein. Das „Qinling·Qinchuan Traffic Model“ kombiniert Xi'ans umfangreiche lokale verkehrsökologische Daten in offenen Szenarien, den ursprünglich von China Science Vision unabhängig entwickelten fortschrittlichen Algorithmus und die leistungsstarke Rechenleistung der Shengteng AI des Xi'an Future Artificial Intelligence Computing Center Überwachung des Straßennetzes, intelligente Transportszenarien wie Notfallkommando, Wartungsmanagement und öffentlicher Verkehr führen zu digitalen und intelligenten Veränderungen. Das Verkehrsmanagement weist in verschiedenen Städten und auf verschiedenen Straßen unterschiedliche Merkmale auf

1. Produktpositionierung von TensorRT-LLM TensorRT-LLM ist eine von NVIDIA entwickelte skalierbare Inferenzlösung für große Sprachmodelle (LLM). Es erstellt, kompiliert und führt Berechnungsdiagramme auf der Grundlage des TensorRT-Deep-Learning-Kompilierungsframeworks aus und stützt sich auf die effiziente Kernels-Implementierung in FastTransformer. Darüber hinaus nutzt es NCCL für die Kommunikation zwischen Geräten. Entwickler können Betreiber entsprechend der Technologieentwicklung und Nachfrageunterschieden an spezifische Anforderungen anpassen, beispielsweise durch die Entwicklung maßgeschneiderter GEMM auf Basis von Entermessern. TensorRT-LLM ist die offizielle Inferenzlösung von NVIDIA, die sich der Bereitstellung hoher Leistung und der kontinuierlichen Verbesserung ihrer Praktikabilität verschrieben hat. TensorRT-LL

Laut Nachrichten vom 4. April hat die Cyberspace Administration of China kürzlich eine Liste registrierter großer Modelle veröffentlicht, in der das „Jiutian Natural Language Interaction Large Model“ von China Mobile enthalten ist, was darauf hinweist, dass das große Jiutian AI-Modell von China Mobile offiziell generative künstliche Intelligenz bereitstellen kann Geheimdienste nach außen. China Mobile gab an, dass dies das erste groß angelegte Modell sei, das von einem zentralen Unternehmen entwickelt wurde und sowohl die nationale Doppelregistrierung „Generative Artificial Intelligence Service Registration“ als auch die „Domestic Deep Synthetic Service Algorithm Registration“ bestanden habe. Berichten zufolge zeichnet sich Jiutians großes Modell für die Interaktion mit natürlicher Sprache durch verbesserte Branchenfähigkeiten, Sicherheit und Glaubwürdigkeit aus und unterstützt die vollständige Lokalisierung. Es hat mehrere Parameterversionen wie 9 Milliarden, 13,9 Milliarden, 57 Milliarden und 100 Milliarden gebildet. und kann flexibel in der Cloud eingesetzt werden, Edge und End sind unterschiedliche Situationen

Wenn die Testfragen zu einfach sind, können sowohl Spitzenschüler als auch schlechte Schüler 90 Punkte erreichen, und der Abstand kann nicht vergrößert werden ... Mit der Veröffentlichung stärkerer Modelle wie Claude3, Llama3 und später sogar GPT-5 ist die Branche in Bewegung Dringender Bedarf an einem schwierigeren und differenzierteren Benchmark-Modell. LMSYS, die Organisation hinter der großen Modellarena, brachte den Benchmark der nächsten Generation, Arena-Hard, auf den Markt, der große Aufmerksamkeit erregte. Es gibt auch die neueste Referenz zur Stärke der beiden fein abgestimmten Versionen der Llama3-Anweisungen. Im Vergleich zu MTBench, das zuvor ähnliche Ergebnisse erzielte, stieg die Arena-Hard-Diskriminierung von 22,6 % auf 87,4 %, was auf den ersten Blick stärker und schwächer ist. Arena-Hard basiert auf menschlichen Echtzeitdaten aus der Arena und seine Übereinstimmungsrate mit menschlichen Vorlieben liegt bei bis zu 89,1 %.

1. Einführung in den Hintergrund Lassen Sie uns zunächst die Entwicklungsgeschichte von Yunwen Technology vorstellen. Yunwen Technology Company ... 2023 ist die Zeit, in der große Modelle vorherrschen. Viele Unternehmen glauben, dass die Bedeutung von Diagrammen nach großen Modellen stark abgenommen hat und die zuvor untersuchten voreingestellten Informationssysteme nicht mehr wichtig sind. Mit der Förderung von RAG und der Verbreitung von Data Governance haben wir jedoch festgestellt, dass eine effizientere Datenverwaltung und qualitativ hochwertige Daten wichtige Voraussetzungen für die Verbesserung der Wirksamkeit privatisierter Großmodelle sind. Deshalb beginnen immer mehr Unternehmen, darauf zu achten zu wissenskonstruktionsbezogenen Inhalten. Dies fördert auch den Aufbau und die Verarbeitung von Wissen auf einer höheren Ebene, wo es viele Techniken und Methoden gibt, die erforscht werden können. Es ist ersichtlich, dass das Aufkommen einer neuen Technologie nicht alle alten Technologien besiegt, sondern auch neue und alte Technologien integrieren kann.
