Armut bereitet mich vor-KI-php.cn

Inhaltsverzeichnis

1. Benötigen Sie eine Vorschulung? " > 1. Benötigen Sie eine Vorschulung?

2. So trainieren Sie vorab " > 2. So trainieren Sie vorab

3. Experimentelle Ergebnisse " >3. Experimentelle Ergebnisse

4. Fazit " > 4. Fazit

Heim

Technologie-Peripheriegeräte

Armut bereitet mich vor

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 26, 2023 am 08:32 AM

自然语言

Armut bereitet mich vor

1. Benötigen Sie eine Vorschulung?

Armut bereitet mich vor

Die Wirkung einer Vorschulung ist direkt und die erforderlichen Ressourcen sind oft unerschwinglich. Wenn diese Vorschulungsmethode existiert, erfordert ihr Start sehr wenig Rechenleistung, Daten und Personalressourcen oder sogar nur den ursprünglichen Korpus einer einzelnen Person und einer einzelnen Karte. Nach einer unbeaufsichtigten Datenverarbeitung und einer Übertragung vor dem Training in Ihre eigene Domäne können Sie Null-Stichproben-NLG-, NLG- und Vektordarstellungs-Fähigkeiten erhalten. Die Rückruffähigkeiten anderer Vektordarstellungen übersteigen BM25. Sind Sie daran interessiert, es auszuprobieren?

Armut bereitet mich vor

Ob man etwas tun möchte, muss durch die Messung des Inputs und Outputs entschieden werden. Vorschulung ist eine große Sache und erfordert einige Voraussetzungen und Ressourcen sowie ausreichend erwartete Vorteile, bevor sie umgesetzt werden kann. Die in der Regel erforderlichen Bedingungen sind: Qualität ist seltener als Quantität, daher muss die Qualität des Korpus ausreichend sein Im Vergleich dazu sind kleine Modelle einfacher zu trainieren und haben weniger Hindernisse, während große Modelle auf mehr Probleme stoßen. Je nach Szenario und Talentanpassung ist es am besten, eine zu haben große Speichergrafikkarte. Die Vorteile, die das Vortraining mit sich bringt, sind auch sehr intuitiv. Der Grad der Verbesserung steht in direktem Zusammenhang mit den Investitionen vor dem Training und den Domänenunterschieden .

In unserem Szenario unterscheidet sich das Datenfeld stark vom allgemeinen Feld, und selbst das Vokabular muss erheblich ersetzt werden, und der Geschäftsumfang ist ausreichend. Wenn das Modell nicht vorab trainiert ist, wird es auch speziell für jede nachgelagerte Aufgabe feinabgestimmt. Die erwarteten Vorteile einer Vorschulung sind sicher. Unser Korpus ist qualitativ schlecht, aber quantitativ ausreichend. Die Rechenleistungsressourcen sind sehr begrenzt und können durch entsprechende Talentreserven ausgeglichen werden. Zu diesem Zeitpunkt sind die Voraussetzungen für die Vorschulung bereits erfüllt.

Der Faktor, der direkt bestimmt, wie wir mit dem Vortraining beginnen, ist, dass zu viele nachgelagerte Modelle gewartet werden müssen, was insbesondere Maschinen- und Personalressourcen in Anspruch nimmt. Es müssen große Datenmengen vorbereitet werden Für jede Aufgabe muss ein dediziertes Modell trainiert werden. Die Komplexität der Governance hat dramatisch zugenommen. Deshalb untersuchen wir das Vortraining und hoffen, eine einheitliche Vortrainingsaufgabe zu erstellen, die allen nachgelagerten Modellen zugute kommt. Wenn wir dies tun, ist dies nicht über Nacht möglich. Je mehr Modelle gepflegt werden müssen, desto größer ist auch die Erfahrung aus mehreren früheren Projekten, einschließlich selbstüberwachtem Lernen, kontrastivem Lernen und mehr Modelle, nach wiederholten Experimenten und Iterationen entstand Fusion.

Armut bereitet mich vor

Das obige Bild ist das traditionelle NLP-Pipeline-Paradigma, das auf dem vorhandenen allgemeinen Vortrainingsmodell basiert. Nach Abschluss des optionalen Migrationsvortrainings werden Datensätze für jede nachgelagerte Aufgabe gesammelt. Das Optimieren des Trainings erfordert viel Arbeit und Grafikkarten, um mehrere nachgelagerte Modelle und Dienste aufrechtzuerhalten.

Das Bild unten ist das neue Paradigma, das wir vorgeschlagen haben. Bei der Migration in unser Fachgebiet verwenden wir gemeinsame Sprachmodellierungsaufgaben und vergleichende Lernaufgaben, um das Ausgabemodell über NLU, NLG und Nullstichproben zu verfügen. und Vektordarstellungsfähigkeiten, diese Fähigkeiten werden modelliert und können bei Bedarf abgerufen werden. Auf diese Weise müssen weniger Modelle gepflegt werden, insbesondere wenn das Projekt gestartet ist, können sie direkt für die Forschung verwendet werden. Wenn eine weitere Feinabstimmung erforderlich ist, wird auch die erforderliche Datenmenge erheblich reduziert.

2. So trainieren Sie vorab

Armut bereitet mich vor

Dies ist unsere Modellarchitektur vor dem Training, einschließlich des Encoders, Decoders und Vektordarstellungskopfs des Transformers.

Zu den Zielen des Vortrainings gehören Sprachmodellierung und kontrastive Darstellung. Die Verlustfunktion ist Gesamtverlust = LM-Verlust + α CL-Verlust. Sie wird gemeinsam mit Sprachmodellierungsaufgaben und kontrastiven Darstellungsaufgaben trainiert, wobei α den Gewichtskoeffizienten darstellt. Die Sprachmodellierung verwendet ein Maskenmodell, ähnlich wie T5, das nur den Maskenteil dekodiert. Die kontrastive Darstellungsaufgabe ähnelt CLIP. Für jedes Probenpaar (i, I) gibt es ein positives Probenpaar und ein anderes Bei den Proben handelt es sich um negative Proben, bei denen ein symmetrischer Kreuzentropieverlust verwendet wird, um zu erzwingen, dass die Darstellung positiver Proben nahe beieinander liegt und die Darstellung negativer Proben weit auseinander liegt. Die Verwendung der T5-Dekodierung kann die Dekodierungslänge verkürzen. Über dem Head-Loading-Encoder wird eine nichtlineare Vektordarstellung platziert. Zum einen muss die Vektordarstellung im Szenario schneller sein, zum anderen wirken die beiden gezeigten Funktionen weit entfernt, um Trainingszielkonflikte zu vermeiden. Hier stellt sich also die Frage. Lückentexte sind sehr häufig und erfordern keine Stichproben. Wie entstehen also ähnliche Stichprobenpaare?

Armut bereitet mich vor

Natürlich müssen die Probenpaare als Vortrainingsmethode durch einen unbeaufsichtigten Algorithmus ermittelt werden. Im Allgemeinen wird im Bereich des Informationsabrufs zur Gewinnung positiver Proben die grundlegende Methode „Reverse Cloze“ verwendet, die mehrere Fragmente in einem Dokument durchsucht und davon ausgeht, dass sie miteinander in Zusammenhang stehen. Hier teilen wir das Dokument in Sätze auf und zählen dann die Satzpaare auf. Wir verwenden die längste gemeinsame Teilzeichenfolge, um zu bestimmen, ob zwei Sätze zusammenhängen. Wie in der Abbildung gezeigt, werden zwei positive und negative Satzpaare verwendet. Wenn die längste gemeinsame Teilzeichenfolge bis zu einem gewissen Grad lang genug ist, wird sie als ähnlich beurteilt, andernfalls ist sie nicht ähnlich. Der Schwellenwert wird von Ihnen selbst gewählt. Für einen langen Satz sind beispielsweise drei chinesische Schriftzeichen erforderlich. Ein kurzer Satz kann entspannter sein.

Wir verwenden Korrelation als Stichprobenpaar anstelle der semantischen Äquivalenz, da die beiden Ziele im Widerspruch stehen. Wie in der Abbildung oben gezeigt, sind die Bedeutungen von „Katze fängt Maus“ und „Maus fängt Katze“ gegensätzlich, aber verwandt. Unsere Szenariosuche konzentriert sich hauptsächlich auf die Relevanz. Darüber hinaus ist die Korrelation umfassender als die semantische Äquivalenz, und die semantische Äquivalenz eignet sich besser für eine kontinuierliche Feinabstimmung auf der Grundlage der Korrelation.

Einige Sätze werden mehrfach gefiltert, andere nicht. Wir begrenzen die Häufigkeit der Auswahl von Sätzen. Für die nicht erfolgreichen Sätze können diese als positive Proben kopiert, in die ausgewählten Sätze eingefügt oder umgekehrte Lückentexte als positive Proben verwendet werden.

Armut bereitet mich vor

Traditionelle Maskierungsmethoden wie SpanBert verwenden eine geometrische Verteilung, um die Maskenlänge abzutasten. Kurze Masken haben eine hohe Wahrscheinlichkeit, lange Masken eine niedrige Wahrscheinlichkeit und eignen sich für lange Sätze. Aber unser Korpus ist fragmentiert, wenn es um kurze Sätze mit einem oder zwanzig Wörtern geht. Die traditionelle Tendenz besteht darin, zwei einzelne Wörter statt eines Doppelworts zu maskieren, was unseren Erwartungen nicht entspricht. Deshalb haben wir diese Verteilung so verbessert, dass sie die höchste Wahrscheinlichkeit aufweist, die optimale Länge abzutasten, und die Wahrscheinlichkeit anderer Längen allmählich abnimmt, genau wie bei einem Kamelhöcker, und zu einer geometrischen Kamelhöckerverteilung wird, die in unserem kurzen Satz robuster ist. reichhaltige Szenarien.

3. Experimentelle Ergebnisse

Armut bereitet mich vor

Wir haben ein kontrolliertes Experiment durchgeführt. Einschließlich GUR-FULL, das Sprachmodellierung und vektorielle Kontrastdarstellung verwendet; UR-CL verfügt nicht über kontrastives Darstellungslernen, was einem herkömmlichen Sprachmodell entspricht, das nur über Vektoren verfügt Kontrastives Repräsentationslernen ohne Sprachmodellierungslernen entspricht einer Feinabstimmung speziell für nachgelagerte Aufgaben. NLPC ist ein Word2VEC-Operator in Baidu.

Das Experiment begann mit einem T5-Small und setzte das Vortraining fort. Zu den Schulungskorpora gehören Wikipedia, Wikisource, CSL und unsere eigenen Korpora. Unser eigener Korpus wird aus der Materialbibliothek erfasst und die Qualität ist sehr schlecht. Der qualitativ beste Teil ist der Titel der Materialbibliothek. Daher wird bei der Suche nach positiven Beispielen in anderen Dokumenten fast jedes Textpaar durchsucht, während in unserem Korpus der Titel verwendet wird, um jeden Satz des Textes abzugleichen. GUR-LCS wurde nicht von LCS ausgewählt. Wenn dies nicht der Fall ist, ist das Probenpaar zu schlecht. Wenn dies auf diese Weise erfolgt, ist der Unterschied zu GUR-FULL viel geringer.

Armut bereitet mich vor

Wir bewerten den Vektordarstellungseffekt des Modells bei mehreren Abrufaufgaben. Das Bild links zeigt die Leistung mehrerer Modelle im Rückruf. Wir haben festgestellt, dass die durch Vektordarstellung erlernten Modelle die beste Leistung erbringen und BM25 übertreffen. Wir haben auch die Ranglistenziele verglichen, und dieses Mal kam BM25 zurück und gewann. Dies zeigt, dass das dichte Modell über eine starke Generalisierungsfähigkeit und das spärliche Modell über einen starken Determinismus verfügt und dass sich beide ergänzen können. Tatsächlich werden bei nachgelagerten Aufgaben im Bereich des Informationsabrufs häufig dichte Modelle und spärliche Modelle gemeinsam verwendet.

Armut bereitet mich vor

Das obige Bild ist eine NLU-Bewertungsaufgabe mit unterschiedlichen Trainingsstichprobengrößen. Jede Aufgabe hat Dutzende bis Hunderte von Kategorien, und der ACC-Score wird zur Bewertung des Effekts verwendet. Das GUR-Modell wandelt außerdem die Klassifizierungsbezeichnungen in Vektoren um, um für jeden Satz die nächstgelegene Bezeichnung zu finden. Die obige Abbildung zeigt von links nach rechts eine Nullstichprobe, eine kleine Stichprobe und eine ausreichende Feinabstimmungsauswertung entsprechend der zunehmenden Trainingsstichprobengröße. Das Bild rechts zeigt die Modellleistung nach ausreichender Feinabstimmung, die die Schwierigkeit jeder Unteraufgabe zeigt und auch die Obergrenze der Leistung bei Nullstichproben und kleinen Stichproben darstellt. Es ist ersichtlich, dass das GUR-Modell bei einigen Klassifizierungsaufgaben eine Argumentation ohne Stichprobe erreichen kann, indem es sich auf die Vektordarstellung verlässt. Und die Fähigkeit des GUR-Modells, kleine Proben aufzunehmen, ist das herausragendste.

Armut bereitet mich vor

Dies ist eine Nullbeispielleistung in NLG. Bei der Titelgenerierung und Abfrageerweiterung ermitteln wir Titel mit qualitativ hochwertigem Traffic, behalten Schlüsselwörter bei und maskieren nach dem Zufallsprinzip Nicht-Schlüsselwörter. Die durch Sprachmodellierung trainierten Modelle funktionieren gut. Dieser automatische Prompt-Effekt ähnelt dem manuell erstellten Zieleffekt, weist jedoch eine größere Vielfalt auf und ist für die Massenproduktion geeignet. Mehrere Modelle, die die Sprachmodellierungsaufgabe bestanden haben, funktionieren ähnlich. Die obige Abbildung verwendet das GUR-Modellbeispiel.

4. Fazit

Dieser Artikel schlägt ein neues Pre-Training-Paradigma vor. Die obigen Kontrollexperimente zeigen, dass gemeinsames Training keine Zielkonflikte verursacht. Wenn das GUR-Modell weiterhin vorab trainiert wird, kann es seine Vektordarstellungsfähigkeiten verbessern und gleichzeitig seine Sprachmodellierungsfähigkeiten beibehalten. Einmaliges Vortraining, Inferenz mit null Originalproben überall. Geeignet für kostengünstige Vorschulungen für Fachabteilungen.

Armut bereitet mich vor

Der obige Link enthält unsere Schulungsdetails. Weitere Informationen finden Sie im Papierzitat. Die Codeversion ist etwas neuer als das Papier. Ich hoffe, einen kleinen Beitrag zur Demokratisierung der KI zu leisten. Große und kleine Modelle haben ihre eigenen Anwendungsszenarien. Das GUR-Modell kann nicht nur direkt für nachgelagerte Aufgaben verwendet werden, sondern auch in Kombination mit großen Modellen. In der Pipeline verwenden wir zunächst das kleine Modell zur Erkennung und dann das große Modell zum Anweisen von Aufgaben. Das große Modell kann auch Stichproben für das kleine Modell erzeugen, und das kleine GUR-Modell kann den Vektorabruf für das große Modell bereitstellen.

Das Modell in der Arbeit ist ein kleines Modell, das zur Untersuchung mehrerer Experimente ausgewählt wurde. Wenn in der Praxis ein größeres Modell ausgewählt wird, ist der Gewinn offensichtlich. Unsere Erkundung reicht nicht aus und es sind weitere Arbeiten erforderlich. Wenn Sie dazu bereit sind, können Sie sich an laohur@gmail.com wenden und sich darauf freuen, gemeinsam mit allen Fortschritten zu machen.

Das obige ist der detaillierte Inhalt vonArmut bereitet mich vor. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7465

CakePHP-Tutorial

1376

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Einführung in fünf Stichprobenmethoden bei Aufgaben zur Generierung natürlicher Sprache und bei der Implementierung von Pytorch-Code Feb 20, 2024 am 08:50 AM

Bei Aufgaben zur Generierung natürlicher Sprache ist die Stichprobenmethode eine Technik, um eine Textausgabe aus einem generativen Modell zu erhalten. In diesem Artikel werden fünf gängige Methoden erläutert und mit PyTorch implementiert. 1. GreedyDecoding Bei der Greedy-Decodierung sagt das generative Modell die Wörter der Ausgabesequenz basierend auf der Eingabesequenz Zeit Schritt für Zeit voraus. In jedem Zeitschritt berechnet das Modell die bedingte Wahrscheinlichkeitsverteilung jedes Wortes und wählt dann das Wort mit der höchsten bedingten Wahrscheinlichkeit als Ausgabe des aktuellen Zeitschritts aus. Dieses Wort wird zur Eingabe für den nächsten Zeitschritt und der Generierungsprozess wird fortgesetzt, bis eine Abschlussbedingung erfüllt ist, beispielsweise eine Sequenz mit einer bestimmten Länge oder eine spezielle Endmarkierung. Das Merkmal von GreedyDecoding besteht darin, dass die aktuelle bedingte Wahrscheinlichkeit jedes Mal die beste ist

So führen Sie die grundlegende Generierung natürlicher Sprache mit PHP durch Jun 22, 2023 am 11:05 AM

Die Erzeugung natürlicher Sprache ist eine Technologie der künstlichen Intelligenz, die Daten in Text in natürlicher Sprache umwandelt. Im heutigen Big-Data-Zeitalter müssen immer mehr Unternehmen Daten visualisieren oder den Benutzern präsentieren, und die Generierung natürlicher Sprache ist eine sehr effektive Methode. PHP ist eine sehr beliebte serverseitige Skriptsprache, die zur Entwicklung von Webanwendungen verwendet werden kann. In diesem Artikel wird kurz vorgestellt, wie PHP für die grundlegende Generierung natürlicher Sprache verwendet wird. Einführung in die Bibliothek zur Generierung natürlicher Sprache Die mit PHP gelieferte Funktionsbibliothek enthält nicht die für die Generierung natürlicher Sprache erforderlichen Funktionen

Traffic Engineering verdoppelt die Genauigkeit der Codegenerierung: von 19 % auf 44 % Feb 05, 2024 am 09:15 AM

Die Autoren eines neuen Papiers schlagen eine Möglichkeit vor, die Codegenerierung zu „verbessern“. Die Codegenerierung ist eine immer wichtiger werdende Fähigkeit der künstlichen Intelligenz. Es generiert automatisch Computercode basierend auf Beschreibungen in natürlicher Sprache, indem es Modelle für maschinelles Lernen trainiert. Diese Technologie hat breite Anwendungsaussichten und kann Softwarespezifikationen in verwendbaren Code umwandeln, die Back-End-Entwicklung automatisieren und menschliche Programmierer dabei unterstützen, die Arbeitseffizienz zu verbessern. Allerdings bleibt die Generierung von qualitativ hochwertigem Code für KI-Systeme im Vergleich zu Sprachaufgaben wie Übersetzung oder Zusammenfassung eine Herausforderung. Der Code muss genau der Syntax der Zielprogrammiersprache entsprechen, Randfälle und unerwartete Eingaben ordnungsgemäß verarbeiten und die vielen kleinen Details der Problembeschreibung genau behandeln. Selbst kleine Fehler, die in anderen Bereichen harmlos erscheinen, können die Funktionalität eines Programms vollständig beeinträchtigen und verursachen

Erstellen von Textgeneratoren mithilfe von Markov-Ketten Apr 09, 2023 pm 10:11 PM

In diesem Artikel stellen wir ein beliebtes maschinelles Lernprojekt namens Textgenerator vor. Sie erfahren, wie Sie einen Textgenerator erstellen und wie Sie eine Markov-Kette implementieren, um ein schnelleres Vorhersagemodell zu erhalten. Einführung in Textgeneratoren Die Textgenerierung ist branchenübergreifend beliebt, insbesondere in den Bereichen Mobilgeräte, Apps und Datenwissenschaft. Sogar die Presse nutzt die Textgenerierung, um den Schreibprozess zu unterstützen. Im täglichen Leben werden wir mit einigen Textgenerierungstechnologien in Kontakt kommen. Textvervollständigung, Suchvorschläge, Smart Compose und Chat-Roboter sind Beispiele für Anwendungen. In diesem Artikel werden Markov-Ketten zum Erstellen eines Textgenerators verwendet. Dies wäre ein zeichenbasiertes Modell, das das vorherige Zeichen der Kette übernimmt und den nächsten Buchstaben in der Sequenz generiert. Indem wir unser Programm anhand von Beispielwörtern trainieren,

Der in GPT-4 integrierte Cursor macht das Schreiben von Code so einfach wie das Chatten. Eine neue Ära des Codierens in natürlicher Sprache ist angebrochen. Apr 04, 2023 pm 12:15 PM

Github Copilot X, das GPT-4 integriert, befindet sich noch in kleinen internen Tests, während Cursor, das GPT-4 integriert, öffentlich veröffentlicht wurde. Cursor ist eine IDE, die GPT-4 integriert und Code in natürlicher Sprache schreiben kann, sodass das Schreiben von Code so einfach ist wie das Chatten. Es gibt immer noch einen großen Unterschied zwischen GPT-4 und GPT-3.5 in ihrer Fähigkeit, Code zu verarbeiten und zu schreiben. Ein Testbericht von der offiziellen Website. Die ersten beiden sind GPT-4, einer verwendet Texteingabe und der andere ist GPT3.5. Es ist ersichtlich, dass die Codierungsfunktionen von GPT-4 im Vergleich zu GPT-3.5 erheblich verbessert wurden. Github Copilot X mit GPT-4-Integration befindet sich noch in kleinen Tests

Mit umfassender Abdeckung von Werten und Datenschutz plant die Cyberspace Administration of China, „Regeln' für generative KI aufzustellen Apr 13, 2023 pm 03:34 PM

Am 11. April entwarf und veröffentlichte die Cyberspace Administration of China (im Folgenden „Cyberspace Administration of China“) die „Maßnahmen für das Management generativer künstlicher Intelligenzdienste (Entwurf für Kommentare)“ und startete eine einmonatige Einholung von Meinungen die Öffentlichkeit. Diese Managementmaßnahme (Entwurf zur Kommentierung) umfasst insgesamt 21 Artikel. Vom Anwendungsbereich umfasst sie sowohl Unternehmen, die generative künstliche Intelligenzdienste anbieten, als auch Organisationen und Einzelpersonen, die diese Dienste nutzen Inhalte der generativen künstlichen Intelligenz, Schulungsgrundsätze für Dienstleister, Schutz der Privatsphäre/geistigen Eigentumsrechte und anderer Rechte usw. Das Aufkommen groß angelegter generativer natürlichsprachlicher Modelle und Produkte wie GPT ermöglichte der Öffentlichkeit nicht nur, den rasanten Fortschritt der künstlichen Intelligenz zu erleben, sondern legte auch Sicherheitsrisiken offen, einschließlich der Generierung voreingenommener und diskriminierender Informationen.

Ist es notwendig, „Partizip' zu bilden? Andrej Karpathy: Es ist Zeit, diesen historischen Ballast wegzuwerfen May 20, 2023 pm 12:52 PM

Durch das Aufkommen von Konversations-KI wie ChatGPT haben sich die Menschen an solche Dinge gewöhnt: Geben Sie einen Text, einen Code oder ein Bild ein, und der Konversationsroboter gibt Ihnen die gewünschte Antwort. Doch hinter dieser einfachen Interaktionsmethode muss das KI-Modell sehr komplexe Datenverarbeitungen und Berechnungen durchführen, und die Tokenisierung ist weit verbreitet. Im Bereich der Verarbeitung natürlicher Sprache bezieht sich die Tokenisierung auf die Aufteilung der Texteingabe in kleinere Einheiten, sogenannte „Tokens“. Diese Token können Wörter, Teilwörter oder Zeichen sein, abhängig von der spezifischen Wortsegmentierungsstrategie und den Aufgabenanforderungen. Wenn wir beispielsweise eine Tokenisierung für den Satz „Ich esse gerne Äpfel“ durchführen, erhalten wir eine Folge von Token: [&qu

Viele Länder planen, ChatGPT zu verbieten. Kommt der Käfig für das „Biest'? Apr 10, 2023 pm 02:40 PM

„Künstliche Intelligenz will aus dem Gefängnis entkommen“, „KI erzeugt Selbstbewusstsein“, „KI wird irgendwann Menschen töten“, „Evolution des Lebens auf Siliziumbasis“ … tauchte einst nur in technologischen Fantasien wie Cyberpunk auf. Die Handlung kommt In diesem Jahr trifft dies zu, und generative Modelle natürlicher Sprache werden wie nie zuvor in Frage gestellt. Am meisten Aufsehen erregte ChatGPT. Von Ende März bis Anfang April wandelte sich dieser von OpenAI entwickelte Text-Konversationsroboter plötzlich von einem Vertreter „fortschrittlicher Produktivität“ zu einer Bedrohung für die Menschheit. Zuerst wurde es von Tausenden von Eliten in der Technologiewelt benannt und in einen offenen Brief aufgenommen, um „das Training von KI-Systemen, die leistungsfähiger sind als GPT-4, auszusetzen“, dann forderte die amerikanische Technologieethikorganisation die US-amerikanische Federal Trade Commission auf, dies zu untersuchen OpenAI und verbieten die Veröffentlichung einer kommerziellen Version

See all articles