Dieser Artikel soll Lesern ohne Informatik-Hintergrund einige Informationen über ChatGPT und seine ähnlichen künstlichen Intelligenzsysteme (wie GPT-3, GPT-4, Bing Chat, Bard usw.) funktioniert. ChatGPT ist ein Chatbot, der auf einem großen Sprachmodell für die Konversationsinteraktion basiert. Diese Begriffe können unklar sein, daher erkläre ich sie. Gleichzeitig werden wir die dahinter stehenden Kernkonzepte diskutieren. Für diesen Artikel ist kein technisches oder mathematisches Hintergrundwissen des Lesers erforderlich. Wir werden Metaphern intensiv nutzen, um verwandte Konzepte zu erklären und sie besser zu verstehen. Wir werden auch die Auswirkungen dieser Techniken diskutieren und was wir mit großen Sprachmodellen wie ChatGPT erwarten oder nicht tun sollten.
Als nächstes werden wir mit dem grundlegenden „Was ist künstliche Intelligenz?“ beginnen und so weit wie möglich auf Fachbegriffe verzichten und nach und nach die Begriffe und Konzepte im Zusammenhang mit großen Sprachmodellen eingehend diskutieren und ChatGPT und wird Metaphern verwenden, um sie zu erklären. Gleichzeitig sprechen wir auch darüber, was diese Technologien bedeuten und was wir von ihnen erwarten oder nicht leisten können.
Beginnen wir zunächst mit einigen Grundbegriffen, die Sie vielleicht oft hören. Was ist also künstliche Intelligenz?
Künstliche Intelligenz: bezieht sich auf eine Entität, die ein Verhalten zeigen kann, das dem ähnelt, was Menschen als intelligent betrachten würden. Es gibt einige Probleme bei der Verwendung von „Intelligenz“ zur Definition künstlicher Intelligenz, da es für „Intelligenz“ selbst keine klare Definition gibt. Diese Definition ist jedoch immer noch angemessen. Das bedeutet im Grunde: Wenn wir etwas von Menschenhand Geschaffenes sehen, das interessante, nützliche und scheinbar schwierige Verhaltensweisen zeigt, dann könnten wir sagen, dass es intelligent ist. In Computerspielen beispielsweise bezeichnen wir computergesteuerte Charaktere oft als „KI“. Bei den meisten dieser Rollen handelt es sich um einfache Programme, die auf einem Wenn-Dann-Sonst-Code basieren (z. B. „Wenn der Spieler in Reichweite ist, feuern Sie, andernfalls gehen Sie zum nächsten Stein und verstecken sich“). Aber wenn die Charaktere uns fesseln und unterhalten können, ohne offensichtliche Dummheiten zu machen, dann denken wir vielleicht, dass sie komplexer sind, als sie tatsächlich sind.
Sobald wir verstehen, wie etwas funktioniert, denken wir vielleicht nicht, dass es magisch ist, sondern erwarten etwas Komplexeres hinter den Kulissen. Es hängt alles davon ab, wie gut wir wissen, was hinter den Kulissen vor sich geht.
Der wichtige Punkt ist, dass künstliche Intelligenz keine Zauberei ist. Weil es keine Zauberei ist, kann es erklärt werden.
Ein weiterer Begriff, der oft mit künstlicher Intelligenz in Verbindung gebracht wird, ist maschinelles Lernen.
Maschinelles Lernen: Eine Methode zur Erzeugung von Verhalten durch das Sammeln von Daten, die Bildung eines Modells und die anschließende Ausführung des Modells. Manchmal ist es schwierig, manuell eine Reihe von Wenn-Dann-Sonst-Anweisungen zu erstellen, um ein komplexes Phänomen (z. B. Sprache) zu erfassen. In diesem Fall versuchen wir, große Datenmengen zu finden und diese mithilfe von Algorithmen zu modellieren, die Muster in den Daten finden können.
Was ist also ein Model? Ein Modell ist eine vereinfachte Version eines komplexen Phänomens. Ein Automodell ist beispielsweise eine kleinere, einfachere Version eines echten Autos, die viele Eigenschaften des echten Autos teilt, aber natürlich nicht dazu gedacht ist, die Originalversion vollständig zu ersetzen. Modellautos können realistisch aussehen und sind beim Experimentieren nützlich.
So wie wir ein kleineres, einfacheres Auto bauen können, können wir auch ein kleineres, einfacheres Modell der menschlichen Sprache bauen. Wir verwenden den Begriff „großes Sprachmodell“, da diese Modelle im Hinblick auf die Speichermenge (Videospeicher), die sie verwenden müssen, sehr groß sind. Die größten derzeit in Produktion befindlichen Modelle wie ChatGPT, GPT-3 und GPT-4 sind so groß, dass für ihre Erstellung und den Betrieb Supercomputer erforderlich sind, die auf Rechenzentrumsservern laufen.
Es gibt viele Möglichkeiten, ein Modell anhand von Daten zu lernen, und neuronale Netzwerke sind eine davon. Die Technologie basiert lose auf der Struktur des menschlichen Gehirns, das aus einer Reihe miteinander verbundener Neuronen besteht, die elektrische Signale zwischen ihnen weiterleiten und es uns ermöglichen, eine Vielzahl von Aufgaben zu erledigen. Das Grundkonzept neuronaler Netze wurde in den 1940er Jahren erfunden, und das Grundkonzept zum Trainieren neuronaler Netze wurde in den 1980er Jahren erfunden. Erst mit der Aufrüstung der Computerhardware um 2017 konnten wir dies tun Sie können im großen Maßstab eingesetzt werden.
Allerdings verwende ich persönlich lieber Schaltkreismetaphern, um neuronale Netze zu simulieren. Durch Widerstand, den Stromfluss durch Drähte, können wir die Funktionsweise neuronaler Netze simulieren.
Stellen Sie sich vor, wir wollen ein selbstfahrendes Auto bauen, das auf der Autobahn fahren kann. Wir haben Abstandssensoren vorne, hinten und an den Seiten des Autos installiert. Der Abstandssensor meldet einen Wert von 1, wenn sich ein Objekt nähert, und einen Wert von 0, wenn sich kein erkennbares Objekt in der Nähe befindet.
Wir haben außerdem einen Roboter installiert, der das Lenkrad bedient, bremst und beschleunigt. Wenn der Gashebel einen Wert von 1 erhält, verwendet er die maximale Beschleunigung, während ein Wert von 0 keine Beschleunigung bedeutet. Ebenso bedeutet ein an den Bremsmechanismus gesendeter Wert 1 eine Notbremsung, während 0 keine Bremsung bedeutet. Der Lenkmechanismus akzeptiert einen Wert zwischen -1 und +1, wobei eine negative Zahl eine Linkskurve, eine positive Zahl eine Rechtskurve und 0 eine gerade Linie anzeigt.
Selbstverständlich müssen wir Fahrdaten aufzeichnen. Wenn der Weg vor Ihnen frei ist, beschleunigen Sie. Wenn ein Auto vor Ihnen steht, fahren Sie langsamer. Wenn ein Auto von links zu nahe kommt, weicht man nach rechts aus und wechselt die Spur, vorausgesetzt natürlich, dass sich rechts kein Auto befindet. Dieser Prozess ist sehr komplex und erfordert unterschiedliche Vorgänge (nach links oder rechts drehen, beschleunigen oder abbremsen, bremsen) basierend auf unterschiedlichen Kombinationen von Sensorinformationen, sodass jeder Sensor mit jedem Robotermechanismus verbunden sein muss.
Was passiert, wenn man auf der Straße fährt? Von allen Sensoren fließt elektrischer Strom zu allen Roboteraktoren, und das Fahrzeug dreht sich nach links und rechts, beschleunigt und bremst gleichzeitig. Es wird ein Durcheinander entstehen.
Nehmen Sie die Widerstände heraus und platzieren Sie sie in verschiedenen Teilen des Stromkreises, damit der Strom zwischen bestimmten Sensoren und bestimmten Roboterarmen freier fließen kann. Beispielsweise möchten wir, dass der Strom freier vom vorderen Näherungssensor zu den Bremsen und nicht zum Lenkmechanismus fließt. Wir haben auch Elemente namens Gates installiert, die entweder den Stromfluss stoppen, bis sich genügend Ladung angesammelt hat, um den Schalter auszulösen (den Stromfluss nur dann zulassen, wenn sowohl der vordere als auch der hintere Näherungssensor eine hohe Zahl meldeten), oder den Stromfluss nur zulassen, wenn die Eingangsleistung. Sendet Leistung nach vorne, wenn die Intensität niedrig ist (sendet mehr Leistung an das Gaspedal, wenn der vordere Näherungssensor einen niedrigen Wert meldet).
Aber wo sollen wir diese Widerstände und Tore platzieren? Ich weiß es auch nicht. Platzieren Sie sie zufällig an verschiedenen Orten. Dann versuchen Sie es erneut. Vielleicht fährt das Auto dieses Mal besser, was bedeutet, dass es manchmal bremst und lenkt, wenn die Daten sagen, dass es am besten ist, zu bremsen und zu lenken usw., aber es macht es nicht jedes Mal richtig. Und es gibt einige Dinge, die es schlechter macht (es beschleunigt, wenn die Daten darauf hindeuten, dass es manchmal bremsen muss). Also probierten wir immer wieder wahllos verschiedene Kombinationen von Widerständen und Gates aus. Irgendwann finden wir eine Kombination, die gut genug ist, und verkünden den Erfolg. Zum Beispiel die folgende Kombination:
(Eigentlich werden wir keine Türen hinzufügen oder entfernen, aber wir werden die Tür so modifizieren, dass sie von unten mit geringerer Energie aktiviert werden kann oder mehr Energie benötigt, um von unten abgegeben zu werden , Oder viel Energie nur dann freizusetzen, wenn darunter nur sehr wenig Energie vorhanden ist. Technisch gesehen wird dies durch Anpassen der Vorspannung am Gate erreicht Aus der Perspektive der Schaltungsmetapher kann man sich das als ein Kabel vorstellen, das direkt an die Stromversorgung angeschlossen wird und wie alle anderen Kabel modifiziert werden kann.)
Es ist nicht gut, es wahllos zu versuchen. Ein Algorithmus namens Backpropagation ermöglicht eine ziemlich gute Schätzung der Änderung von Schaltungskonfigurationen. Die Details des Algorithmus spielen keine Rolle, Sie müssen nur wissen, dass er die Schaltung so optimiert, dass sie sich näher an den Daten verhält, die die Daten vermuten lassen, und nach Tausenden von Feinabstimmungen können Sie schließlich Ergebnisse erhalten, die mit den Daten übereinstimmen.
Wir nennen Widerstände und Gates Parameter, weil sie eigentlich überall sind und der Backpropagation-Algorithmus jeden Widerstand als stärker oder schwächer deklariert. Wenn wir also den Aufbau und die Parameterwerte der Strecke kennen, kann die gesamte Strecke auf andere Autos nachgebildet werden.
Das obige ist der detaillierte Inhalt vonEine einfache und objektive Möglichkeit, große Modelle einzuführen, um eine Überinterpretation zu vermeiden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!