Große KI-Modelle werden im Jahr 2023 zu einem Schlüsselwort und es ist auch ein heißer Wettbewerbsbereich zwischen großen Technologieunternehmen. Allerdings sind die Kosten für dieses große KI-Modell, das die Zukunft symbolisiert, zu hoch, sodass selbst wohlhabende Unternehmen wie Microsoft beginnen, über Alternativen nachzudenken. Jüngste Enthüllungen zeigen, dass sich einige Mitglieder des 1.500-köpfigen Forschungsteams von Microsoft unter der Leitung von Peter Lee der Entwicklung eines neuen LLM zugewandt haben, das kleiner ist und niedrigere Betriebskosten aufweist
Bezüglich des kleinen KI-Modells von Microsoft tauchten vor drei Monaten erste Hinweise auf. Im Juni dieses Jahres veröffentlichte Microsoft ein Papier mit dem Titel „Textbooks Are All You Need“, in dem Daten auf „Lehrbuchebene“ von nur 7 Milliarden Token verwendet wurden, um ein 1,3 Milliarden Parameter umfassendes Phi-1-Modell zu trainieren, was beweist, dass selbst in kleinem Maßstab High- Hochwertige Daten können dem Modell auch eine gute Leistung ermöglichen. Darüber hinaus hat Microsoft Research auch ein neues vorab trainiertes Sprachmodell namens Phi-1.5 veröffentlicht, das auf Phi-1 basiert und für QA-Fragen und Antworten, Chat-Formate und Codeszenarien geeignet ist
Laut Microsoft übertrifft phi-1.5 eine beträchtliche Anzahl großer Modelle bei Benchmarks, die den gesunden Menschenverstand, das Sprachverständnis und das logische Denken testen. In der GPT4AL-Running-Score-Suite mit LM-Eval Harness ist phi-1.5 mit 7 Milliarden Parametern mit Metas Open-Source-Großmodell llama-2 vergleichbar und übertrifft sogar llama-2 im AGIEval-Score.
Warum entwickelt Microsoft plötzlich kleine KI-Modelle? Es wird allgemein angenommen, dass dies mit Problemen zwischen OpenAI zusammenhängt. Microsoft ist ein großer Investor in OpenAI und kann daher das bestehende geistige Eigentum von OpenAI dauerhaft nutzen, aber die Entscheidungsfindung von OpenAI nicht kontrollieren. Daher ist es für einen Giganten wie Microsoft unerlässlich, qualitativ hochwertige, kleine KI-Modelle zu entwickeln, sei es aus eigenen strategischen Sicherheitsüberlegungen oder um eine günstige Position in der Zusammenarbeit mit OpenAI zu behaupten
Natürlich ist der aktuelle Energieverbrauch großer KI-Modelle ein entscheidender Faktor. Auf der Design Automation Conference Anfang des Jahres zeigte Mark Papermaster, Chief Technology Officer von AMD, eine Folie, in der er den Energieverbrauch maschineller Lernsysteme mit der globalen Stromerzeugung vergleicht. Schätzungen der Internationalen Energieagentur zufolge sind Rechenzentren, in denen große Modelle trainiert werden, immer energieintensiver und machen 1,5 bis 2 % des weltweiten Stromverbrauchs aus, was dem Stromverbrauch des gesamten Vereinigten Königreichs entspricht. Es wird erwartet, dass dieser Anteil bis 2030 auf 4 % steigen wird
Laut einem relevanten Bericht von Digital Information World wird der Energieverbrauch von Rechenzentren für das Training von KI-Modellen dreimal so hoch sein wie bei herkömmlichen Cloud-Diensten. Bis 2028 wird der Stromverbrauch von Rechenzentren fast 4.250 Megawatt betragen 212 Mal ab 2023. Der Stromverbrauch des OpenAI-Trainings GPT-3 beträgt 1,287 Gigawattstunden, was ungefähr dem Stromverbrauch von 120 amerikanischen Haushalten für ein Jahr entspricht. Dies ist jedoch nur der anfängliche Stromverbrauch beim Training des KI-Modells, der nur 40 % des Stromverbrauchs ausmacht, wenn das Modell tatsächlich verwendet wird.
Laut dem von Google veröffentlichten Umweltbericht 2023 wird das Training großer KI-Modelle nicht nur viel Energie, sondern auch viele Wasserressourcen verbrauchen. Dem Bericht zufolge verbrauchte Google im Jahr 2022 5,6 Milliarden Gallonen (ca. 21,2 Milliarden Liter) Wasser, was dem Wasserverbrauch von 37 Golfplätzen entspricht. Davon werden 5,2 Milliarden Gallonen in den Rechenzentren von Google verbraucht, ein Anstieg von 20 % gegenüber 2021
Hoher Energieverbrauch großer KI-Modelle ist normal. Mit den Worten von Ian Bratt, Senior Technical Director bei ARM: „Der KI-Computing-Bedarf kann nicht gedeckt werden. Je größer die Netzwerkgröße, desto besser die Ergebnisse, desto mehr Probleme können gelöst werden, und der Stromverbrauch ist proportional zur Netzwerkgröße.“
Einige Praktiker der künstlichen Intelligenz sagten, dass vor der Epidemie der Energieverbrauch zum Trainieren eines Transformer-Modells im Bereich von 27 Kilowattstunden lag. Mittlerweile ist jedoch die Anzahl der Parameter des Transformer-Modells von 50 Millionen auf 200 Millionen gestiegen und der Energieverbrauch hat 500.000 Kilowattstunden überschritten. Mit anderen Worten: Die Anzahl der Parameter hat sich vervierfacht, der Energieverbrauch jedoch um mehr als das 18.000-fache. In gewisser Weise gehen die verschiedenen innovativen Funktionen, die große Modelle der künstlichen Intelligenz mit sich bringen, tatsächlich auf Kosten einer hohen Rechenleistung und eines hohen Energieverbrauchs
Mehr Strom treibt mehr GPUs für das KI-Training an und es wird viel Wasser verbraucht, um die GPUs zu kühlen. Das ist das Problem. So sehr, dass bekannt wurde, dass Microsoft einen Fahrplan für den Betrieb von Rechenzentren mit Strom aus kleinen Kernreaktoren entwickelt. Darüber hinaus ist es wertvoll, kleine Modelle rein aus der Kostenperspektive zu untersuchen, auch ohne ESG („Environmental, Social and Governance“) zu erwähnen.
Wie wir alle wissen, ist NVIDIA, das das CUDA-Ökosystem aufgebaut hat, der größte Nutznießer dieser Runde des KI-Booms und hat bereits 70 % des KI-Chipmarktes besetzt. Heutzutage sind es Computerkarten wie H100 und A100 schwer zu finden. Die aktuelle Situation ist jedoch, dass der Kauf von Rechenleistung von NVIDIA zu einem wichtigen Faktor geworden ist, der die Kosten für KI-Hersteller in die Höhe treibt. Daher bedeutet ein kleines Modell, dass es weniger Rechenressourcen benötigt und Sie nur weniger GPUs kaufen müssen, um das Problem zu lösen.
Obwohl die leistungsstärkeren Großmodelle in der Tat hervorragend sind, steckt die Kommerzialisierung von Großmodellen noch in den Kinderschuhen, und der einzige, der viel Geld verdient, ist NVIDIAs Rolle als „Schaufelverkäufer“. Daher beabsichtigt Microsoft in diesem Fall natürlich, den Status Quo zu ändern
Das obige ist der detaillierte Inhalt vonMicrosoft bringt kleines KI-Modell auf den Markt, führt heimlich „Plan B' durch, hat nichts mit OpenAI zu tun. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!