ChatGPT menunjukkan dialog yang hebat, pembelajaran konteks dan keupayaan penjanaan kod pada pelbagai tugas domain terbuka, dan pengetahuan akal yang diperolehinya juga boleh menjana ringkasan penyelesaian peringkat tinggi untuk tugasan khusus domain. Walau bagaimanapun, sebagai tambahan kepada keupayaan pembelajaran, pemahaman dan penjanaan yang lebih berkuasa, apakah masalah lain yang perlu diselesaikan oleh ChatGPT?
Microsoft baru-baru ini mengeluarkan TaskMatrix.AI, yang mungkin merupakan satu lagi arah dalam ekosistem kecerdasan buatan, menghubungkan model asas dengan berjuta-juta API untuk menyelesaikan tugasan, gabungan Toolformer dan chatGPT, dan mungkin juga Satu lagi masa depan untuk LLM.
ChatGPT atau GPT-4 masih menghadapi kesukaran dalam beberapa tugas profesional kerana mereka kekurangan data khusus domain yang mencukupi semasa pra-latihan atau mereka melakukan tugas yang memerlukan pelaksanaan yang tepat Ralat sering berlaku dalam pengiraan rangkaian saraf. Sebaliknya, terdapat banyak model dan sistem sedia ada (berasaskan simbolik atau berasaskan rangkaian saraf) yang boleh mencapai beberapa tugas khusus domain dengan baik. Walau bagaimanapun, mereka tidak serasi dengan model asas kerana pelaksanaan atau mekanisme kerja yang berbeza.
Tambahan pula, kes penggunaan untuk AI adalah tidak berkesudahan, bukan sahaja membantu dalam dunia digital tetapi juga dalam dunia fizikal untuk membantu dengan pelbagai tugas, daripada pemprosesan foto hingga mengawal peranti rumah pintar, ia boleh melakukan agak banyak Di luar imaginasi.
Oleh itu, mekanisme diperlukan yang boleh memanfaatkan model asas untuk mencadangkan garis besar penyelesaian tugas, dan kemudian secara automatik memadankan beberapa subtugas dalam garis besar dengan model siap sedia dan API sistem dengan keupayaan khas untuk menyelesaikannya . TaskMatrix.AI adalah mekanisme sedemikian.
TaskMatrix.AI menyediakan pelbagai tugas dengan menggabungkan model asas dengan model dan API sedia ada. Berikut ialah tugas yang TaskMatrix.AI boleh lakukan:
Seni bina keseluruhan TaskMatrix.AI dan empat komponen utamanya:
4 subsistem ini berfungsi bersama untuk membolehkan TaskMatrix.AI memahami matlamat pengguna dan melaksanakan kod boleh laku berasaskan API untuk tugasan tertentu. Multimodal Conversation Foundation Model (MCFM) berfungsi sebagai antara muka utama untuk komunikasi pengguna dan boleh memahami konteks multimodal. Platform API menyediakan skema dokumentasi API bersatu dan tempat untuk menyimpan berjuta-juta API. Pemilih API menggunakan pemahaman MCFM tentang matlamat pengguna untuk mengesyorkan API yang berkaitan. Akhir sekali, pelaksana API melaksanakan kod tindakan yang dijana oleh API yang berkaitan dan mengembalikan hasilnya. Selain itu, pasukan itu juga menggunakan pembelajaran pengukuhan dengan teknologi maklum balas manusia (RLHF) untuk melatih model ganjaran yang boleh mengoptimumkan matriks tugas (taskMatrix). Kaedah ini boleh membantu pemilih MCFM dan API mencari strategi optimum dan meningkatkan prestasi tugas yang kompleks.
MCFM mempunyai empat input: parameter model asas, platform API, arahan pengguna dan konteks sesi. Menggunakan input ini, model menjana kod operasi untuk melengkapkan arahan pengguna. Tambahan pula, Model Rangka Kerja Perbualan Multimodal (MCFM) yang ideal harus mempunyai empat ciri utama berikut:
ChatGPT dan GPT-4 ialah dua contoh model dengan keupayaan ini yang diperlukan untuk MCFM. Walau bagaimanapun, GPT-4 lebih sesuai kerana ia menyokong input berbilang modal.
Platform API mempunyai dua fungsi utama: menyimpan API dan mengurus pembangun atau pemilik API. Platform API mempunyai templat dokumen API bersatu, termasuk lima aspek setiap dokumen API:
Contoh Perihalan API: Buka fail
<code>API Name: open_local_fileAPI Parameter: (file_path:string, model:string="r"). file_path: string, the pathname (absolute or relative to the current working directory) of the file to be opened.mode: string="r", the mode is an optional string that specifies the mode in which the file is opened. It defaults to "r" which means open for reading in text mode. Other common values are "w" for writing. This file will return a File object or OSError.API Description: Open the file and return a corresponding file object. If the file cannot be opened,an OSError is raised.Usage Example: f = open_local_file("example.txt", "w")Composition Instructions: Open should be used before reading and editing. The file should be closed by close_local_file after all operations.</code>
Pemilih API direka bentuk untuk mengenal pasti dan memilih daripada platform API yang paling sesuai API keperluan tugas. Ia boleh mengurangkan kebanyakan API yang mungkin ada pada platform API dengan mendapatkan semula API yang berkaitan secara semantik. Pemilih API boleh menggunakan strategi modul untuk mencari API berkaitan dengan cepat.
Strategi modul merujuk kepada kaedah menyusun API ke dalam pakej atau modul tertentu berdasarkan domainnya. Setiap modul sepadan dengan kawasan tertentu, seperti model visual, matematik, perisian khusus atau peralatan fizikal. Dengan menggunakan strategi ini, pemilih API boleh mencari API yang berkaitan dengan pantas yang sesuai dengan keperluan misi dan garis penyelesaian seperti yang difahami oleh MCFM. Pendekatan ini membantu memudahkan proses pemilihan API dan memudahkan untuk mendapatkan semula API yang berkaitan secara semantik daripada platform API.
Pelaksana tindakan direka bentuk untuk melaksanakan kod tindakan. AI menggunakan pelaksana tindakan untuk menjalankan pelbagai API, daripada permintaan HTTP mudah kepada algoritma kompleks atau model AI yang memerlukan berbilang parameter input.
Pelaksana tindakan juga memerlukan mekanisme pengesahan untuk meningkatkan ketepatan dan kebolehpercayaan, dan untuk mengesahkan sama ada hasil kod yang dijana memenuhi tugas yang ditentukan oleh manusia.
TaskMatrix.AI akan memanfaatkan RLHF untuk meningkatkan pemilih MCFM dan API untuk memberikan prestasi yang lebih baik dalam tugas yang kompleks.
RLHF akan dikhususkan untuk mengoptimumkan pemilih API, menggunakan model ganjaran terlatih berdasarkan maklum balas API:
Ini akan membolehkan dokumentasi API dibuat dengan cara yang paling optimum untuk menggunakan API tertentu.
TaskMatrix apakah tugasan yang boleh diselesaikan oleh AI?
TaskMatrix digabungkan dengan pembangunan berterusan dalam model asas, perkhidmatan awan, robotik dan Internet of Things berpotensi untuk mencipta dunia masa depan dengan peningkatan produktiviti dan kreativiti.
Berdasarkan ciri berbilang modal MCFM, TaskMatrix.AI boleh melaksanakan tugas visualisasi dan boleh mengambil bahasa dan imej sebagai input. Beberapa tugas visual yang boleh dilakukannya, imej di bawah menunjukkan cara TaskMatrix.AI dibina di atas VisualChatGPT dan mampu mengendalikan tugas VQA dengan lebih baik.
Penyuntingan imej, di mana objek dalam imej boleh dipadamkan atau diganti, juga melalui TaskMatrix.AI. Menggunakan teknik pemprosesan imej atau algoritma komputer Image-to-Sketch/Depth/Hed/Line, imej boleh ditukar kepada lakaran, kedalaman, pengesanan tepi bersarang keseluruhan atau garisan. Sketch/Depth/Hed/Line-to-Image adalah bertentangan dengan yang di atas, ia akan menghasilkan imej berdasarkan pilihan yang diberikan.
Imej di bawah menunjukkan contoh cara TaskMatrix.AI ditakrifkan dan dilaksanakan pada garis penyelesaian menggunakan tiga panggilan API (Soal Jawab Imej, Kapsyen Imej dan Gantikan Objek dalam Imej).
Satu lagi kes penggunaan untuk TaskMatrix.AI ialah penciptaan kandungan berbilang modal (imej dan teks) yang besar untuk mengalih keluar had aksara model lain.
Dalam contoh di bawah, kita dapat melihat cara TaskMatrix.AI mengambil arahan peringkat tinggi daripada pengguna dan menjana respons yang munasabah.
TaskMatrix.AI boleh mengurangkan beban kerja pejabat dengan mudah dengan memahami arahan pengguna yang diterima melalui suara dan mengautomasikan tugas. Selain itu, ia membolehkan penggunaan perisian yang kompleks tanpa latihan yang meluas, membolehkan pekerja memberi tumpuan kepada tugas yang lebih mendesak.
Contoh di bawah menunjukkan perbualan antara TaskMatrix.AI dan seseorang menggunakan API yang berbeza semasa membuat slaid PowerPoint.
TaskMatrix.AI boleh berfungsi seperti automasi rumah pintar, dapat berkomunikasi dengan semua peranti di rumah dan bertindak sebagai pautan di antara mereka titik sambungan tengah. Imej di bawah menunjukkan perbualan antara seseorang dan TaskMatrix.AI, yang menggunakan perisian dan perkakasan robot dalaman untuk menyelesaikan tugas harian.
Selain itu, TaskMatrix.AI boleh digunakan dalam banyak senario lain, satu-satunya keperluan ialah ia boleh memanfaatkan API seperti mengakses Metaverse atau Web3.
TaskMatrix.AI masih mempunyai beberapa kekurangan dan batasan yang perlu diselesaikan dan ditangani, contohnya:
Mengimbas kembali Undang-undang Moore, mungkin, "bilangan AI berganda setiap 18 bulan" akan menjadi undang-undang baharu.
TaskMatrix.AI menyepadukan model asas dengan berjuta-juta model sedia ada dan API sistem, menghasilkan "kecerdasan buatan super" yang mampu melaksanakan pelbagai tugas digital dan fizikal. Sebagai platform AI, ia membolehkan manusia menggunakan model besar dan API untuk melaksanakan sejumlah besar tugas yang pelbagai. Ia boleh mengendalikan setiap tugas biasa (contohnya, membuat slaid PPT atau menjalankan robot pembersihan untuk membersihkan rumah mengikut jadual), menjadikan kita lebih produktif dan kreatif.
[Rujukan]
TaskMatrix.AI: Menyelesaikan Tugas dengan Menghubungkan Model Asas dengan Jutaan API, https://arxiv.org/pdf/2303.16434.pdf
Atas ialah kandungan terperinci Tafsiran TaskMatrix.AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!