Rangka kerja pengoptimuman ejen AI untuk peranti sisi hujung dilancarkan, dengan kadar ketepatan sehingga 97% di lapangan.-AI-php.cn

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Artikel dibangunkan oleh pasukan NEXA AI dan MIT-IBM Watson AI Lab. Pengarang pertama, Wei Chen (Chen Wei), ialah pengasas bersama, Ketua Pegawai Eksekutif dan ketua saintis NEXA AI. Beliau mempunyai PhD dari Universiti Stanford dan mempunyai pengalaman yang kaya dalam penyelidikan kecerdasan buatan. Pengarang bersama Zhiyuan Li ialah pengasas bersama dan CTO NEXA AI, alumnus Universiti Stanford, dan mempunyai pengalaman R&D barisan hadapan selama bertahun-tahun dalam AI bahagian akhir di Google dan Amazon Lab126. Dua lagi pengarang bersama ialah Zhen Guo dan Yikang Shen dari MIT dan IBM.

Ejen AI menjadi semakin penting, mampu membuat keputusan dan menyelesaikan masalah secara autonomi. Untuk berfungsi dengan berkesan, ejen ini memerlukan proses perancangan yang menentukan tindakan terbaik dan kemudian melaksanakan tindakan yang dirancang.

Dalam kertas kerja ini, kami mencadangkan rangka kerja pelan-ke-tindakan sisi peranti yang cekap yang memisahkan perancangan dan pelaksanaan tindakan kepada dua komponen: ejen perancangan yang dioptimumkan untuk peranti tepi, atau Perancang Octo, dan Ejen tindakan yang melaksanakan fungsi menggunakan model Octopus. Octo-planner mula-mula bertindak balas kepada pertanyaan pengguna dengan membahagikan tugas kepada satu siri sub-langkah, yang kemudiannya dilaksanakan oleh ejen tindakan Octopus. Untuk mengoptimumkan prestasi pada peranti yang dikekang sumber, kami menggunakan penalaan halus model dan bukannya pembelajaran kontekstual, mengurangkan kos pengiraan dan penggunaan tenaga sambil meningkatkan masa tindak balas.

Pendekatan kami melibatkan penggunaan GPT-4 untuk menjana pertanyaan dan respons perancangan yang pelbagai berdasarkan fungsi yang tersedia, dengan pengesahan seterusnya untuk memastikan kualiti data. Kami memperhalusi model Phi-3 Mini pada set data susun atur, mencapai kadar kejayaan 97% dalam persekitaran ujian dalam domain.

Untuk menangani cabaran perancangan berbilang domain, kami membangunkan kaedah latihan berbilang LoRA yang menggabungkan pemberat LoRA yang dilatih pada subset fungsi yang berbeza. Pendekatan ini secara fleksibel mengendalikan pertanyaan berbilang domain yang kompleks sambil mengekalkan kecekapan pengiraan pada peranti yang dikekang sumber.

Kertas: https://arxiv.org/pdf/2406.18082
Demo: https://www.nexa4ai.com/octo-planner#video
:

1 Pengenalan

Ejen kecerdasan buatan (AI) telah mengubah pelbagai industri dengan ketara dengan membolehkan kecekapan membuat keputusan dan pengendalian autonomi Ejen ini bergantung pada proses perancangan kritikal yang melibatkan penentuan tindakan terbaik, melaksanakan tindakan yang dirancang dan meringkaskan keputusan. Model bahasa besar (LLM) seperti Gemini-Pro dan GPT-4 menunjukkan potensi dalam bidang ini.

Walaupun model ini menghadapi cabaran dalam melaksanakan tugas perancangan yang kompleks dan bergelut untuk mencapai tahap yang setanding dengan prestasi manusia, model ini masih berkesan dalam mengendalikan tugas mudah, sekali gus memudahkan aplikasi praktikal. Satu aplikasi sedemikian ialah alat pembantu AI daripada syarikat seperti MultiOn, Simular AI, dan Adept AI, yang memanfaatkan kuasa LLM untuk menyediakan pembantu pintar dalam pelbagai bidang.

Selain itu, produk perkakasan AI berorientasikan pengguna, seperti Rabbit R1, Humane AI Pin dan Limitless Loket, menyepadukan LLM ke dalam peranti mesra pengguna, menjadikan pembantu pintar lebih mudah diakses dan memacu daya tarikan yang ketara. Kejayaan ejen AI bergantung pada prestasi LLM yang mendasari. Ejen yang menggunakan model terlatih tanpa penalaan halus pada demonstrasi tugas mempunyai kadar kejayaan yang agak rendah, antara 12% untuk aplikasi desktop hingga 46% untuk aplikasi mudah alih, manakala ejen yang memanfaatkan model yang diperhalusi menunjukkan prestasi yang lebih baik pada tugasan yang serupa dengan data latihan mereka. Mencapai kadar kejayaan sehingga 80% pada tugasan.

🎜Walau bagaimanapun, ejen AI yang menggunakan LLM adalah mahal disebabkan oleh keperluan pengiraan yang tinggi dan perbelanjaan infrastruktur, mengehadkan penggunaan meluas. Kekurangan ejen AI pada peranti mengehadkan aplikasi yang memerlukan pemprosesan masa nyata, kefungsian luar talian atau privasi yang dipertingkatkan. Ejen AI pada peranti memberikan faedah termasuk pengurangan kependaman, operasi luar talian, pengurangan kos dan keselamatan data yang dipertingkatkan. Walaupun model tindakan seperti Octopus V2 mencapai ketepatan lebih 95% dalam panggilan fungsi, masih terdapat kekurangan model perancangan sisi peranti. Rangka kerja ejen generik menggunakan pembelajaran konteks model tunggal dan memerlukan penerangan fungsi yang panjang dan arahan perancangan dalam setiap gesaan. Pendekatan ini tidak praktikal untuk model sisi peranti dengan panjang konteks terhad, mengakibatkan kependaman tinggi dan penggunaan bateri pada peranti tepi. 🎜

Dalam artikel ini, kami memperkenalkan Octo-planner, ejen perancangan pada peranti yang menangani cabaran utama kecekapan, kebolehsuaian dan kekangan sumber. Rangka kerja pelan tindakan kami memisahkan perancangan dan pelaksanaan tindakan kepada dua komponen: ejen perancangan yang dioptimumkan untuk digunakan pada peranti tepi atau Octo-planner dan ejen tindakan yang melaksanakan fungsi menggunakan model Octopus.

Dengan mengutamakan penalaan halus berbanding pembayang beberapa syot, kami mengurangkan kos pengiraan dan meminimumkan keperluan caching nilai kunci (KV). Pendekatan kami menggunakan GPT-4 untuk menjana dan mengesahkan data perancangan, yang kemudiannya digunakan untuk memperhalusi Phi-3 Mini untuk penggunaan pada peranti. Ujian dalam domain menunjukkan bahawa penalaan halus ini meningkatkan kejayaan perancangan kepada 97%. Untuk menangani cabaran perancangan berbilang domain, kami membangunkan kaedah latihan berbilang LoRA yang menggabungkan pemberat LoRA yang dilatih pada subset fungsi yang berbeza. Pendekatan ini secara fleksibel mengendalikan pertanyaan berbilang domain yang kompleks sambil mengekalkan kecekapan pengiraan pada peranti yang dikekang sumber.

Dengan memfokuskan pada fungsi yang dipratentukan untuk tugasan mudah dan memanfaatkan penalaan halus, kami menyasarkan untuk menjadikan ejen AI lebih praktikal, mudah diakses dan menjimatkan kos dalam aplikasi dunia sebenar.

Kerja ini bertujuan untuk menyumbang kepada usaha berterusan untuk menjadikan AI lebih mudah diakses dan berguna. Dengan merapatkan jurang antara potensi ejen AI dan batasan pengkomputeran tepi, kami berharap dapat mempromosikan penggunaan pembantu pintar pada peranti dalam pelbagai bidang. Dengan sumber terbuka pendekatan kami, kami berharap dapat menginspirasikan lagi inovasi dalam AI pada peranti dan mengembangkan skop keupayaan perancangan lanjutan.

2 Kerja Berkaitan

Ejen Perancang: Model bahasa telah menjadi kunci dalam sistem ejen perancangan. Model proprietari seperti OpenAI's Assistant API cemerlang dalam menjana dasar berdasarkan pertanyaan pengguna dan fungsi yang tersedia. Kemajuan terkini memperluaskan lagi keupayaan model bahasa dalam skema perkara. Rangka kerja ReAct menyepadukan perancangan dan tindakan dalam ruang tindakan yang terhad, manakala penyelidikan Alibaba Group menyerlahkan keberkesanan model perancangan dan tindakan yang berasingan dalam tugas yang kompleks. Dalam robotik, model bahasa juga semakin digunakan untuk perancangan peringkat tugas. Contoh ketara termasuk SayCan, yang menggunakan LLM untuk menguraikan tugas peringkat tinggi kepada subtugas konkrit, dan Perancangan Bahasa Video (VLP), yang menambah perancangan jangka panjang dengan model dinamik teks ke video. Pelbagai aplikasi model bahasa dalam sistem perancangan, daripada dasar umum kepada tugas robotik khusus, menyerlahkan peranannya yang semakin penting dan boleh disesuaikan dalam pelbagai proses membuat keputusan.

Alternatif yang diperhalusi kepada konteks yang panjang: Model bahasa yang diperhalusi untuk menginternalisasi isyarat atau maklumat kontekstual tertentu boleh mengurangkan panjang input dan meningkatkan kecekapan. Pendekatan ini melibatkan model latihan pada set data khusus tugas yang disusun dengan teliti. Teknik ini amat berharga untuk model dengan tetingkap konteks terhad, kerana ia boleh meningkatkan kecekapan pemprosesan pertanyaan tanpa mengorbankan kualiti respons. Kejayaan penalaan halus sangat bergantung pada penggunaan set data yang pelbagai dan berkualiti tinggi untuk memastikan model itu boleh digeneralisasikan merentasi pelbagai perkataan segera. Jika dilaksanakan dengan betul, penalaan halus boleh memudahkan interaksi khusus aplikasi dan menyelesaikan kekangan panjang konteks dan cabaran pengiraan dalam penggunaan dunia sebenar.

LoRA dan Multi-LoRA: Penyesuaian peringkat rendah (LoRA) boleh menyesuaikan model bahasa pra-latihan dengan cekap kepada tugasan tertentu. Tidak seperti penalaan halus, yang mengemas kini semua parameter, LoRA membekukan pemberat pra-latihan dan menambah matriks peringkat rendah yang boleh dilatih pada setiap lapisan, dengan ketara mengurangkan parameter boleh dilatih dan keperluan pengiraan. Multi-LoRA memanjangkan konsep ini supaya penyesuai khusus berbilang tugas boleh dilatih, digabungkan atau ditukar pada masa inferens, membolehkan model asas tunggal mengendalikan pelbagai tugas dengan cekap. Berdasarkan kaedah ini, penyelidik telah membangunkan beberapa varian berkaitan untuk menangani aspek penyesuaian model yang berbeza: LoRA + kadar pembelajaran yang dioptimumkan, VerRA menggunakan unjuran rawak, AdaLoRA melaksanakan kedudukan penyesuaian, DoRA menguraikan pemberat, Delta-LoRA Update pemberat pra-latihan. Varian ini direka untuk meningkatkan lagi kecekapan atau prestasi dalam senario tertentu.

3 Kaedah

Bahagian ini memperkenalkan rangka kerja kami untuk perancangan pada peranti - ejen tindakan. Kami mula-mula menerangkan integrasi ejen perancangan dan tindakan untuk membolehkan penyelesaian masalah yang cekap. Kami kemudiannya memperincikan reka bentuk set data kami dan proses latihan untuk ejen perancangan, termasuk sokongan untuk pelbagai fungsi dan keupayaan plug-and-play untuk set fungsi tambahan. Akhir sekali, kami menggariskan penanda aras yang digunakan untuk menilai prestasi ejen.

3.1 Pelan dan Rangka Kerja Ejen Tindakan

Pendekatan pelan-tindakan kami membezakan daripada rangka kerja ejen am dengan membahagikan proses perancangan dan pelaksanaan tindakan kepada dua komponen. Pemisahan ini meningkatkan modulariti dan membolehkan pengoptimuman khusus bagi setiap komponen. Rangka kerja ini beroperasi seperti berikut:

Fasa perancangan: Memandangkan pertanyaan pengguna q, model perancangan kami πplan menguraikan tugas kepada satu siri sub-langkah. Secara rasmi:

{τ1, τ2, ..., τn} - πplan (q;F )

di mana F ialah set yang boleh diterangkan oleh fungsi dan τi ialah langkah pelaksanaan ke-i. πplan menghayati F semasa pemangkasan arahan.

Fasa tindakan: Untuk setiap langkah dalam urutan pelaksanaan, kami menggunakan model tindakan πaction. Pada langkah i, memandangkan pemerhatian keadaan semasa Oi, model tindakan melaksanakan:

Oi+1 = πtindakan (τi, Oi), (2)

di mana Oi+1 dan τi+1 dihantar ke langkah seterusnya untuk meneruskan pelaksanaan. Proses berulang ini memastikan perkembangan koheren sub-langkah tugasan.

Untuk model aksi, kami menggunakan model Octopus yang direka untuk panggilan fungsi sisi peranti. Rajah 2 menggambarkan perbezaan antara rangka kerja pelan tindakan kami dan ejen LLM model tunggal.

^{Rajah 2: Perbandingan rangka kerja ejen LLM tunggal dan ejen pelan tindakan. (Kiri) Ejen LLM Tunggal: Model bersatu untuk perancangan tugas dan pelaksanaan tindakan. (Kanan) Agen Pelan-Tindakan: Model perancangan khusus menguraikan tugas kepada subtugas, manakala model tindakan berasingan melaksanakan setiap subtugas secara bergilir-gilir.}

Reka bentuk modular rangka kerja kami menawarkan beberapa kelebihan:

Pengkhususan: Mengasingkan perancangan dan pelaksanaan tindakan membolehkan setiap model dioptimumkan untuk peranan khususnya, meningkatkan prestasi pada tugas yang kompleks.
Skalabiliti: mengembangkan keupayaan perancangan dan tindakan secara bebas, dan boleh menyesuaikan diri dengan kerumitan tugas yang berbeza dengan cekap.
Kebolehjelasan: Pemisahan peringkat yang jelas meningkatkan ketelusan proses membuat keputusan.
Kebolehsuaian: Lebih mudah untuk mengintegrasikan pengetahuan atau kekangan khusus domain ke dalam mana-mana fasa tanpa memerlukan perubahan seluruh sistem.

3.2 Set Data Perancangan

Rangka kerja kami menggunakan model Octopus sebagai model tindakan dan hanya perlu melatih ejen perancang. Kami menggunakan format set data berikut untuk memperhalusi ejen perancangan:

Penanda khas seperti dan untuk pra-latihan model sembang adalah pilihan. Kami menetapkan n kepada 1-5, berdasarkan penemuan kami bahawa kebanyakan tugasan pada apl mudah alih terdiri daripada kurang daripada 5 langkah. Proses penjanaan dan penyusunan set data termasuk:

1 Pengumpulan set data: Memandangkan fungsi F yang tersedia, kami menggunakan model bahasa yang besar (GPT-4) untuk menjana pelbagai pertanyaan yang dijawab oleh fungsi ini. Kami meningkatkan tetapan suhu model untuk memastikan kepelbagaian pertanyaan. Respons kemudian dijana dalam format set data yang ditentukan. Adalah penting untuk menggunakan perihalan berfungsi semasa proses penjanaan tetapi tidak memasukkannya dalam set data akhir. Sebaliknya, model perancangan menginternalisasi maklumat fungsi ini semasa latihan.

2 Pengesahan data: Kami menggunakan model bahasa yang sama sebagai alat pengesahan untuk menilai ketepatan pasangan jawapan pertanyaan. Walaupun terdapat beberapa ralat semasa penjanaan awal, kami mendapati bahawa model secara berkesan mengklasifikasikan kandungan terjana sebagai sah atau tidak sah, membolehkan kami menapis keluaran yang salah dan mengekalkan kualiti set data.

Contoh titik data untuk bilangan sub-langkah yang berbeza ditunjukkan di bawah:

Lihat Rajah 3 untuk visualisasi koleksi set data. Contoh fungsi diterangkan dalam Lampiran 7.1.

3.3 Reka Bentuk Garis Dasar

Penilaian kami bergantung pada set data ujian yang dibina dengan teliti. Set data ini direka bentuk untuk mewakili kerumitan perancangan dunia sebenar, menggunakan pendekatan berbilang peringkat yang menggabungkan penjanaan automatik, pengesahan pakar dan ujian empirikal.

Proses bermula dengan set data awal 1000 titik data yang dijana secara automatik menggunakan GPT-4. Titik data ini kemudiannya menjalani proses jaminan kualiti yang ketat untuk memastikan kesempurnaan dan kaitannya. Kriteria penilaian kualiti adalah seperti berikut:

Setiap langkah mesti sesuai dengan fungsi sedia ada
Susunan langkah mestilah betul.

Untuk memastikan kebolehpercayaan penilaian, kami telah memasukkan peringkat pengesahan manusia tambahan. Fasa ini melibatkan pemilihan subset contoh untuk pelaksanaan model hujung ke hujung, dengan itu mengesahkan ketepatan keputusan dan menjalankan penilaian komprehensif prestasi model.

Untuk menilai model perancangan kami yang dicadangkan, kami menggunakan GPT-4 sebagai Oracle untuk menentukan ketepatan rancangan yang dihasilkan. Pilihan ini adalah berdasarkan pemerhatian empirikal yang menunjukkan bahawa GPT-4 berfungsi dengan cekap dalam kes penggunaan khusus kami.

4 Reka Bentuk Eksperimen

Reka bentuk percubaan kami menilai prestasi Octo-planner dalam perancangan ejen AI pada peranti. Matlamat kami adalah untuk mengenal pasti konfigurasi optimum untuk menggunakan model perancangan yang cekap dan tepat pada peranti yang dikekang sumber sambil mengekalkan kebolehsuaian kepada domain dan fungsi baharu. Eksperimen kami memberi tumpuan kepada empat bidang utama:

Perbandingan prestasi dan kecekapan antara penalaan halus penuh dan LoRA.
Ketepatan Multi-LoRA apabila memproses set fungsi yang berbeza secara serentak.
Perbandingan prestasi pelbagai model asas dan skala.
Impak saiz set data pada ketepatan, antara 100 hingga 1000 contoh latihan.

Kami melakukan penalaan halus diselia pada set data yang dipilih susun, menggunakan Phi-3 Mini dan beberapa alternatif lain sebagai model asas. Latihan termasuk penalaan halus penuh dan teknologi LoRA. Untuk semua percubaan, kami menetapkan saiz set data kepada 800 kali ganda bilangan fungsi yang tersedia dan diperhalusi pada GPU NVIDIA A100. Kami menggunakan hiperparameter yang dioptimumkan pada kedua-dua teknik: kadar pembelajaran 5×10-6, saiz kelompok 4, nisbah memanaskan badan 0.2, latihan untuk 2 zaman. Untuk LoRA, kami menetapkan target_modules kepada semua linear.

5 Keputusan

5.1 Penalaan Halus Penuh lwn. LoRA

Jadual 1 menunjukkan perbandingan terperinci model perancangan kami tentang kaedah Penalaan Halus Penuh dan LoRA. Eksperimen kami menunjukkan perbezaan yang ketara dalam prestasi kaedah ini. Penalaan halus penuh mencapai prestasi tertinggi pada ketepatan 98.1%, menunjukkan prestasi unggul. Sebaliknya, prestasi LoRA bergantung pada saiz pangkat. Pada kedudukan 64 dan alfa 256, LoRA mencapai ketepatan 85.1%, manakala menurun kepada kedudukan 16 dan alfa 32, ketepatan menurun kepada 72.9%. Keputusan ini menyerlahkan pertukaran antara prestasi model dan kecekapan pengiraan apabila menggunakan LoRA. Walaupun penalaan halus penuh memberikan ketepatan yang lebih baik, LoRA menawarkan alternatif yang lebih menarik dari segi kecekapan sumber, dan prestasi bergantung pada konfigurasi pangkat.

^{… -penalaan dan penanda aras LoRA}

5.2 Latihan berbilang LoRA dan penggabungan

sah pada set fungsi tertentu, aplikasi dunia sebenar selalunya perlu berurusan dengan yang baharu atau set lanjutan fungsi. Untuk menangani cabaran ini, kami mencadangkan kaedah untuk menggabungkan setiap pemberat LoRA yang dilatih pada subset fungsi yang berbeza ke dalam model asas yang sama. Pendekatan ini mencipta model gubahan yang menggabungkan pengetahuan daripada pelbagai set fungsi untuk menyediakan penyelesaian berskala bagi pertanyaan berbilang domain yang kompleks dalam persekitaran terhad sumber.

Untuk menilai pendekatan ini, kami membina set data penanda aras dengan memilih fungsi secara rawak untuk setiap domain LoRA dan menggabungkannya ke dalam aliran kerja. Pertanyaan dan rancangan dijana oleh GPT-4. Contohnya, apabila menguji dua LoRA yang digabungkan, pertanyaan mungkin melibatkan fungsi Android, fungsi e-dagang atau kedua-duanya dengan kebarangkalian yang sama.

Blok kod berikut menunjukkan contoh pertanyaan dalam set data penanda aras kami dan keputusan inferens yang sepadan untuk model gabungan berbilang LoRA:

Rangka kerja pengoptimuman ejen AI untuk peranti sisi hujung dilancarkan, dengan kadar ketepatan sehingga 97% di lapangan.

Jadual 2 menunjukkan hasil prestasi teknik gabungan berbilang LoRA kami. Setiap LoRA individu telah dilatih dengan hiperparameter yang konsisten: pangkat 64, lora_alpha 256, modul_target ditetapkan kepada "semua-linear". Set fungsi Android domain tunggal LoRA mencapai ketepatan 85.1%. Apabila menggabungkan LoRA daripada kedua-dua domain (Android dan e-dagang), ketepatan menurun sedikit kepada 82.2%. Ketepatan menurun dengan penggabungan selanjutnya seperti berikut: 78.9% untuk tiga domain (penambahan penstriman video) dan 69.7% untuk empat domain (penambahan perjalanan). Keputusan ini mendedahkan kecenderungan untuk ketepatan berkurangan secara beransur-ansur apabila kami menyepadukan lebih banyak set fungsi, terutamanya selepas menambah domain ketiga.

^{penanda aras}

5.3 Penalaan halus penuh menggunakan model asas yang berbeza

Ketepatan garis dasar menggunakan model asas yang berbeza selepas penalaan. Google Gemma 2b mencapai ketepatan 85.6%, manakala Gemma 7b yang lebih besar cemerlang dengan ketepatan 99.7%. Microsoft Phi-3 Mini juga berprestasi kukuh, mencapai ketepatan 98.1%. Keputusan ini menunjukkan bahawa rangka kerja kami menyesuaikan diri dengan pelbagai LLM sebelah peranti, dengan model yang lebih besar secara amnya mencapai ketepatan yang lebih tinggi.

5.4 Penalaan halus penuh menggunakan saiz set data yang berbeza

Set data latihan lalai kami mengandungi 1000 titik data, diagihkan sama rata dalam urutan 1-5 langkah (200 setiap satu) untuk mewakili kerumitan tugas yang berbeza. Kami mengkaji kesan saiz set data pada prestasi model untuk mengoptimumkan kecekapan penyepaduan set fungsi dan menangani kos penjanaan data sintetik. Jadual 4 menunjukkan ketepatan garis dasar untuk saiz set data latihan yang berbeza:

Hasilnya menunjukkan korelasi yang jelas antara saiz set data dan ketepatan. Set data penuh 1000 mata mencapai ketepatan 98.1%, sementara mengurangkannya kepada 500 titik data mengurangkan ketepatan kepada 92.5%. Mengurangkan lagi kepada 250 dan 100 titik data, ketepatan masing-masing ialah 85.3% dan 78.1%. Penemuan ini mencadangkan bahawa untuk prestasi optimum, adalah disyorkan untuk menggunakan set data latihan dengan lebih daripada 1000 titik data.

6 Kesimpulan

Artikel ini memperkenalkan Octo-planner, ejen perancangan sisi peranti yang direka untuk bekerja dengan ejen mudah alih seperti Octopus V2.

Dengan memisahkan perancangan dan pelaksanaan tindakan, kami meningkatkan pengkhususan dan kebolehsuaian. Pendekatan kami memperhalusi Phi-3 Mini, LLM parameter 3.8 bilion, untuk dijalankan secara asli pada peranti edge, mencapai kadar kejayaan 97% dalam ujian dalam domain. Kami mengurangkan keperluan pengiraan, meningkatkan kependaman dan hayat bateri serta melaksanakan teknologi berbilang LoRA untuk menskalakan keupayaan model tanpa latihan semula yang lengkap. Octo-planner menyumbang kepada menyelesaikan isu penggunaan AI, termasuk privasi data, kependaman dan fungsi luar talian. Ia mewakili satu langkah ke hadapan ke arah ejen AI yang praktikal dan canggih untuk peranti peribadi.

Dengan sumber terbuka berat model kami, kami menyasarkan untuk memacu inovasi dalam AI pada peranti, memudahkan pembangunan aplikasi yang cekap dan menghormati privasi yang meningkatkan kehidupan harian tanpa menjejaskan prestasi atau keselamatan.

7. Had dan kerja masa hadapan

Walaupun model semasa kami berprestasi berkesan dalam kes penggunaan telefon mudah alih tertentu, ia mempunyai had dari segi kebolehgunaan yang lebih luas.

Tidak seperti rangka kerja seperti ReAct, yang berselang seli antara langkah perancangan dan melaksanakan tindakan berdasarkan maklum balas masa nyata, model kami melakukan semua perancangan di hadapan. Pendekatan pra-rancangan ini lebih cekap dalam mengendalikan tugas mudah, tetapi mungkin kurang menyesuaikan diri dalam senario yang kompleks atau tidak dapat diramalkan di mana keadaan mungkin berubah semasa pelaksanaan.

Kerja masa hadapan akan menumpukan pada penerokaan kaedah perancangan berulang berdasarkan pemerhatian masa nyata untuk meningkatkan kebolehsuaian kepada persekitaran dinamik. Kami juga merancang untuk menyiasat penyepaduan model perancangan kami dengan model tindakan yang pelbagai untuk memperluaskan keupayaannya melangkaui aplikasi mudah alih, seperti Internet Perkara, robotik dan sistem rumah pintar. Kemajuan ini akan menangani batasan semasa, mengembangkan kepelbagaian fungsi model perancangan pada peranti kami, dan merapatkan jurang antara pemprosesan AI yang cekap, setempat dan keperluan dunia sebenar yang kompleks.

Atas ialah kandungan terperinci Rangka kerja pengoptimuman ejen AI untuk peranti sisi hujung dilancarkan, dengan kadar ketepatan sehingga 97% di lapangan.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!