Tidak ada yang kelihatan seperti biasa, namun orang -orang berkumpul di pusat yang saksama di Midtown Manhattan akan mengalami sesuatu yang benar -benar unik. Mereka akan menyaksikan peristiwa bersejarah apabila komputer, buat kali pertama, akan mengalahkan juara dunia yang memerintah dalam catur di bawah keadaan kejohanan standard.
Mewakili manusia adalah Gary Kasparov, diiktiraf secara meluas sebagai pemain catur teratas di dunia pada masa itu. Dan mewakili mesin, Deep Blue - komputer catur yang dibangunkan oleh IBM. Melangkah ke perlawanan akhir dan ke -6, kedua -dua pemain mempunyai 2.5 mata. Hari ini pemenang akan diputuskan.
Gary bermula sebagai hitam, tetapi membuat kesilapan awal dan menghadapi serangan yang kuat dan agresif dari Deep Blue. Selepas hanya 19 langkah ia berakhir. Kasparov, berasa demoralisasi dan di bawah tekanan, meletak jawatan, mempercayai kedudukannya tidak dapat dipertahankan. Simbolik, dan oleh banyak yang dipuji sebagai salah satu momen yang paling penting antara manusia dan mesin adalah fakta. Acara mercu tanda ini menandakan titik perubahan dalam pembangunan AI, menonjolkan potensi - dan cabaran - AI strategik.
Tetapi apa sebenarnya yang kita maksudkan apabila kita katakan
strategi AI
? Pada terasnya, AI strategik melibatkan mesin membuat keputusan yang bukan sahaja mempertimbangkan tindakan yang berpotensi, tetapi juga menjangkakan dan mempengaruhi tindak balas orang lain. Ini mengenai memaksimumkan hasil yang diharapkan dalam persekitaran yang kompleks dan tidak menentu.Dalam artikel ini, kita akan menentukan AI strategik, meneroka apa itu dan bagaimana ia telah berkembang sejak bertahun -tahun sejak IBM's Deep Blue mengalahkan Kasparov pada tahun 1997. Kami akan cuba memahami seni bina umum beberapa model, dan Di samping itu juga mengkaji bagaimana model bahasa yang besar (LLMS) sesuai dengan gambar. Dengan memahami trend dan perkembangan ini, kita dapat mempersiapkan diri dengan lebih baik untuk dunia di mana ejen AI autonomi diintegrasikan ke dalam masyarakat.
perbincangan yang lebih mendalam mengenai AI strategik bermula dengan definisi topik yang dirumuskan dengan baik.
Apabila kita mempertimbangkan strategi dalam suasana komersil, kita sering cenderung mengaitkannya dengan topik seperti pemikiran jangka panjang, peruntukan sumber dan pengoptimuman, pemahaman holistik tentang saling bergantung dalam organisasi, penjajaran keputusan dengan tujuan dan misi Syarikat dan sebagainya. Walaupun topik -topik ini berguna untuk dipertimbangkan, saya sering lebih suka definisi strategi teoretikal permainan ketika berurusan dengan AI dan ejen autonomi. Dalam kes ini kita menentukan menjadi strategik sebagai:
memilih tindakan yang memaksimumkan hasil yang diharapkan dengan mempertimbangkan bukan hanya tindakan berpotensi anda sendiri tetapi juga bagaimana orang lain akan bertindak balas terhadap tindakan tersebut dan bagaimana keputusan anda mempengaruhi dinamik keseluruhan alam sekitar. >
Bahagian kritikal definisi ini adalah bahawa pilihan strategik adalah pilihan yang tidak berlaku dalam vakum, tetapi dalam konteks peserta lain, sama ada manusia, organisasi atau AI lain. Entiti -entiti lain ini boleh mempunyai matlamat yang sama atau bercanggah sendiri dan mungkin juga cuba bertindak secara strategik untuk melanjutkan kepentingan mereka sendiri.
Juga, pilihan strategik sentiasa berusaha untuk memaksimumkan hasil yang diharapkan
, sama ada hasil tersebut adalah dari segi wang, utiliti, atau ukuran nilai lain. Jika kita mahu menggabungkan topik "komersial" yang lebih tradisional yang berkaitan dengan strategi yang kita dapat bayangkan bahawa kita mahu memaksimumkan nilai syarikat 10 tahun dari sekarang. Dalam kes ini, untuk merumuskan strategi yang baik, kita perlu mengambil pandangan "jangka panjang", dan mungkin juga mempertimbangkan "tujuan dan misi" syarikat itu juga, untuk memastikan penjajaran dengan strategi. Walau bagaimanapun, mengejar usaha ini hanyalah akibat daripada apa yang sebenarnya bermakna bertindak secara strategik.Pandangan permainan-teoretik strategi menangkap intipati membuat keputusan strategik dan akibatnya membolehkan kita dengan jelas menentukan apa yang kita maksudkan dengan AI strategik. Dari definisi kita melihat bahawa jika sistem atau ejen AI bertindak secara strategik, ia perlu mempunyai beberapa keupayaan teras. Khususnya, ia perlu dapat:
konsep penting lain dari teori permainan
Apa itu permainan?
Permainan Infinite Finite
Permainan terhingga mempunyai set pemain tetap, peraturan yang ditetapkan, dan titik akhir yang jelas. Objektifnya adalah untuk menang, dan contohnya termasuk catur, pergi, pemeriksa, dan permainan papan yang paling tradisional.
Permainan tak terhingga sebaliknya tidak mempunyai titik akhir yang telah ditetapkan, dan peraturannya boleh berubah dari masa ke masa. Objektifnya bukan untuk menang tetapi terus bermain. Senario dunia sebenar seperti persaingan perniagaan atau evolusi masyarakat boleh dilihat sebagai permainan yang tidak terhingga. Perang Dingin boleh dilihat sebagai contoh permainan yang tidak terhingga. Ia adalah perjuangan geopolitik yang berpanjangan antara Amerika Syarikat dan sekutu -sekutunya (Barat) dan Kesatuan Soviet dan sekutu -sekutunya (Timur). Konflik itu tidak mempunyai titik akhir tetap, dan strategi dan "peraturan" berkembang dari masa ke masa.
subgames
kita boleh memvisualisasikan subgame jika kita bayangkan pokok besar yang mewakili keseluruhan permainan. Subgame adalah seperti memilih cawangan pokok ini bermula dari titik tertentu (nod) dan termasuk segala yang meluas daripadanya, sementara juga memastikan bahawa sebarang ketidakpastian sepenuhnya diwakili dalam cawangan ini.
Idea teras di sebalik subgame menjadikannya berguna untuk perbincangan kami di sekitar AI strategik. Alasannya adalah terutamanya bahawa beberapa permainan yang tidak terhingga antara pemain mungkin sangat rumit dan sukar untuk dimodelkan sementara jika kita memilih untuk melihat permainan yang lebih kecil dalam permainan itu, kita boleh mempunyai lebih banyak kejayaan menerapkan analisis teoritis permainan.
kembali kepada contoh kami dengan Perang Dingin sebagai permainan yang tidak terhingga, kami dapat mengenali beberapa subgames dalam konteks itu. Beberapa contoh termasuk:
Krisis Peluru Berpandu Kuba (1962):
Dua Permainan Pemain
Dua permainan pemain hanyalah permainan antara dua pemain. Ini boleh menjadi contoh permainan antara dua pemain catur, atau kembali ke contoh Perang Dingin kami, Barat vs Timur. Mempunyai hanya dua pemain dalam permainan memudahkan analisis tetapi masih menangkap dinamik kompetitif atau koperasi yang penting. Banyak hasil dalam teori permainan didasarkan sekitar dua permainan pemain.
Permainan sifar-jumlah adalah subset permainan di mana satu keuntungan pemain adalah kehilangan pemain lain. Jumlah hasil tetap berterusan, dan pemain berada dalam persaingan langsung.
Keseimbangan Nash (NE) adalah satu set strategi di mana tidak ada pemain yang dapat memperoleh manfaat tambahan dengan mengubah strategi mereka sendiri secara unilateral, dengan menganggap pemain lain tetap tidak berubah. Di negeri ini, strategi setiap pemain adalah tindak balas terbaik terhadap strategi yang lain, yang membawa kepada hasil yang stabil di mana tidak ada pemain yang mempunyai insentif untuk menyimpang.
Sebagai contoh, dalam permainan rock-paper-scissor (RPS), NE adalah keadaan di mana semua pemain bermain rock, kertas dan gunting, secara rawak, masing-masing dengan kebarangkalian yang sama. Jika anda sebagai pemain memilih untuk memainkan strategi NE, anda memastikan bahawa tidak ada pemain lain yang dapat mengeksploitasi permainan anda dan dalam dua permainan sifar permainan, anda dapat ditunjukkan bahawa anda tidak akan kehilangan harapan, dan yang paling buruk yang dapat anda lakukan adalah pecah walaupun.Walau bagaimanapun, memainkan strategi NE mungkin tidak selalu menjadi strategi yang optimum, terutamanya jika lawan anda bermain dengan cara yang boleh diramalkan sub-optimum. Pertimbangkan satu senario dengan dua pemain, A dan B. Jika pemain B mula bermain kertas lebih banyak, pemain A dapat mengenali ini dan meningkatkan kekerapan bermain gunting. Walau bagaimanapun, penyelewengan ini dari A sekali lagi boleh dieksploitasi oleh B sekali lagi yang boleh berubah dan bermain lebih banyak batu.
Takeaways Kunci Mengenai Strategik Ai
Sebagai contoh, katakan anda sedang berusaha untuk membangunkan kerjaya anda, sesuatu yang boleh diklasifikasikan sebagai permainan yang tidak terhingga dan sukar untuk "menyelesaikan", tetapi tiba -tiba anda mendapat peluang untuk berunding dengan kontrak baru. Proses rundingan ini memberikan peluang untuk subgame dalam kerjaya anda dan akan lebih mudah didekati untuk AI strategik menggunakan konsep teoretis permainan.
Sesungguhnya, manusia telah mencipta subgames dalam kehidupan kita selama beribu -ribu tahun. Kira -kira 1500 tahun yang lalu di India, kami mencipta asal -usul apa yang kini dikenali sebagai catur. Catur ternyata menjadi satu cabaran untuk AI untuk mengalahkan, tetapi juga membolehkan kami mula mengembangkan alat dan teknik yang lebih matang yang boleh digunakan untuk situasi strategik yang lebih rumit dan sukar.
Permainan telah menyediakan landasan yang luar biasa untuk membangunkan AI strategik. Sifat permainan tertutup menjadikannya lebih mudah untuk melatih model dan membangunkan teknik penyelesaian daripada sistem terbuka. Permainan jelas ditakrifkan; Para pemain dikenali dan begitu juga hasilnya. Salah satu tonggak terbesar dan terawal adalah biru yang mendalam, mesin yang mengalahkan juara dunia dalam catur.
Deep Blue adalah superkomputer bermain catur yang dibangunkan oleh IBM pada tahun 1990-an. Seperti yang dinyatakan dalam Prolog, ia membuat sejarah pada Mei 1997 dengan mengalahkan juara catur dunia yang memerintah, Garry Kasparov, dalam perlawanan enam perlawanan. Deep Blue menggunakan perkakasan dan algoritma khusus yang mampu menilai 200 juta jawatan catur sesaat. Ia menggabungkan teknik carian kekerasan dengan fungsi penilaian heuristik, membolehkannya mencari lebih mendalam ke dalam urutan berpotensi daripada mana-mana sistem sebelumnya. Apa yang membuat Deep Blue Special adalah keupayaannya untuk memproses sejumlah besar kedudukan dengan cepat, dengan berkesan mengendalikan kerumitan catur kombinatorial dan menandakan peristiwa penting dalam kecerdasan buatan. Walau bagaimanapun, sebagai nota Gary Kasparov dalam wawancara dengan Lex Fridman¹, Deep Blue adalah lebih banyak mesin kekerasan daripada apa -apa lagi, jadi mungkin sukar untuk melayakkannya sebagai jenis kecerdasan. Inti carian pada dasarnya hanya percubaan dan kesilapan. Dan bercakap tentang kesilapan, ia membuat kesilapan yang jauh lebih rendah daripada manusia, dan menurut Kasparov ini adalah salah satu ciri yang membuatnya sukar untuk ditewaskan.
Kemajuan dalam permainan kompleks
Go adalah permainan papan yang sangat lama dengan asal -usul di Asia, yang terkenal dengan kerumitannya yang mendalam dan banyak kedudukan yang mungkin, jauh melebihi orang -orang dalam catur. Alphago menggabungkan rangkaian saraf yang mendalam dengan pencarian pokok Monte Carlo, yang membolehkannya menilai kedudukan dan pelan bergerak dengan berkesan. Semakin banyak masa Alphaago diberikan pada kesimpulan, semakin baik ia melakukan.
AI dilatih dalam dataset permainan pakar manusia dan bertambah baik melalui bermain sendiri. Apa yang membuat Alphago Special adalah keupayaannya untuk mengendalikan kerumitan GO, menggunakan teknik pembelajaran mesin maju untuk mencapai prestasi luar biasa dalam domain yang sebelum ini dianggap tahan terhadap penguasaan AI. seseorang boleh membantah AlphaGo mempamerkan lebih banyak kecerdasan daripada Deep Blue, memandangkan keupayaannya yang luar biasa untuk menilai negara -negara lembaga dan memilih langkah. Pindah 37 dari permainan 2016 terhadap Lee Sedol adalah contoh klasik. Bagi mereka yang berkenalan dengan GO, ia adalah bahu yang melanda di garisan kelima dan mula -mula bingung pengulas, termasuk Lee Sedol sendiri. Tetapi seperti yang akan menjadi jelas, langkah itu adalah permainan yang cemerlang dan mempamerkan bagaimana Alphago akan meneroka strategi yang pemain manusia mungkin terlepas pandang dan tidak menghiraukan. Setahun kemudian, Google DeepMind membuat tajuk utama lagi. Kali ini, mereka mengambil banyak pembelajaran dari Alphago dan mencipta Alphazero, yang lebih banyak sistem AI tujuan umum yang menguasai catur, serta Go dan Shogi. Para penyelidik dapat membina AI semata-mata melalui pembelajaran diri dan penguatkuasaan tanpa pengetahuan atau data manusia yang terdahulu. Tidak seperti enjin catur tradisional yang bergantung kepada fungsi penilaian buatan tangan dan perpustakaan pembukaan yang luas, Alphazero menggunakan rangkaian saraf yang mendalam dan algoritma novel yang menggabungkan pencarian pokok Monte Carlo dengan pembelajaran diri. Sistem ini bermula dengan hanya peraturan asas dan mempelajari strategi optimum dengan bermain berjuta -juta permainan terhadap dirinya sendiri. Apa yang membuat Alphazero Special adalah keupayaannya untuk menemui strategi yang kreatif dan cekap, mempamerkan paradigma baru di AI yang memanfaatkan pengetahuan diri terhadap pengetahuan yang direka oleh manusia. Melanjutkan penguasaannya di ruang AI, pasukan Google Deepmind mengubah fokusnya kepada permainan komputer yang sangat popular, Starcraft II. Pada tahun 2019, mereka membangunkan AI yang dipanggil Alphastar² yang dapat mencapai tahap Grandmaster dan berpangkat lebih tinggi daripada 99.8% pemain manusia di papan pendahulu yang kompetitif.
Dengan membina beberapa teknik yang dibangunkan untuk AIS sebelumnya, seperti pembelajaran tetulang melalui rangkaian sendiri dan rangkaian saraf yang mendalam, pasukan itu dapat membuat enjin permainan yang unik. Pertama, mereka melatih jaring saraf menggunakan pembelajaran yang diawasi dan bermain manusia. Kemudian, mereka menggunakannya untuk membiakkan algoritma lain yang boleh bermain menentang dirinya dalam kerangka permainan pelbagai agen. Pasukan DeepMind mencipta liga maya di mana ejen dapat meneroka strategi antara satu sama lain dan di mana strategi dominan akan diberi ganjaran. Pada akhirnya, mereka menggabungkan strategi dari liga ke dalam strategi super yang boleh menjadi berkesan terhadap banyak lawan dan strategi yang berbeza. Dalam kata -kata mereka sendiri³:
Walaupun cukup mudah untuk belajar, seseorang hanya perlu mengetahui hierarki pelbagai tangan poker, permainan ini terbukti sangat sukar untuk diselesaikan dengan AI, walaupun usaha berterusan selama beberapa dekad. Terdapat banyak faktor yang menyumbang kepada kesukaran menyelesaikan poker. Pertama, kami mempunyai isu maklumat tersembunyi, kerana anda tidak tahu kad mana yang dimiliki oleh pemain lain. Kedua, kami mempunyai persediaan berbilang pemain dengan banyak pemain, dengan setiap pemain tambahan meningkatkan bilangan interaksi dan strategi yang mungkin secara eksponen. Ketiga, kami mempunyai peraturan pertaruhan tanpa had, yang membolehkan struktur pertaruhan yang kompleks di mana satu pemain tiba-tiba memutuskan untuk bertaruh seluruh timbunannya. Keempat, kami mempunyai kerumitan pokok permainan yang besar kerana kombinasi kad lubang, kad komuniti, dan urutan pertaruhan. Di samping itu, kami juga mempunyai kerumitan kerana sifat stokastik kad, potensi untuk membongkar dan pemodelan lawan! Ia hanya pada tahun 2019 bahawa beberapa penyelidik, Noam Brown dan Tuomas Sandholm, akhirnya memecahkan kod tersebut. Dalam kertas yang diterbitkan dalam Sains, mereka menggambarkan poker novel AI-Pluribus-yang berjaya mengalahkan pemain terbaik di dunia dalam 6-pemain tanpa had Texas Hold'em.⁴ Mereka menjalankan dua eksperimen yang berbeza, masing-masing terdiri daripada 10000 tangan poker, dan kedua -dua eksperimen jelas menunjukkan dominasi pluribus. Dalam percubaan pertama, Pluribus bermain menentang 5 lawan manusia, mencapai kadar kemenangan purata 48 MBB/permainan, dengan sisihan piawai 25 MBB/permainan. (MBB/Game bermaksud Milli Big Blind per permainan, berapa banyak tirai besar yang dimenangi setiap 1000 permainan yang dimainkan.) 48 MBB/permainan dianggap kadar kemenangan yang sangat tinggi, terutama di kalangan pemain poker elit, dan menunjukkan bahawa Pluribus lebih kuat daripada yang lebih kuat daripada yang lebih kuat daripada lawan manusia.
Dalam tumpuan kami ke dalam teori permainan, kami menyatakan bahawa jika anda memainkan strategi NE dalam permainan sifar dua pemain, anda dijamin tidak akan kehilangan jangkaan. Walau bagaimanapun, untuk permainan multiplayer seperti poker 6-pemain tidak ada jaminan sedemikian. Noam Brown Speculates⁵ bahawa ia mungkin sifat adversarial permainan seperti poker yang masih menjadikannya sesuai untuk cuba mendekatinya dengan strategi NE. Sebaliknya, dalam permainan seperti risiko di mana pemain dapat bekerjasama lebih banyak, mengejar strategi NE tidak dijamin berfungsi, kerana, jika anda bermain permainan risiko dengan 6 orang, tidak ada yang dapat anda lakukan jika 5 lawan anda memutuskan untuk geng pada anda dan membunuh anda. Merumuskan sejarah AI strategik dalam permainan, kita melihat trend yang jelas muncul. Permainan perlahan-lahan tetapi pasti menjadi lebih dekat dengan situasi strategik dunia sebenar yang manusia mendapati diri mereka dalam setiap hari. Pertama, kami bergerak dari dua pemain ke tetapan multiplayer. Ini dapat dilihat dari kejayaan awal dalam permainan dua pemain untuk permainan multiplayer seperti poker 6-player. Kedua, kita melihat peningkatan penguasaan permainan dengan maklumat tersembunyi. Ketiga, kita juga melihat peningkatan penguasaan permainan dengan unsur -unsur stokastik yang lebih.
Model Bahasa Besar dan Strategik AI anda boleh mencari artikel mengenai eksperimen di sini:
Eksperimen di atas menunjukkan bahawa walaupun kita telah melihat peningkatan pesat dalam LLM, mereka masih kekurangan kecanggihan untuk penalaran strategik. Memandangkan data latihan mereka yang sangat umum dan bagaimana mereka telah dibina, ini tidak boleh mengejutkan. Jadi bagaimana mereka sesuai dengan perbincangan di sekitar AI strategik? Untuk memahami bahawa, kita perlu memahami apa yang LLMS benar -benar cemerlang. Mungkin ciri yang paling menjanjikan dari LLMS adalah keupayaan mereka untuk mencerna dan menghasilkan sejumlah besar teks. Dan sekarang dengan model multimodal, video dan audio juga. Dalam erti kata lain, LLM sangat baik untuk berinteraksi dengan dunia nyata, baik dalam konteks manusia dan lain -lain. Baru -baru ini, pasukan AI di Meta dapat menggabungkan keupayaan bahasa umum model bahasa dengan pandangan strategik enjin strategi. Permainan diplomasi adalah permainan strategi 2 hingga 7 pemain, yang Meta menggambarkan sebagai campuran antara risiko, poker dan rancangan TV Survivor. Pemain bermula dengan peta Eropah ca. 1900, dan objektifnya adalah untuk mendapatkan kawalan ke atas majoriti pusat bekalan. Khususnya, pemain bertujuan untuk mengawal 18 daripada 34 pusat bekalan untuk mencapai kemenangan. Dengan berbuat demikian, pemain secara berkesan menguasai peta, yang mewakili pendirian negara mereka ke atas Eropah dalam tempoh yang membawa kepada Perang Dunia I. Apa yang membezakan diplomasi selain daripada banyak permainan lain yang telah kami bincangkan setakat ini adalah pergantungannya terhadap rundingan antara pemain. Ia adalah bentuk permainan yang lebih koperasi daripada contoh poker. Setiap pemain menggunakan bahasa semulajadi untuk berkomunikasi dengan pemain lain sebelum setiap giliran, dan mereka membuat rancangan untuk bersekutu antara satu sama lain. Apabila persiapan selesai semua pemain mendedahkan rancangan mereka pada masa yang sama dan gilirannya dilaksanakan. Permainan jenis ini jelas menyerupai rundingan diplomasi dan kehidupan sebenar yang lebih dekat daripada kebanyakan papan lembaga lain, namun kerana komponen bahasa semulajadi, sangat sukar bagi AI untuk menguasai. Ini berubah pada tahun 2022, ketika pasukan AI di Meta mengembangkan Cicero. Menggunakan kemajuan terkini dalam pemodelan bahasa, digabungkan dengan modul strategik, Cicero adalah enjin permainan yang dapat mencapai lebih dari "dua kali ganda skor purata pemain manusia dan menduduki ranking 10% peserta yang memainkan lebih dari satu permainan "⁶ Sebagai Meta menerangkannya, model mereka dapat menghasilkan dialog yang berasaskan strategi dan menghasilkan strategi sedar dialog. Terdapat beberapa perbezaan utama antara diplomasi dan beberapa permainan lain di mana kami mempunyai kemajuan AI yang baru -baru ini. Terutamanya adalah sifat koperasi permainan-berbanding dengan sifat adversarial permainan lain-dan format bahasa semulajadi terbuka yang digunakannya. Saya akan berhujah bahawa perbezaan ini menjadikan permainan ini lebih seperti interaksi manusia sebenar, namun ia juga meletakkan sekatan ke atas bagaimana penyelidikan dapat melatih algoritma yang berkuasa Cicero. Tidak seperti Pluribus dan Alphazero, Cicero tidak terlatih terutamanya melalui pembelajaran diri dan tetulang. Sebaliknya, pasukan meta menggunakan data yang ditetapkan dengan lebih daripada 125,000 permainan dan 40,000,000 mesej untuk membantu melatih algoritma. Mereka berfikir bahawa diberikan rundingan, memujuk dan membina aspek-aspek permainan, mereka mungkin melihat tingkah laku yang aneh jika mereka membiarkan AI berunding dengan dirinya sendiri melalui bermain sendiri, dan ia mungkin tidak menangkap intipati interaksi manusia. Memetik artikel penyelidikan mereka: "... kami mendapati bahawa algoritma sendiri yang mencapai prestasi luar biasa dalam versi 2P0S permainan yang dilakukan dengan buruk dalam permainan dengan pelbagai pemain manusia kerana mempelajari dasar yang tidak konsisten dengan norma dan harapan sekutu manusia yang berpotensi. "
Masa Depan Strategik Ai Sebaliknya, modul khusus adalah sistem AI yang direka untuk senario atau tugas tertentu. Kita dapat membayangkan bahawa kita boleh membuat AI strategik umum dengan menggabungkan pelbagai ejen khusus. Ejen AI boleh dilatih untuk cemerlang di setiap kawasan tertentu, memberikan kepakaran yang mendalam di mana ia paling diperlukan. Walaupun kaedah ini mungkin mengehadkan keupayaan AI untuk umum, ia memastikan prestasi tinggi dalam domain tertentu, yang boleh membawa kepada aplikasi praktikal dengan lebih cepat. Memandangkan isu-isu dengan menggunakan AI untuk bermain sendiri dalam tetapan koperasi-seperti yang kita perhatikan dengan diplomasi-dan trend semasa yang nampaknya memihak kepada modul khusus untuk situasi strategik yang berbeza, nampaknya untuk masa depan kita akan mempunyai khusus Modul strategik untuk konteks yang berbeza. Walau bagaimanapun, seseorang juga dapat membayangkan sistem bercampur di mana kami menggunakan enjin strategi umum untuk memberikan gambaran mengenai topik yang lebih luas, sementara modul khusus mengendalikan cabaran yang kompleks dan spesifik. Keseimbangan ini membolehkan sistem AI memohon wawasan strategik umum semasa menyesuaikan diri dengan butiran situasi tertentu. Model bahasa yang besar telah mengubah cara AI berinteraksi dengan bahasa manusia, menawarkan cara yang kuat untuk menghubungkan modul AI strategik dengan kes penggunaan dunia nyata. LLMs hebat dalam memahami dan menghasilkan teks seperti manusia, menjadikannya ideal sebagai perantara yang dapat menterjemahkan situasi dunia nyata ke dalam data berstruktur yang dapat diproses oleh enjin strategi. Seperti yang dilihat dengan Cicero Meta, menggabungkan LLM dengan penalaran strategik membolehkan AI memahami komunikasi manusia, berunding, dan merancang tindakan dalam persekitaran kolaboratif. Memandangkan trend semasa ke arah lebih banyak model multimodal, LLMS juga semakin dapat menterjemahkan bukan hanya teks, tetapi sebarang konteks dunia nyata ke dalam sintaks yang boleh dibaca mesin. Ini menjadikan model lebih berguna sebagai perantara. Jika kita membina idea-idea yang dibangunkan untuk Cicero, kita juga dapat membayangkan model bahasa yang berbeza untuk tugas-tugas tertentu-seperti komunikasi diplomatik-mungkin dengan menala model-model mengenai surat-menyurat diplomatik bersejarah dan kemudian melatih enjin strategi yang berasingan untuk muncul dengan tindakan yang optimum.
Contoh dunia sebenar model ini termasuk kawasan di mana pasukan manusia-ai mengatasi sama ada manusia atau mesin yang bekerja sendiri. Dalam Catur, sebagai contoh, Garry Kasparov mempromosikan idea bekerjasama dengan AI, menggabungkan wawasan strategik manusia dengan pengiraan tepat AI. Model Centaur seolah -olah berfungsi dengan baik dalam catur sehingga program mula menjadi sangat baik. Pada masa itu sumbangan manusia tidak bernilai apa -apa dan berada dalam kes yang paling teruk merugikan.
Strategik AI juga digunakan untuk menguruskan pengagihan tenaga dengan cekap. Grid pintar menggunakan AI untuk meramalkan corak penggunaan dan menyesuaikan bekalan dengan sewajarnya. Mereka menganggap bagaimana pengguna boleh mengubah penggunaan mereka sebagai tindak balas kepada isyarat harga atau faktor persekitaran. AI secara strategik memperuntukkan sumber untuk mengimbangi beban, mencegah gangguan, dan mengintegrasikan sumber tenaga boleh diperbaharui. Contoh -contoh di atas jelas menunjukkan bagaimana AI strategik diintegrasikan ke dalam pelbagai industri dan bidang. Dengan mempertimbangkan tindakan orang lain, sistem AI ini membuat keputusan yang tepat yang mengoptimumkan hasil, meningkatkan kecekapan, dan sering memberikan kelebihan daya saing. Oleh kerana AI strategik terus bertambah baik begitu juga dengan sistem ini, dan kami mungkin akan melihat kemunculan mereka dalam banyak domain lain. Strategik AI telah datang jauh sejak kemenangan Deep Blue ke atas Garry Kasparov. Dari menguasai permainan papan yang kompleks untuk terlibat dalam rundingan seperti manusia, sistem AI semakin mempamerkan kebolehan penalaran strategik. Dalam artikel ini kita menyiasat konsep asas AI strategik, menekankan pentingnya teori permainan dan bagaimana beberapa konsep dari bidang boleh digunakan untuk AI strategik. Kami juga melihat bagaimana sistem AI khusus telah mencapai prestasi luar biasa dalam permainan tertentu dengan memberi tumpuan kepada domain sempit dan bermain diri yang luas. Ini menimbulkan persoalan sama ada masa depan AI strategik terletak pada membangunkan enjin strategi simbolik umum yang mampu aplikasi yang lebih luas atau meneruskan dengan modul khusus yang disesuaikan dengan tugas -tugas tertentu. Seperti yang kita lihat dengan Cicero, model bahasa juga mungkin mempunyai masa depan dalam ruang AI strategik. Model-model baru dari penyedia seperti OpenAI, Anthropic dan Meta menjadikannya lebih mudah daripada sebelumnya untuk mengintegrasikan alat-alat ini ke dalam agen autonomi yang boleh menggunakannya untuk menterjemahkan dunia nyata ke dalam data berstruktur yang dapat diproses oleh sistem AI.
Walau bagaimanapun, perjalanan ke arah AI strategik umum yang dapat menavigasi kerumitan dunia nyata baru sahaja bermula. Cabaran kekal dalam membangunkan sistem yang dapat merentasi domain, menyesuaikan diri dengan situasi yang tidak diduga, dan mengintegrasikan pertimbangan etika ke dalam proses membuat keputusan mereka. Terima kasih kerana membaca!
menggabungkan catur dan pergi: alphazero
Mengintegrasikan Kelajuan dan Strategi: Star Craft II
menyelam mendalam ke pluribus dan poker
Saya suka bermain poker, dan ketika saya tinggal dan belajar di Trondheim, kami pernah mempunyai permainan tunai mingguan yang dapat cukup sengit! Salah satu tonggak terakhir yang akan dilepaskan oleh AI Strategik adalah dalam permainan poker. Khususnya, dalam salah satu bentuk poker yang paling popular, 6-pemain tanpa had Texas Hold'em. Dalam permainan ini, kami menggunakan dek kad biasa dengan 52 kad, dan permainan mengikuti struktur berikut:
preflop:
Terdapat beberapa pemerhatian yang menarik untuk diambil dari Pluribus, tetapi mungkin yang paling menarik adalah bahawa ia tidak mengubah permainannya terhadap lawan yang berbeza, tetapi sebaliknya telah mengembangkan strategi yang kuat yang berkesan terhadap pelbagai pemain. Oleh kerana banyak pemain poker berfikir mereka perlu menyesuaikan permainan mereka ke pelbagai situasi dan orang, Pluribus menunjukkan kepada kita bahawa ini tidak diperlukan dan mungkin tidak optimum, memandangkan ia mengalahkan semua manusia yang dimainkannya.
Menilai trend dalam strategi AI
Saya baru -baru ini menjalankan eksperimen di mana saya membiarkan LLMs memainkan risiko papan yang antara satu sama lain. Objektif saya dengan eksperimen ini adalah untuk mengukur seberapa baik LLMS dapat melaksanakan dalam suasana strategik, lebih kurang dari kotak. Cukup banyak petunjuk terperinci diberikan kepada ejen untuk memberikan konteks yang betul, bagaimanapun, dan mungkin tidak menghairankan, prestasi LLM agak biasa -biasa saja.
meneroka keupayaan strategik LLMS dalam tetapan permainan risiko
Kajian Kes: Cicero dan Diplomasi
perbezaan antara Cicero dan model AI strategik lain
Walau bagaimanapun, pembelajaran tetulang digunakan untuk melatih sebahagian daripada enjin strategi, khususnya ia digunakan untuk melatih fungsi nilai Cicero - yang diperlukan untuk meramalkan utiliti tindakannya. Para penyelidik menggunakan versi pengklonan tingkah laku yang diubahsuai, pikl, yang bertujuan untuk memaksimumkan utiliti yang diharapkan dari tindakan dan pada masa yang sama meminimumkan perbezaan dari tingkah laku manusia. sementara pada masa yang sama tinggal dekat dengan tindakan manusia.
Meramalkan masa depan sentiasa rumit, bagaimanapun, satu pendekatan boleh menggunakan trend semasa dan mengekstrapolasi ke dalam senario masa depan. Di bawah ini, kami menyiasat beberapa topik yang berkaitan dengan perbincangan terdahulu kami dan menilai bagaimana mereka dapat mempengaruhi masa depan AI strategik.
Jika kita mengkaji trajektori enjin AI strategik setakat ini, satu perkara yang menyerang kita adalah bagaimana khusus setiap enjin permainan. Walaupun seni bina boleh sama - seperti dengan Alphazero belajar bagaimana bermain pelbagai permainan yang berbeza - AI masih memainkan berjuta -juta permainan dengan sendirinya untuk setiap permainan tertentu. Bagi catur, Alphazero memainkan 44 juta permainan dan pergi 130 juta permainan! ⁷ Soalan semula jadi yang perlu ditanya ialah sama ada kita harus cuba membina lebih banyak enjin strategi umum atau terus memberi tumpuan kepada modul khusus untuk tugas -tugas tertentu?
Enjin strategi umum akan bertujuan untuk memahami dan menggunakan prinsip strategik yang luas dalam situasi yang berbeza. Mungkin dengan mencipta permainan yang menangkap banyak aspek interaksi strategik manusia, AI dapat belajar melalui permainan terhadap dirinya sendiri dan membangunkan strategi yang digunakan untuk senario dunia nyata. Pendekatan ini dapat membantu AI menyamar sebagai pembelajarannya, menjadikannya berguna dalam pelbagai konteks.
llms merapatkan jurang antara modul strategik dan aplikasi dunia sebenar
Kerjasama Human-AI: Model Centaur
Masa depan AI strategik bukan hanya mengenai mesin yang mengambil alih keputusan; Untuk tempoh peralihan, ia juga mengenai manusia dan AI bekerjasama dengan berkesan. Perkongsian ini sering dipanggil "model Centaur," menggabungkan intuisi manusia dengan kuasa pengkomputeran AI. Dalam model ini, manusia membawa kreativiti, penghakiman etika, dan fleksibiliti, sementara sistem AI menawarkan pemprosesan data yang kuat dan penggunaan prinsip strategik yang konsisten.
aplikasi dunia nyata di luar permainan
Permainan telah menjadi tempat ujian yang hebat untuk membangunkan AI strategik, tetapi kesan sebenar datang dari menerapkan kemajuan ini kepada cabaran dunia nyata. Di bawah ini kita menyerlahkan beberapa contoh. Kesimpulan
Rujukan
Atas ialah kandungan terperinci Apabila mesin berfikir ke hadapan: Kebangkitan AI Strategik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!