Bagaimanakah Shogi AI mengatasi pemain Shogi profesional? Dan ke mana awak pergi dari sini? [CEDEC 2024]-berita permainan-php.cn

Pada persidangan pembangun permainan CEDEC 2024, satu sesi ``Dulu, Kini, dan Masa Depan Shogi AI'' telah diadakan oleh Tatsuya Sugimura dari Motoyawata Asahi Law Office dan Urao Yaneu
dari Yaneu Design
Mari laporkan sesi yang membincangkan masa lalu dan masa depan shogi AI, yang telah berkembang pesat dan kini mengatasi pemain shogi profesional sekalipun.

将棋AIはどのようにしてプロ棋士を凌駕したのか？　そしてこれからどこへ行くのか？［CEDEC 2024］

Encik Sugimura, seorang peguam, ialah pembangun shogi AI "Suisho" , yang juga digunakan oleh
Sota Fujii Seven Crowns
, dan telah memenangi banyak kejohanan dunia Shogi AI. Sebagai pemaju, dia mungkin lebih dikenali sebagai "Tayayan". En. Urao Yane ialah pembangun
"Yaneurao"
, yang telah menjadi standard de facto untuk sumber terbuka shogi AI. Banyak AI shogi baru-baru ini, termasuk Suisho, menggunakan Yaneuraou dalam beberapa bentuk. Encik Tatsuya Sugimura (kiri) dan Encik Urao Yane (kanan) Sesi diteruskan dengan video yang menampilkan Masaki Wakaru, watak dari saluran rasmi Yaneuraou

Kelahiran dan evolusi shogi AI

Pertama, laluan dari kelahiran shogi AI kepada kemenangannya ke atas pemain shogi profesional telah diperkenalkan. AI shogi pertama di dunia dikatakan telah dibangunkan pada tahun 1974 oleh Takenobu Takizawa, yang merupakan pelajar siswazah pada masa itu dan kini merupakan naib presiden Persatuan Shogi Komputer dan profesor emeritus di Universiti Waseda.

AI shogi awal ialah gabungan "fungsi penilaian" dan algoritma carian yang mudah, terutamanya "Kaedah Minimax" .

Fungsi penilaian ialah ``nilai penilaian'' yang mendigitalkan situasi shogi (maklumat di papan + pergerakan + langkah sebelumnya). Dalam kes yang paling mudah, setiap bahagian di sebelah pemain ialah +1, dan setiap bahagian di sisi pemain ialah -1, dan dari situ, kepingan besar (benteng dan tanduk) dan kepingan yang berfungsi dengan baik di papan bernilai +1 Pengubahsuaian dibuat untuk meningkatkan nilai.

Kaedah Minimax merujuk kepada output nilai penilaian oleh fungsi penilaian dan meneliti penilaian setiap laluan sehingga beberapa langkah ke hadapan Walau bagaimanapun, kerana kaedah kekerasan tidak cekap, ia mengecilkan situasi penilaian lahir sebagai penambahbaikan pada kaedah Minimax. Tambahan pula, pelbagai idea ``pruning'' diperkenalkan yang boleh digunakan bersama-sama dengan carian αβ. Contoh pemangkasan adalah ``langkah pembunuh' yang, apabila gerakan yang akan menyumbat raja lawan ditemui, diutamakan dalam menilai gerakan yang paling hampir dengannya.

untuk Shogi AI.

Fungsi penilaian dan algoritma carian adalah setara dengan ``dua roda kereta''

Pada awal shogi AI, parameter fungsi penilaian telah diselaraskan oleh manusia. Sebagai tambahan kepada jenis kepingan dan fungsinya di papan, kami juga menetapkan faktor seperti kekukuhan pertahanan raja (emas dan perak berdekatan, laluan berundur disediakan), dan bermain terhadap perisian standard Memandangkan proses itu memerlukan denda berulang -tala, sesetengah orang berkata bahawa ``mencipta fungsi penilaian adalah kemahiran seorang tukang.''

Walau bagaimanapun, apabila ia terus berkembang, fungsi penilaian menjadi lebih kompleks dan di luar kawalan manusia. Pada masa itu, ``Bonanza'', yang dibangunkan oleh Kunihito Hoki

, muncul. Bonanza menggunakan ``Kaedah Bonanza'' 将棋AIはどのようにしてプロ棋士を凌駕したのか？　そしてこれからどこへ行くのか？［CEDEC 2024］

, yang ``mencari parameter supaya fungsi penilaian yang digunakan untuk menilai setiap papan adalah sama dengan pergerakan sebenar yang dibuat oleh pemain yang kuat,'' dan secara automatik mengira parameter daripada rekod permainan manusia . Ia membolehkan anda membuat pelarasan.

Kaedah
Bonanza adalah berdasarkan "teori kawalan optimum", tetapi kemudiannya didapati bahawa parameter juga boleh dilaraskan menggunakan "keturunan kecerunan stokastik", yang sering digunakan dalam pembelajaran mesin

Shogi AI terus berkembang sejak itu, dan dalam perlawanan rasmi pada tahun 2013, "ponanza" mengalahkan pemain shogi profesional Shinichi Sato, 4-dan . Ponanza ini juga menggunakan carian αβ dan pelarasan parameter fungsi penilaian menggunakan pembelajaran mesin.
Di samping itu, purata bilangan pergerakan undang-undang dalam Shogi (langkah yang boleh dibuat tanpa melanggar peraturan) ialah 80, jadi jika anda membuat jumlah pukulan, anda akan dapat menilai 80 cara jika anda satu langkah ke hadapan, dan 80 x 80 (80 x 80) untuk 6400 cara jika anda dua langkah ke hadapan. Walau bagaimanapun, purata bilangan cawangan Bonanza (bilangan penilaian setiap langkah) menurun daripada 3 pada peringkat awal kepada sekitar 5 pada peringkat akhir. Purata bilangan cawangan AI terkini ialah 2, dan dikatakan boleh menilai sehingga 30 langkah ke hadapan.

Shogi AI semasa
Di sini, 10 peristiwa yang telah memberi impak besar dari 2013, apabila shogi AI mengatasi manusia, sehingga kini diserlahkan.

●Pembelajaran pengukuhan
Bonanza belajar daripada rekod permainan pemain profesional, tetapi terdapat hanya kira-kira 30,000 daripada mereka, yang jauh lebih sedikit daripada bilangan parameter Bonanza.
Selain itu, sejak Shogi AI menjadi lebih kuat daripada pemain Shogi profesional, titik penggunaan rekod permainan pemain Shogi profesional semakin berkurangan, jadi pembangun mula meminta Shogi AI mempelajari rekod permainan yang dihasilkan dengan bermain permainan.

●Kejohanan Shogi AI
Selain Kejohanan Shogi Komputer Dunia, yang telah diadakan setiap tahun sejak 1990, Kejohanan Shogi Den-O (2013-2017), Kejohanan Shogi AI Denryu Dunia (dari 2021), dan lain-lain kini diadakan. Wang hadiah yang besar adalah motivasi yang hebat untuk pemaju.

●Sumber terbuka Yanuraou
　Yanuraou telah diterbitkan di GitHub pada tahun 2015 dan menjadi sumber terbuka. Walaupun banyak AI shogi mempunyai struktur di mana fungsi penilaian dan bahagian carian disepadukan, Yaneuraoh adalah sangat modular, jadi ia mungkin untuk menggantikan fungsi penilaian atau bahagian carian Ia telah digunakan oleh banyak pembangun.

●Evolusi Stockfish

"Stockfish" ialah AI catur sumber terbuka dengan sejumlah besar peserta dalam komuniti pembangun, dan satu peningkatan kecil dikatakan telah diuji berpuluh ribu kali. Walaupun permainannya berbeza, bahagian penerokaan mempunyai banyak aplikasi yang boleh digunakan untuk shogi, dan evolusi Stockfish juga telah membawa kepada evolusi shogi AI.

●Fungsi penilaian NNUE

``NNUE'' ialah fungsi penilaian yang boleh melakukan pengiraan perbezaan kelajuan tinggi hanya menggunakan CPU, dan telah diperkenalkan pada 2018. Ia menjadi arus perdana sejak itu, menggantikan fungsi penilaian yang dipanggil hubungan tiga bahagian yang digunakan dalam Bonanza.

●Alpha Zero

"AlphaZero" ialah AI untuk Go, Shogi dan Catur yang dibangunkan oleh Google DeepMind pada tahun 2017. Ia menggunakan sepenuhnya pembelajaran mendalam, dan juga dicirikan oleh penggunaan ``carian pokok Monte Carlo'' dan bukannya kaedah αβ arus perdana sebelum ini. AI Shogi yang dibuat berdasarkan kertas AlphaZero termasuk "dlshogi," "AobaZero," dan "Fukaura King"
, dan dalam kejohanan AI shogi semasa, kedua-dua jenis AlphaZero dan jenis konvensional (kaedah αβ) digunakan.

●nnue-pytorch

``nnue-pytorch''
merealisasikan pembelajaran mesin untuk NNUE menggunakan GPU, dengan ketara mengurangkan masa yang diperlukan untuk pembelajaran. Ini menjadi pendorong kepada penulis Hisjun Noda untuk memenangi Kejohanan Shogi Komputer Dunia yang akan diadakan pada Mei 2024.

●Cara mencipta perisian shogi yang kuat

"Cara Mencipta Perisian Shogi yang Kuat"
ialah sebuah buku yang ditulis oleh Tadao Yamaoka , pembangun dlshogi. Ia ditulis mengenai pembangunan AI shogi berasaskan pembelajaran mendalam, dan dikatakan bahawa dengan hanya pengetahuan yang ditulis di sini, adalah mungkin untuk mencipta AI shogi yang lebih kuat daripada pemain shogi profesional.

●Menerbitkan data guru berkualiti tinggi
Encik Yamaoka, yang menulis tentang cara mencipta perisian shogi yang kuat, dan Encik Tayan Sugimura, yang bercakap pada sesi ini, telah mengeluarkan data guru (data untuk pembelajaran). Dalam pembelajaran pengukuhan untuk shogi AI, kos mencipta data latihan adalah lebih tinggi daripada kos pembelajaran. Oleh itu, nampaknya halangan untuk masuk tiba-tiba berkurangan dengan pendedahan ini.

Encik Sugimura menjelaskan sebabnya: ``Walaupun anda seorang sahaja yang memilikinya, anda mungkin tidak boleh menggunakannya, jadi dalam kes itu, lebih baik orang lain menggunakannya dan berkata, ``Saya menggunakan data.''''

●Kebangkitan SNS

Sekitar tahun 2013, ramai pembangun AI shogi adalah penyelidik universiti, dan ramai yang tidak menggunakan SNS. Sejak versi sumber terbuka King Yaneura, bilangan orang baharu yang memasuki bidang ini telah meningkat, dan peralihan generasi telah berkembang, dan kini terdapat banyak interaksi antara pembangun pada X dan Discord.

Sejarah peningkatan AI Shogi dilihat melalui penilaian

"Iro Rating" digunakan untuk menyatakan kekuatan Shogi AI. Ini adalah indeks yang pada asalnya direka untuk menyatakan kemahiran catur, dan ia juga disokong oleh matematik.

Menurut Shogi Club 24, tapak pertandingan shogi dalam talian rasmi Persekutuan Shogi Jepun, yang juga digunakan oleh pemain profesional, had manusia adalah sekitar 3000 hingga 3300, dan untuk amatur pertama dan ia adalah sekitar 1000. Walau bagaimanapun, penarafan Bonanza pada tahun 2005 ialah 2360.

Pada tahun 2009, apabila Bonanza lwn. Mei Ryuo Watanabe, Ryuo Watanabe mengatasi situasi di mana dia fikir dia mungkin dikalahkan dan menang, tetapi rating Bonanza pada masa itu ialah 2815. Dapat dilihat bahawa Ryuo Watanabe, yang kekuatannya hampir dengan had manusia, dapat mencapai kemenangan ini.

Pada tahun 2013, "Gikou" ialah 3713, lebih 400 mata lebih tinggi daripada had manusia 3300. Nampaknya, perbezaan 400 bermakna anda boleh menang dengan kebarangkalian melebihi 90%. Dan pemenang Kejohanan Shogi Komputer Dunia 2024 "Adakah anda ingin menjadi ahli CSA mempunyai markah 4914, yang jauh melebihi markah manusia?"

Perkara penting ialah ini adalah penarafan berdasarkan PC komputer riba biasa yang mengambil masa kira-kira 5 saat untuk difikirkan. Encik Sugimura berkata bahawa menggunakan sesuatu seperti superkomputer, tidaklah menghairankan jika bilangannya boleh mencecah sekitar 7,000.

Shogi AI telah berkembang ke tahap ini dan digunakan oleh pelbagai pemain, baik profesional mahupun amatur. Ia sering digunakan dengan cara seperti meminta AI menganalisis shogi yang anda mainkan dan mengesahkan langkah mana yang buruk, atau memintanya menganalisis situasi yang dijangkakan dalam permainan dan mempertimbangkan langkah terbaik untuk situasi itu.

Masa depan shogi AI

Mengenai masa depan, mereka bercakap tentang cara membangunkan AI shogi terkuat di dunia.

AI shogi semasa boleh dibahagikan secara kasar kepada ``jenis NNUE'' konvensional yang menggunakan carian αβ dan ``jenis DL'' yang menggunakan pembelajaran mendalam sepenuhnya. Dan oleh kerana kod sumber kedua-dua pemain wakil, King Yaneura dan dlshogi, telah didedahkan kepada umum, terdapat kemungkinan besar bahawa AI shogi terkuat di dunia akan dicipta dengan membuat satu penambahbaikan. Jadi, apa yang boleh diperbaiki dari sini? Itulah lima berikut.

●Fungsi penilaian yang dipertingkatkan

Oleh kerana jenis NNUE semasa menggunakan CPU untuk melakukan pengiraan, terdapat pertukaran antara ketepatan fungsi penilaian dan bilangan senario yang boleh dicari, menjadikannya amat sukar untuk dilaraskan. Walau bagaimanapun, pengiraan GPU dikatakan tidak serasi dengan carian αβ. Sebaliknya, diketahui bahawa ResNet, fungsi penilaian yang digunakan dalam banyak jenis DL, menjadi lebih kuat apabila mekanisme perhatian pengubah yang digunakan dalam model bahasa seperti ChatGPT diperkenalkan, dan pengetahuan dari bidang pembelajaran mesin boleh digunakan. Itulah yang mereka katakan.

●Pelarasan data guru

Shogi AI jenis NNUE mencari lebih daripada 100 juta kedudukan sesaat pada mesin spesifikasi kejohanan, tetapi ketepatan penilaian kedudukan tidak begitu tinggi, jadi ia dikatakan lebih kuat di peringkat akhir berbanding di peringkat awal. Oleh itu, apabila mempelajari shogi AI jenis NNUE, nampaknya terdapat kecenderungan untuk lebih baik menumpukan perhatian pada peringkat awal. Sebaliknya, terdapat juga idea bahawa sejak peringkat awal, sehingga kira-kira langkah ke-32, sering berkembang dengan cara yang tetap (cara terbaik untuk bergerak berdasarkan penyelidikan lepas), tidak ada masalah untuk meninggalkan pembelajaran di titik itu.

Selain itu, memandangkan benteng hayun tidak dianggap sebagai taktik yang berkesan dalam kejohanan semasa, nampaknya ada cara untuk menghilangkannya.

●Penjanaan automatik markah tetap

Oleh kerana terdapat had untuk mengedit markah tetap secara manual, pasukan teratas cuba menjananya secara automatik. Walau bagaimanapun, untuk mencipta gerakan catur yang sangat tepat, shogi AI perlu berjalan untuk masa yang lama dalam satu permainan, jadi ini juga tidak begitu cekap. Nampaknya orang yang biasa dengan teori graf dan carian pokok permainan mungkin dapat menjana sejumlah besar denai.

●Peningkatan bahagian carian

Jenis NNUE adalah berdasarkan bahagian carian catur AI Stockfish, tetapi dengan cara yang sama, ada kemungkinan ia boleh diperkukuh dengan membawa idea carian yang telah berjaya dalam AI lain ke shogi AI ialah.

●Sumber pengkomputeran selamat

Ringkasnya, sumber pengiraan adalah komputer. Dalam beberapa tahun kebelakangan ini, semakin sukar bagi individu untuk mendapatkan komputer yang diperlukan untuk mencipta data guru, dan bilangan kes semakin meningkat apabila syarikat utama menaja komputer tersebut. Nampaknya jika anda boleh mencipta sejumlah besar data latihan, anda boleh menjadi yang terkuat di dunia.

　Shogi AI telah berkembang sejak ia dijadikan sumber terbuka oleh Yaneurao, dengan pembangun menghasilkan idea. Malah sekarang, nampaknya ada peluang untuk menjadi yang terkuat di dunia dengan hanya membuat perubahan pada salah satu daripada lima penambahbaikan yang diperkenalkan kali ini, berbanding kesemuanya.

Kandungan sesi di atas, tetapi di penghujungnya terdapat soalan daripada penonton. Persoalannya, ``Saya rasa ada cara yang pasti untuk menang dalam shogi, yang tidak mempunyai unsur tuah, tetapi adakah kita akan sampai ke tahap itu?''

Encik Sugimura mengatakan bahawa Shogi ialah "permainan maklumat sempurna dua pemain sifar jumlah terhingga pasti" , dan walaupun terdapat cara yang pasti untuk menang atau seri yang terjamin, terdapat begitu banyak pilihan sehingga sukar untuk mencapai Jawapannya adalah sukar, dan walaupun kaedah kemenangan ditentukan, tidak ada cara untuk menyimpannya sebagai data.

Atas ialah kandungan terperinci Bagaimanakah Shogi AI mengatasi pemain Shogi profesional? Dan ke mana awak pergi dari sini? [CEDEC 2024]. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!