Kecerdasan Buatan, poker, dan penyesalan. Bagian 1

Kami akan mengeluarkan seri blog 3 bagian yang memberikan pengantar untuk Counterfactual Regret Minimization (CFR), yang merupakan algoritme pembelajaran penguatan yang baru-baru ini mengalahkan sejumlah pemain poker profesional. Kami akan mulai dengan pengantar untuk versi yang lebih sederhana dari algoritme, Pencocokan Penyesalan, (dengan kode) lalu di bagian selanjutnya dari seri ini, bagikan beberapa temuan dari penelitian kami sendiri dan terakhir bagikan contoh algoritme CFR yang memainkan versi poker.

Algoritma penyesalan kontrafaktual adalah model A.I yang dimainkan sendiri. Pada dasarnya dua agen AI bermain melawan satu sama lain dan mempelajari permainan dari awal. Faktanya dalam banyak kasus, ini adalah agen yang bermain melawan dirinya sendiri, jadi ia belajar dua kali lebih cepat (penting untuk dicatat bahwa meskipun ia bermain sendiri, ia sama sekali tidak cukup pintar untuk benar-benar memahami langkah terakhirnya sendiri dari posisi Lawan raja89. )

Tidak seperti banyak terobosan penting baru-baru ini dalam Riset A.I, seperti Deepmind’s AlphaGo, CFR tidak bergantung pada Neural Networks untuk menghitung probabilitas atau nilai pergerakan tertentu. Alih-alih dengan memainkan jutaan bahkan milyaran permainan, ia dapat mulai menyimpulkan jumlah total penyesalan untuk setiap tindakan yang telah diambilnya di posisi tertentu.

Yang menarik dari algoritme ini adalah saat dimainkan, algoritme ini semakin mendekati strategi optimal untuk game. Yaitu menuju Nash Equilibrium. Ini telah membuktikan dirinya di sejumlah permainan dan domain, yang paling menarik adalah Poker, khususnya Texas Hold ‘Em tanpa batas. Saat ini, ini adalah algoritme AI Poker terbaik yang kami miliki.

Pencocokan Penyesalan.
Regret matching (RM) adalah algoritma yang berusaha untuk meminimalkan penyesalan atas keputusannya pada setiap langkah/langkah permainan. Seperti namanya, itu belajar dari perilaku masa lalu untuk menginformasikan keputusan masa depan dengan mendukung tindakan yang disesalkan karena tidak dilakukan sebelumnya.

Dalam model ini, ada penyesalan positif dan penyesalan negatif. Di mana penyesalan negatif didefinisikan seperti yang Anda harapkan; penyesalan karena telah mengambil tindakan tertentu dalam situasi tertentu. Artinya agen akan melakukan lebih baik jika tidak memilih tindakan ini dalam situasi ini.

Leave a Reply Cancel reply