基于蒙特卡洛树搜索的通用博弈系统的构建与优化研究

被引:3
作者
梁思立 [1 ]
姜桂飞 [1 ]
陈泰劼 [2 ]
邓益超 [3 ]
战瑀璠 [4 ]
张玉志 [1 ]
机构
[1] 南开大学软件学院
[2] 香港大学工程学院
[3] 新加坡国立大学计算机学院
[4] 南开大学金融学院
基金
国家重点研发计划;
关键词
通用博弈策略; 蒙特卡洛树搜索; 算法博弈论; 多智能体系统;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
【背景】作为人工智能的主要研究领域,通用博弈策略(General Game Playing,简称GGP)旨在构建具有通用智能的博弈系统。这些系统能够基于给定的博弈规则在没有人为干涉的情况下成功地进行多个甚至是全新构造的博弈。【目的】与专门的博弈系统不同,通用博弈系统所使用的策略生成算法并不针对特定博弈,而是能够根据给定的博弈规则自动生成博弈策略的具有通用性的算法。GGP发展至今已成为检测人工智能水平,特别是通用智能发展的重要研究领域。如何构建高效的通用博弈系统是GGP研究的主要问题。【文献范围】通用博弈策略的生成算法是构建通用博弈系统的关键技术。目前所使用的主流算法是蒙特卡洛树搜索算法及其变种。这类算法在工作过程中并不依赖特定的博弈信息,因而被广泛地应用于GGP领域。然而,由博弈规则推导出来的关于博弈的专门信息,往往对建立针对这一博弈的有效决策算法具有重要的作用。【方法】为此,本文通过在蒙特卡洛树搜索算法上增加记忆结构来存储在线博弈过程中的实时信息,用记忆结构中博弈状态的相似状态来估计该状态的好坏,以提高状态评估的准确性。【结果】本文基于这一方法构建了通用博弈系统并对其性能进行了全面地评估。实验结果表明,与原始的蒙特卡洛方法相比,本文所构建的通用博弈系统在决策水平和效率上都有显著提升,特别在双人信息对称的零和回合制博弈中胜率保持在55%以上,且其性能随着博弈规模的增大而显著提升,在Connect 5、Breakthrough等大规模的游戏上有着绝对优势,即达到100%胜率。【结论】这表明本文所提出的方法通过利用博弈的专门信息能够有效地提升蒙特卡洛树搜索算法的性能。
引用
收藏
页码:66 / 77
页数:12
相关论文
共 10 条
  • [1] 通用对弈游戏:一个探索机器游戏智能的领域
    张海峰
    刘当一
    李文新
    [J]. 软件学报, 2016, 27 (11) : 2814 - 2827
  • [2] Deep Reinforcement Learning for General Game Playing[J] . Adrian Goldwaser,Michael Thielscher.Proceedings of the AAAI Conference on Artificial Intelligence . 2020 (02)
  • [3] Mastering the game of Go with deep neural networks and tree search
    Silver, David
    Huang, Aja
    Maddison, Chris J.
    Guez, Arthur
    Sifre, Laurent
    van den Driessche, George
    Schrittwieser, Julian
    Antonoglou, Ioannis
    Panneershelvam, Veda
    Lanctot, Marc
    Dieleman, Sander
    Grewe, Dominik
    Nham, John
    Kalchbrenner, Nal
    Sutskever, Ilya
    Lillicrap, Timothy
    Leach, Madeleine
    Kavukcuoglu, Koray
    Graepel, Thore
    Hassabis, Demis
    [J]. NATURE, 2016, 529 (7587) : 484 - +
  • [4] Human-level control through deep reinforcement learning
    Mnih, Volodymyr
    Kavukcuoglu, Koray
    Silver, David
    Rusu, Andrei A.
    Veness, Joel
    Bellemare, Marc G.
    Graves, Alex
    Riedmiller, Martin
    Fidjeland, Andreas K.
    Ostrovski, Georg
    Petersen, Stig
    Beattie, Charles
    Sadik, Amir
    Antonoglou, Ioannis
    King, Helen
    Kumaran, Dharshan
    Wierstra, Daan
    Legg, Shane
    Hassabis, Demis
    [J]. NATURE, 2015, 518 (7540) : 529 - 533
  • [5] The International General Game Playing Competition
    Genesereth, Michael
    Bjoernsson, Yngvi
    [J]. AI MAGAZINE, 2013, 34 (02) : 107 - 111
  • [6] A Parallel General Game Player
    Mehat, Jean
    Cazenave, Tristan
    [J]. KUNSTLICHE INTELLIGENZ, 2011, 25 (01): : 43 - 47
  • [7] General Game Playing: Overview of the AAAI Competition[J] . Michael Genesereth,Nathaniel Love,Barney Pell.AI magazine: Artificial intelligence . 2005 (2)
  • [8] Finite-time Analysis of the Multiarmed Bandit Problem
    Peter Auer
    Nicolò Cesa-Bianchi
    Paul Fischer
    [J]. Machine Learning, 2002, 47 : 235 - 256
  • [9] Strategy generation and evaluation for meta-game playing[J] . Pell Barney Darryl.University of Cambridge . 1993
  • [10] RL-GGP[CP/OL]. Benacloch-Ayuso J L. http://users.dsic.upv.es/-flip/RLGGP . 2012