高凯 今年5月以3比0的比分战胜中国棋手柯洁后,人工智能Al phaGo宣布“退役”,但DeepMi nd公司并没有停下研究的脚步。伦敦当地时间18日,DeepMi nd团队公布了最新版Al phaGo,代号AlphaGo Zer o。它的独门秘籍是“自学成才”,从零基础学起,在短短3天内,成为顶级高手。团队称,Al phaGo Zer o的水平已经超过之前所有版本的Al phaGo。在对阵曾赢下韩国棋手李世石那版AlphaGo时,Al phaGo Zer o取得了100比0的压倒性战绩。DeepMi nd团队将关于Al phaGo Zer o的相关研究以论文的形式,刊发在了18日的《自然》杂志上。 只用4个TPU彻底实现“自学成才” Al phaGo此前的版本,结合了数百万人类围棋专家的棋谱进行自我训练。在战胜人类围棋职业高手之前,它经过了好几个月的训练,依靠的是多台机器和48个TPU(专为加速深层神经网络运算能力而研发的芯片)。 Al phaGo Zer o则在这个基础上有了质的提升。最大的区别是,它不再需要人类数据,一开始就没有接触过人类棋谱。研发团队只是让它自由地下棋,然后进行自我博弈。值得一提的是,Al pha-Go Zer o只用了一台机器和4个TPU。 经过几天的训练,Al phaGo Zer o完成了近5百万盘的自我博弈后,已经可以超越人类。“它不再受到人类知识的限制,可以向围棋领域里最高的选手——AlphaGo自身学习”,Al phaGo团队负责人大卫·席尔瓦说,Al phaGo Zer o使用新的强化学习方法,让自己变成了老师。系统一开始甚至并不知道什么是围棋,只是从单一神经网络开始,通过神经网络强大的搜索算法,进行了自我对弈。随着自我博弈的增加,神经网络逐渐调整,提升预测下一步的能力,最终赢得比赛。更为厉害的是,随着训练的深入,DeepMi nd团队发现,Al phaGo Zer o还独立发现了游戏规则,并走出了新策略,为围棋这项古老游戏带来了新的见解。 两个神经网络合一完爆所有旧版本 除了上述的区别之外,Al phaGo Zer o还在3个方面与此前版本有明显差别。首先,它仅用棋盘上的黑白子作为输入,而前代则包括了小部分人工设计的特征输入。其次,它仅用了单一的神经网络,在此前的版本中,Al phaGo用到了“策略网络”来选择下一步棋的走法,以及使用“价值网络”来预测每一步棋后的赢家,而在新版本中,这两个神经网络合二为一,让它能得到更高效的训练和评估。第三,它并不使用快速、随机的走子方法,此前的Al phaGo用的是快速走子方法,新版本依靠的是其高质量的神经网络。 这些不同帮助新版AlphaGo有了新的提升,经过短短3天的自我训练,Al phaGo Zer o就强势打败了此前战胜李世石的旧版Al phaGo,战绩是100:0的。经过40天的自我训练,Al phaGo Zer o又打败了Al phaGo Mast er版本,也就是曾击败过所有世界顶尖围棋选手的那个版本。