新版Al phaGo竟是“自学成才”

高凯

今年5月以3比0的比分战胜中国棋手柯洁后，人工智能Al phaGo宣布“退役”，但DeepMi nd公司并没有停下研究的脚步。伦敦当地时间18日，DeepMi nd团队公布了最新版Al phaGo，代号AlphaGo Zer o。它的独门秘籍是“自学成才”，从零基础学起，在短短3天内，成为顶级高手。团队称，Al phaGo Zer o的水平已经超过之前所有版本的Al phaGo。在对阵曾赢下韩国棋手李世石那版AlphaGo时，Al phaGo Zer o取得了100比0的压倒性战绩。DeepMi nd团队将关于Al phaGo Zer o的相关研究以论文的形式，刊发在了18日的《自然》杂志上。

只用4个TPU彻底实现“自学成才”

Al phaGo此前的版本，结合了数百万人类围棋专家的棋谱进行自我训练。在战胜人类围棋职业高手之前，它经过了好几个月的训练，依靠的是多台机器和48个TPU（专为加速深层神经网络运算能力而研发的芯片）。

Al phaGo Zer o则在这个基础上有了质的提升。最大的区别是，它不再需要人类数据，一开始就没有接触过人类棋谱。研发团队只是让它自由地下棋，然后进行自我博弈。值得一提的是，Al pha-Go Zer o只用了一台机器和4个TPU。

经过几天的训练，Al phaGo Zer o完成了近5百万盘的自我博弈后，已经可以超越人类。“它不再受到人类知识的限制，可以向围棋领域里最高的选手——AlphaGo自身学习”，Al phaGo团队负责人大卫·席尔瓦说，Al phaGo Zer o使用新的强化学习方法，让自己变成了老师。系统一开始甚至并不知道什么是围棋，只是从单一神经网络开始，通过神经网络强大的搜索算法，进行了自我对弈。随着自我博弈的增加，神经网络逐渐调整，提升预测下一步的能力，最终赢得比赛。更为厉害的是，随着训练的深入，DeepMi nd团队发现，Al phaGo Zer o还独立发现了游戏规则，并走出了新策略，为围棋这项古老游戏带来了新的见解。

两个神经网络合一完爆所有旧版本

除了上述的区别之外，Al phaGo Zer o还在3个方面与此前版本有明显差别。首先，它仅用棋盘上的黑白子作为输入，而前代则包括了小部分人工设计的特征输入。其次，它仅用了单一的神经网络，在此前的版本中，Al phaGo用到了“策略网络”来选择下一步棋的走法，以及使用“价值网络”来预测每一步棋后的赢家，而在新版本中，这两个神经网络合二为一，让它能得到更高效的训练和评估。第三，它并不使用快速、随机的走子方法，此前的Al phaGo用的是快速走子方法，新版本依靠的是其高质量的神经网络。

这些不同帮助新版AlphaGo有了新的提升，经过短短3天的自我训练，Al phaGo Zer o就强势打败了此前战胜李世石的旧版Al phaGo，战绩是100:0的。经过40天的自我训练，Al phaGo Zer o又打败了Al phaGo Mast er版本，也就是曾击败过所有世界顶尖围棋选手的那个版本。