AlphaGo新版40天就能胜赢柯洁 AlphaGo Zero 3天走完千年棋史

类型：生活服务大小：20M语言：中文评分：10.0
标签：

10月19日消息，专注于推进人工智能（AI）研究的谷歌子公司DeepMind今天发布了一款新版本的AlphaGo程序，它能通过自学玩转多种游戏。这套系统名为“AlphaGo Zero”，它通过一种名为“强化学习”的机器学习技术，可以在与自己游戏中吸取教训。

仅三天时间，AlphaGo Zero自行掌握了围棋的下法，还发明了更好的棋步。这期间，除了被告知围棋的基本规则，它未获得人类的帮助。随着AlphaGo Zero被不断训练时，它开始在围棋游戏中学习先进的概念，并挑选出一些有利的位置和序列。

经过三天的训练，该系统能够击败AlphaGo Lee，后者是去年击败了韩国选手李世石（Lee Sedol）的DeepMind软件，胜率是100比0。。经过大约40天的训练（约2900万场自玩游戏），AlphaGo Zero击败了AlphaGo Master(今年早些时候击败了世界冠军柯洁)。

旧版AlphaGo接受的训练是，观摩由实力强大的业余或专业棋手对弈的海量棋局。但AlphaGo Zero没有获得这样的帮助。它自我对弈数百万次，并从中学习。一开始，它只是随意把棋子放在棋盘上，但后来它发现了获胜的策略，棋艺就快速提升了。

AlphaGo的首席研究员大卫·席尔瓦(David Silver)表示，“由于未引入人类棋手的数据，AlphaGo Zero远比过去的版本强大，我们去除了人类知识的限制，它能够自己创造知识。”

AlphaGo Zero通过“强化学习”这一程序来积累技能。当AlphaGo Zero走出一步好棋，它更有可能获胜。若这步棋没走好，它输棋的概率变大了。

这一程序的核心是一组连在一起形成人造神经网络的 “神经元”。对于棋局的每个回合，神经网络会观察棋子在棋盘上的位置，并推算接下来的棋步以及这些棋步让全盘获胜的概率。每次对弈后，它会更新神经网络，让棋艺更精进。虽然性能远胜于以前的版本，但AlphaGo Zero是一个更简单的程序，掌握棋法的速度更快，接受训练的数据更少，使用的电脑更小。席尔瓦表示，如果拥有更多的时间，AlphaGo Zero还能够自己学会围棋规则。

研究团队在《自然》杂志上发表的文章写道，一开始AlphaGo Zero的棋艺糟透了，后来它逐渐成为一名缺乏经验的业余棋手，最终进阶为围棋高手，能够走出极具战略性的棋步。这些进步仅花费了几天时间。最初10小时内它就发现了一个定式。随后不久它又领悟了一些棋法。三天后，AlphaGo Zero发现了人类专家正在研究的全新棋步。有趣的是，程序在发现更简单的棋步之前就早已掌握了一些复杂棋步。

这一进展标志着通用型AI发展的大一里程碑。除了下棋赢过人类，通用型AI能做更多事情。由于AlphaGo Zero能够从一无所知实现自学成才，如今其天赋可以在诸多现实问题上派上用场。

AlphaGo Zero正在研究蛋白质如何折叠的问题，这是一个艰难的科学挑战，不过有望成为药物发明的一大突破。

(丹米斯·哈撒比斯)

DeepMind的CEO丹米斯·哈撒比斯(Demis Hassabis)表示，“对我们来说，AlphaGo不仅限于在围棋对弈中获胜，这也是我们开发通用算法的一大进步。”大多数AI被认为“用途有限”，因为它们只能执行单一任务，例如，翻译、识别面孔。但通用型AI在许多不同任务上拥有超越人类的潜能。哈撒比斯认为，在接下来十年，AlphaGo的迭代产品将成为科学家和医学专家，与人类并肩工作。

此外，AlphaGo Zero比它的许多前辈都要高效得多。AlphaGo Lee需要使用几台机器和48个谷歌张量处理单元机器学习加速器芯片，该系统的早期版本AlphaGo Fan需要176个GPU。而AlphaGo Zero和AlphaGo Master一样，只需要一台机器和4个TPU。(惜辰)

新版本的AlphaGo究竟有多厉害？打败李世石的AlphaGo用了3000万盘比赛作为训练数据，AlphaGo Zero用了490万盘比赛数据。经过3天的训练，AlphaGo Zero就以100：0的比分完胜对阵李世石的那版AlphaGo。

DeepMind联合创始人兼CEO 、AlphaGo之父戴密斯·哈萨比斯（Demis Hassabis）和AlphaGo团队负责人大卫·席尔瓦（Dave Sliver）等人同时在官方博客上发表文章，详解最强版本阿尔法狗是如何炼成的，与前代有何不同。

哈萨比斯

与学习大量人类棋谱起步的前代AlphaGo不同，AlphaGo Zero是从“婴儿般的白纸”开始，通过3天数百万盘自我对弈，走完了人类千年的围棋历史，并探索出了不少横空出世的招法。

哈萨比斯等人专文：《AlphaGo Zero：从零开始》

席尔瓦在乌镇人机峰会上发言

从语音识别、图像分类到基因和药物研究，人工智能发展迅速。这些专家系统，很多是借用海量人类经验和数据开发出来的。

然而，在有些特定问题上，人类的知识要么过于昂贵，要么不靠谱，要么无法获得。因此，人工智能研究的一个长期目标就是跳过这一步，创造能在最有挑战性的领域，不用人类输入就达到超人水平的算法。我们发表在《自然》期刊上的最新论文，展示了实现该目标的关键一步。

论文介绍了首个战胜人类围棋冠军的电脑程序AlphaGo的最新进化版本：AlphaGo Zero。AlphaGo Zero更为强大，可以一争史上最强围棋手。

AlphaGo的前几代版本，一开始用上千盘人类业余和专业棋手的棋谱进行训练，学习如何下围棋。AlphaGo Zero则跳过了这个步骤，自我对弈学习下棋，完全从乱下开始。用这种方法，它很快超过了人类水平，对阵此前战胜人类冠军李世石的前代AlphaGo取得了100连胜。

AlphaGo Zero之所以能当自己的老师，是用了一种叫强化学习的新模式。系统从一个对围棋一无所知的神经网络开始，将该神经网络和一个强力搜索算法结合，自我对弈。在对弈过程中，神经网络不断调整、升级，预测每一步落子和最终的胜利者。

升级后的神经网络与搜索网络结合成一个更强的新版本AlphaGo Zero，如此往复循环。每过一轮，系统的表现就提高了一点点，自我对弈的质量也提高了一点点。神经网络越来越准确，AlphaGo Zero的版本也越来越强。

这种技术比此前所有版本的AlphaGo都更为强大。这是因为，它不再受到人类知识的限制，而能够从婴儿般的白纸状态，直接向世界上最强大的棋手——AlphaGo本身学起。

AlphaGo Zero相较前代还有几点明显的差别：

首先，AlphaGo Zero仅用棋盘上的黑白子作为输入，而前代则包括了小部分人工设计的特征输入。

其次，AlphaGo Zero仅用了单一的神经网络。在此前的版本中，AlphaGo用到了“策略网络”来选择下一步棋的走法，以及使用“价值网络”来预测每一步棋后的赢家。而在新的版本中，这两个神经网络合二为一，从而让它能得到更高效的训练和评估。

第三，AlphaGo Zero并不使用快速、随机的走子方法。在此前的版本中，AlphaGo用的是快速走子方法，来预测哪个玩家会从当前的局面中赢得比赛。相反，新版本依靠的是其高质量的神经网络来评估下棋的局势。

所有这些差异，都提高了系统的表现，使其更为普适。不过，是算法上的变化使得系统更为强大和高效。

仅仅自我对弈3天后，AlphaGo Zero就以100：0完胜了此前击败世界冠军李世石的AlphaGo版本。自我对弈40天后，AlphaGo Zero变得更为强大，超过了此前击败当今第一人柯洁的“大师”版AlphaGo。

AlphaGo新版40天就能胜赢柯洁 AlphaGo Zero 3天走完千年棋史

相关文章

相关评论

阅读本文后您有什么感想? 已有23人给出评价!

热门评论

最新评论

发表评论查看所有评论(0)

推荐文章

相关下载

最新文章

AlphaGo新版40天就能胜赢柯洁 AlphaGo Zero 3天走完千年棋史

相关文章

相关评论

阅读本文后您有什么感想? 已有23人给出评价!

热门评论

最新评论

发表评论 查看所有评论(0)

推荐文章

相关下载

最新文章

发表评论查看所有评论(0)