标签: "AlphaGo"

Checkout the latest articles.

AlphaGo核心技术之二,深度学习简单介绍

上一篇传送门:AlphaGo核心技术之一,蒙特卡洛树搜索

科普

深度学习
深度学习指多层的人工神经网络及其学习方法。与普通的人工神经网络不同的是,深度学习模拟人脑进行分析、学习的能力更强。一般来讲,神经网络把一大批矩阵数字作文输入,然后通过非线性激活函数(如Sigmoid())来取权重,再产生一个集合作为输出。人类的生物大脑有类似的工作机理,外部的信号经过初步处理后,交给多层的神经组织形成的神经网络处理,不同的是你的大脑里没有任何中间的矩阵数字。

最早的神经网络算法Back Propagation在上世纪80年代就有了,之所以机器学习到现在才开始流行,是因为人工神经网络的训练需要海量的数据,Google写的卷积神经网络(Convolutional Neural Networks)在没有外界指令的自发条件下,通过1.6万块CPU,看了YouTube上1000万段视频,才有了“猫”这个概念。如今倡导大数据的时代,机器学习算法自然有足够的数据去学习,也就导致了其蓬勃发展。

AlphaGo核心技术之一,蒙特卡洛树搜索

首先, AlphaGo和李世石之间的对决是不公平的,AlphaGo的逻辑模块只能用于下围棋,相当于李世石用他的人类大脑挑战一个专门训练成只能用于下围棋的大脑。去年10月在英国挑战樊麾的时候AlphaGo的核心数是1200个CPU和170个GPU,而挑战李世石的时候AlphaGo用了1920个CPU。围棋界有个Elo的参数用来评价围棋手,李世石Elo为3532,去年10月的AlphaGo的Elo值为3168,值得注意的是中国棋手柯洁的Elo为3634。

AlphaGo总体来讲用了Google DeepMind的Policy Network 和 Value Network指引Monte Carlo算法,相当于用深度学习的技术来引导一个高明的搜索。(其实还有一个Fast Rollout用来快速走子,感谢@dlfall的提醒,总体来说是四个部分:决策网络、价值网络、快速走子和蒙特卡洛树搜索)