Posted onApril 7, 2018 in 算法
Google Code Jam (GCJ) 2018
目前过了Practice Session 和 Qualification Round
目前过了Practice Session 和 Qualification Round
断断续续写了一个月的Project Israfil,是时候分享一些我用的音乐平台API了。
上一篇传送门:AlphaGo核心技术之一,蒙特卡洛树搜索
最早的神经网络算法Back Propagation在上世纪80年代就有了,之所以机器学习到现在才开始流行,是因为人工神经网络的训练需要海量的数据,Google写的卷积神经网络(Convolutional Neural Networks)在没有外界指令的自发条件下,通过1.6万块CPU,看了YouTube上1000万段视频,才有了“猫”这个概念。如今倡导大数据的时代,机器学习算法自然有足够的数据去学习,也就导致了其蓬勃发展。
首先, AlphaGo和李世石之间的对决是不公平的,AlphaGo的逻辑模块只能用于下围棋,相当于李世石用他的人类大脑挑战一个专门训练成只能用于下围棋的大脑。去年10月在英国挑战樊麾的时候AlphaGo的核心数是1200个CPU和170个GPU,而挑战李世石的时候AlphaGo用了1920个CPU。围棋界有个Elo的参数用来评价围棋手,李世石Elo为3532,去年10月的AlphaGo的Elo值为3168,值得注意的是中国棋手柯洁的Elo为3634。
AlphaGo总体来讲用了Google DeepMind的Policy Network 和 Value Network指引Monte Carlo算法,相当于用深度学习的技术来引导一个高明的搜索。(其实还有一个Fast Rollout用来快速走子,感谢@dlfall的提醒,总体来说是四个部分:决策网络、价值网络、快速走子和蒙特卡洛树搜索)