大家好,今天小编关注到一个比较有意思的话题,就是关于alphago 历史战绩的问题,于是小编就整理了1个相关介绍alphago 历史战绩的解答,让我们一起看看吧。
Alpha Zero是Deepmind继AlphaGo Zero(主要针对围棋推出的算法)之后推出的终极对弈杀器,在经过短短几个小时的训练就相继征服了国际象棋,日本将棋以及中国围棋。
那么Alpha Zero为何会如此强大呢,这其中的关键就在于深度神经网络和蒙特卡洛搜索树的结合。其中深度神经网络的输入当前以及历史的棋盘布局,输出下一步的下棋位置的概率分布以及胜率。蒙特卡洛搜索树则是一种常用的搜索树,通过不断的推演棋盘之后的状态,从而下那些胜率高的位置。在蒙特卡洛搜索的过程中结合了深度神经网络对于当前棋盘的评估,使得蒙特卡洛搜索的质量更好。
整个训练过程就可以归结为两步:
1. 利用蒙特卡洛搜索树和深度神经网络的自我对弈(self-play)得到更好的下棋数据;2. 用这些数据来训练神经网络,以提高其评估的质量。反复的运行上述过程,就可以不断提高Alpha Zero的下棋水平
在这里我们可以将Alpha Zero的训练过程比作人的学习过程。人在开始学习的时候,不知道该怎么下,就可能会胡乱的下棋。但是经过几轮的下棋之后,人就会讲之前的下棋经验累积起来,慢慢的开始了解到什么时候该下哪里以及我是快输了还是赢了。此外人在下棋的过程中,总会是推演之后的下棋状态,从而下的位置更好。然后随着下的盘数增加,人的经验就回越来越丰富,下棋的水平也越来越高。这其中人脑就是深度神经网络,能够存储过去的经验,而结合神经网络的蒙特卡洛搜索就是基于当前的经验和未来的推演来得到更好的棋局,神经网络的训练过程就是总结棋局成为经验。
但是Alpha Zero为什么能在那么短时间内就能去的如此之快的进步。这就在于其中使用了大量的TPU和CPU,使得Alpha Zero能在极短的时间内就能下很多盘棋,大大加快了学习的速度。
当人类还在担心会被人工智能夺走在这个世界上的主导权的时候,人工智能已经潇洒地挥挥手,专心发展自己的世界去了,不带走一片云彩……在未来的宇宙中,人类注定只是悲催的苦力?
围棋的下法总计3的361次方,这个数字极其庞大,比整个宇宙原子总和还要多,因此利用暴力穷举法来验证所有走法的可行性显然不切实际。幸运的是人类可以巧妙的方法大大缩小这一数字,下面举两个浅例来简单说明,因为复杂的我也不敢乱说,毕竟对电脑方面不是太懂,首先我们观察棋盘,容易发现它是一个中心的对称的,也就是假设黑子第一手下在右上角星位,白子第一手下在左下角星位,实质上和第一手下在左下角星位,白子第一手下在右上角星位是一样的,只要棋盘顺时针转180度,盘面就完全一样,而在下法里,这算2种下法,这样我们就能省去接近75%的重复图形。然而仅仅减去这么多显然还想去甚远,但我们发现有些棋显然无意义或不能放,比如按照棋规,棋不能放在对方的眼位里,又或者送给别人征子的自杀棋(弃子不算),这些算起来可以排除将近99.999%的无用的计算,但这仍然不够,所以下面就要形成一些定式,即虽然我不知道所有走法的对错,但我知道某些走法一定对,那我开局就往这方面去走,一旦你走错就速败,走对了也只是均势而已,然而我们知道随着棋盘子摆的越来越多,复杂度就急剧下降,所以胜负往往在中盘就已决定了,后期电脑转用穷举法足够应对,翻盘几乎不可能。
到此,以上就是小编对于alphago 历史战绩的问题就介绍到这了,希望介绍关于alphago 历史战绩的1点解答对大家有用。
大家好,今天小编关注到一个比较有意思的话题,就是关于足球国安和辽宁的...
大家好,今天小编关注到一个比较有意思的话题,就是关于罗马后腰的问题...
大家好,今天小编关注到一个比较有意思的话题,就是关于2010曼联对拜...
大家好,今天小编关注到一个比较有意思的话题,就是关于勇士短袖球衣的问...
大家好,今天小编关注到一个比较有意思的话题,就是关于2016巴萨vs...