基本信息
更多>>
产品展示
| 产品名称: | 3D04106G05全国包邮 |
| 浏览量: | ![]() |
| 价格: | |
| 供货总量: | |
| 规格: | |
| 更新日期: | 2019年07月10日,有效期:360天 |
| 关键字: | 3D04106G05 3D04106G05 |
| 联系人: | ![]() |
| 联系电话: | ![]() |
| 即时通讯: | ![]() |
详情信息
3D04106G05
3D04106G05
3D04106G05
国际象棋较容易设计局面评价函数(以擒王为目的,不同棋子有不同的权重),变化和搜索的深度相对有限,可采用Alpha-Beta剪枝算法进行有效搜索。IBM的“深蓝”在1997年就击败了卡斯帕罗夫。
而围棋的变化总数极大,宋代沈括在梦溪笔谈中提到的算法结果为3的361次方,即“连书‘万字’四十三”(棋盘19x19,每个点都有黑子,白子,空白三种可能)。近美国普林斯顿大学的研究人员计算出精确的合法棋局总数为2.08x10的170次方,这个数值比宇宙中的基本粒子总数还要多。并且围棋很难建立明确的局面评价函数,同时局面评价函数又及其不平滑。这两点导致简单的暴力搜索在围棋上不适用。
在深度学习引入计算机围棋领域前,的结果是基于蒙特卡洛树搜索(MCTS)的UCT算法。通俗的说就是计算机进行大量的模拟对局,随机走子直到对局结束,根据胜率统计决定当前局面的选择。这样就避开了局面评价函数的建立。然而人类对局时对于当前局面的棋形是有“棋感”的,这种“棋感”很大程度上帮助棋手评估局面并判断预测重点的行棋选择,即相当于快速有效的减小了搜索空间。这种“棋感”所对应的特征选取和模式识别让人自然的联系起近年来在AI领域如日中天的深度学习技术。这次的AlphaGo实际上是整合了MCTS,深度学习和强化学习三项技术。
深度学习是在传统神经网络基础上的发展,其主要特征之一是网络层数相比传统浅层(受制于计算能力,数据量以及BP算法的梯度衰减等原因,一般为3层)神经网络增多,模型复杂度大大提高,故有更强的非线性表达能力。
深度学习的大优势之一是无监督的特征学习,传统的机器学习面临的一个大问题就是特征的人工设计和选取,深度学习则能通过大量数据学习出有效的抽象特征表达。
深度学习的出现和蓬勃发展有其内部和外部因素的推动。内因就是包括前述的网络模型(如DNN,N,SAE,RBM,DBN等)的改进,以及训练算法的改进。外部因素包括海量数据(防止过拟合,并且可以使用无标签数据)的获得和高性能计算的发展。自2006年Hinton提出深度学习的概念后尤其是2012年在Imag上获得巨大突破以来,以深度卷积神经网络为代表的深度学习以催枯拉朽之势横扫计算机视觉、语音识别、自然语言处理等领域。在互联网加大数据的时代背景下,已成为处理非结构化数据的一大利器。
强化学习(ReinforcementLearning)是一个目标驱动的连续决策过程。即学习怎样根据当前的状态决定动作,以大化所获得的回报信号。学习算法并未被告知如何执行动作,而是通过试验去发现怎样选择动作以获得大的回报,这个回报是对动作好坏的评价。通常情况下,动作不仅获得当前即时的回报,而且会影响下一个状态乃至所有后续状态的回报。
强化学习的终目的是决策过程中整体的回报函数期望大化。通过试错进行搜索以及延时的回报是强化学习的两个显著的特征。强化学习已在包括机器人控制,通信,金融,博弈等在内的众多领域获得成功应用。
回到计算机围棋上,AlphaGo通过深度卷积神经网络的训练,建立了行棋策略网络(Policwork)和价值网络(Valuwork)。训练数据集采用了十数万的人类棋谱,形成3千万的局面数据作为输入。AlphaGo通过策略网络决定行棋判断(着棋点可按分值排序),通过价值网络进行局面判断。有趣的是,AlphaGo还能通过大量的自我对弈(对弈的行棋法则是根据策略网络决定的),根据对弈结果,应用强化学习获得更新的策略网络和价值网络。这就是所谓AlphaGo通过双手互博而得到自主学习能力。根据DeepMind的CEODemiseHassabis透露,他们下一步还有一个更大胆的计划,即不需要任何人类棋谱的输入,单纯由“BetaGo”通过自我对弈和强化学习,获得更优的行棋网络模型。这是因为人类的围棋下法未必是的,利用它训练出的初始化行棋网络模型有可能陷入到局部极值。
策略网络使得AlphaGo只需针对少数有价值的可能着棋点进行蒙特卡洛树搜索,即有效的减少了蒙特卡洛树搜索的宽度。而价值网络使得蒙特卡洛树搜索时的模拟对弈在局面估值达到一定阈值后即停止,无需进行至终局。这就有效的减少了蒙特卡洛树搜索的深度。蒙特卡洛树搜索、深度学习和强化学习的有效结合使得AlphaGo获得了的成功。


