【图片】谷歌的阿尔法狗论文（有翻译）【三体吧】

转自围棋吧

送TA礼物

IP属地:浙江

1楼2017-11-12 19:11回复

人工智能长期以来的一个目标是创造一个能够在具有挑战性的领域，以超越人类的精通程度学习的算法，“tabula rasa”（译注：一种认知论观念，认为指个体在没有先天精神内容的情况下诞生，所有的知识都来自于后天的经验或感知）。此前，AlphaGo成为首个在围棋中战胜人类世界冠军的系统。AlphaGo的那些神经网络使用人类专家下棋的数据进行监督学习训练，同时也通过自我对弈进行强化学习。
　　在这里，我们介绍一种仅基于强化学习的算法，不使用人类的数据、指导或规则以外的领域知识。AlphaGo成了自己的老师。我们训练了一个神经网络来预测AlphaGo自己的落子选择和AlphaGo自我对弈的赢家。这种神经网络提高了树搜索的强度，使落子质量更高，自我对弈迭代更强。从“tabula rasa”开始，我们的新系统AlphaGo Zero实现了超人的表现，以100：0的成绩击败了此前发表的AlphaGo。

IP属地:浙江

2楼2017-11-12 19:15

收起回复

武汉三枫网络科技有限公司

三体英文名?给自己取一个好听又时尚的英文名!在线自动取名，自动生成上百个好听的英文名!通过中文名字大数据合成，点击获取有寓意的英文名!

2025-01-27 17:50广告

立即查看

DOI：10.1038/nature24270
　　全新的强化学习：自己成为自己的老师
　　DeepMind 研究人员介绍 AlphaGo Zero。视频来源：DeepMind，视频中英文字幕由Nature 上海办公室制作
　　AlphaGo Zero 得到这样的结果，是利用了一种新的强化学习方式，在这个过程中，AlphaGo Zero 成为自己的老师。这个系统从一个对围棋游戏完全没有任何知识的神经网络开始。然后，通过将这个神经网络与一种强大的搜索算法相结合，它就可以自己和自己下棋了。在它自我对弈的过程中，神经网络被调整、更新，以预测下一个落子位置以及对局的最终赢家。
　　这个更新后的神经网络又将与搜索算法重新组合，进而创建一个新的、更强大的 AlphaGo Zero 版本，再次重复这个过程。在每一次迭代中，系统的性能都得到一点儿的提高，自我对弈的质量也在提高，这就使得神经网络的预测越来越准确，得到更加强大的 AlphaGo Zero 版本。

IP属地:浙江

3楼2017-11-12 19:16

这种技术比上一版本的 AlphaGo 更强大，因为它不再受限于人类知识的局限。相反，它可以从一张白纸的状态开始，从世界上最强大的围棋玩家——AlphaGo 自身——学习。
　　AlphaGo Zero 在其他方面也与之前的版本有所不同：
　　AlphaGo Zero 只使用围棋棋盘上的黑子和白子作为输入，而上一版本的 AlphaGo 的输入包含了少量人工设计的特征。
　　它只使用一个神经网络，而不是两个。以前版本的 AlphaGo 使用一个“策略网络”（policy network）来选择下一个落子位置和一个“价值网络”（value network）来预测游戏的赢家。这些在 AlphaGo Zero 中是联合进行的，这使得它能够更有效地进行训练和评估。
　　AlphaGo Zero 不使用“走子演算”（rollout）——这是其他围棋程序使用的快速、随机游戏，用来预测哪一方将从当前的棋局中获胜。相反，它依赖于高质量的神经网络来评估落子位置。
　　上面的所有这些不同之处都有助于提高系统的性能，使其更加通用。但使得这个系统更加强大和高效的是算法的改变。
　　在进行了3天的自我训练后，AlphaGo Zero 在100局比赛中以100：0击败了上一版本的 AlphaGo——而上一版本的 AlphaGo 击败了曾18次获得围棋世界冠军的韩国九段棋士李世乭。经过 40 天的自我训练后，AlphaGo Zero 变得更加强大，超越了“Master”版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、世界第一的柯洁。

IP属地:浙江

4楼2017-11-12 19:16

在经过数以百万计的 AlphaGo vs AlphaGo 的对弈后，这个系统逐渐从零开始学会了下围棋，在短短几天内积累了人类数千年积累的知识。AlphaGo Zero 也发现了新的知识，开发出非常规的策略和创造性的新下法，这些新下法超越了它在与柯洁和李世乭比赛时发明的新技巧。
　　尽管目前仍处于早期阶段，但 AlphaGo Zero 成为了朝着这个目标迈进的关键一步。DeepMind 联合创始人兼 CEO Demis Has****s 评论称：“AlphaGo在短短两年里取得了如此令人惊叹的成果。现在，AlphaGo Zero是我们项目中最强大的版本，它展示了我们在更少的计算能力，而且完全不使用人类数据的情况下可以取得如此大的进展。
　　“最终，我们希望利用这样的算法突破来帮助解决现实世界的各种紧迫问题，例如蛋白质折叠或新材料设计。如果我们能在这些问题上取得与AlphaGo同样的进展，就有可能推动人类理解，并对我们的生活产生积极影响。”
　　AlphaGo Zero 技术细节拆解：将价值网络和策略网络整合为一个架构，整合蒙特卡洛搜索不断迭代
　　新方法使用了一个深度神经网络 fθ，参数为 θ。这个神经网络将原始棋盘表征 s（棋子位置和历史）作为输入，输出落子概率和一个值 (p, v)= fθ(s)。
　　落子概率向量 p 表示选择下每一步棋（包括不下）的概率。值 v 是一个标量估值，衡量当前棋手在位置 s 获胜的概率。

IP属地:浙江

5楼2017-11-12 19:17

这个神经网络将最初的 AlphaGo（下文中的 AlphaGo Fan 和 AlphaGo Lee，分别指对战樊麾和对战李世石的版本）的策略网络和价值网络整合到一个架构里，含有很多基于卷积神经网络的残差模块，这些残差模块中使用了批正则化（batch normalization）和非线性整流函数（rectifier nonlinearities）。
　

IP属地:浙江

6楼2017-11-12 19:17

AlphaGo Zero 的神经网络使用自我对弈数据做训练，这些自我对弈是在一种新的强化学习算法下完成的。在每个位置 s，神经网络 fθ 都会进行蒙特卡洛树搜索（MCTS）。MCTS 输出下每步棋的落子概率 π。这样搜索得出的概率通常比神经网络 fθ(s) 的原始落子概率 p 要更加强一些；MCTS 也因此可以被视为一个更加强大的策略提升 operator。
　　

IP属地:浙江

7楼2017-11-12 19:18

人工智能长期以来的一个目标是创造一个能够在具有挑战性的领域，以超越人类的精通程度学习的算法，“tabula rasa”（译注：一种认知论观念，认为指个体在没有先天精神内容的情况下诞生，所有的知识都来自于后天的经验或感知）。此前，AlphaGo成为首个在围棋中战胜人类世界冠军的系统。AlphaGo的那些神经网络使用人类专家下棋的数据进行监督学习训练，同时也通过自我对弈进行强化学习。
　　在这里，我们介绍一种仅基于强化学习的算法，不使用人类的数据、指导或规则以外的领域知识。AlphaGo成了自己的老师。我们训练了一个神经网络来预测AlphaGo自己的落子选择和AlphaGo自我对弈的赢家。这种神经网络提高了树搜索的强度，使落子质量更高，自我对弈迭代更强。从“tabula rasa”开始，我们的新系统AlphaGo Zero实现了超人的表现，以100：0的成绩击败了此前发表的AlphaGo。
　　DOI：10.1038/nature24270
　　全新的强化学习：自己成为自己的老师
　　DeepMind 研究人员介绍 AlphaGo Zero。视频来源：DeepMind，视频中英文字幕由Nature 上海办公室制作
　　AlphaGo Zero 得到这样的结果，是利用了一种新的强化学习方式，在这个过程中，AlphaGo Zero 成为自己的老师。这个系统从一个对围棋游戏完全没有任何知识的神经网络开始。然后，通过将这个神经网络与一种强大的搜索算法相结合，它就可以自己和自己下棋了。在它自我对弈的过程中，神经网络被调整、更新，以预测下一个落子位置以及对局的最终赢家。
　　这个更新后的神经网络又将与搜索算法重新组合，进而创建一个新的、更强大的 AlphaGo Zero 版本，再次重复这个过程。在每一次迭代中，系统的性能都得到一点儿的提高，自我对弈的质量也在提高，这就使得神经网络的预测越来越准确，得到更加强大的 AlphaGo Zero 版本。
　　这种技术比上一版本的 AlphaGo 更强大，因为它不再受限于人类知识的局限。相反，它可以从一张白纸的状态开始，从世界上最强大的围棋玩家——AlphaGo 自身——学习。
　　AlphaGo Zero 在其他方面也与之前的版本有所不同：
　　AlphaGo Zero 只使用围棋棋盘上的黑子和白子作为输入，而上一版本的 AlphaGo 的输入包含了少量人工设计的特征。
　　它只使用一个神经网络，而不是两个。以前版本的 AlphaGo 使用一个“策略网络”（policy network）来选择下一个落子位置和一个“价值网络”（value network）来预测游戏的赢家。这些在 AlphaGo Zero 中是联合进行的，这使得它能够更有效地进行训练和评估。
　　AlphaGo Zero 不使用“走子演算”（rollout）——这是其他围棋程序使用的快速、随机游戏，用来预测哪一方将从当前的棋局中获胜。相反，它依赖于高质量的神经网络来评估落子位置。
　　上面的所有这些不同之处都有助于提高系统的性能，使其更加通用。但使得这个系统更加强大和高效的是算法的改变。
　　在进行了3天的自我训练后，AlphaGo Zero 在100局比赛中以100：0击败了上一版本的 AlphaGo——而上一版本的 AlphaGo 击败了曾18次获得围棋世界冠军的韩国九段棋士李世乭。经过 40 天的自我训练后，AlphaGo Zero 变得更加强大，超越了“Master”版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、世界第一的柯洁。
　　在经过数以百万计的 AlphaGo vs AlphaGo 的对弈后，这个系统逐渐从零开始学会了下围棋，在短短几天内积累了人类数千年积累的知识。AlphaGo Zero 也发现了新的知识，开发出非常规的策略和创造性的新下法，这些新下法超越了它在与柯洁和李世乭比赛时发明的新技巧。
　　尽管目前仍处于早期阶段，但 AlphaGo Zero 成为了朝着这个目标迈进的关键一步。DeepMind 联合创始人兼 CEO Demis Hassabis 评论称：“AlphaGo在短短两年里取得了如此令人惊叹的成果。现在，AlphaGo Zero是我们项目中最强大的版本，它展示了我们在更少的计算能力，而且完全不使用人类数据的情况下可以取得如此大的进展。
　　“最终，我们希望利用这样的算法突破来帮助解决现实世界的各种紧迫问题，例如蛋白质折叠或新材料设计。如果我们能在这些问题上取得与AlphaGo同样的进展，就有可能推动人类理解，并对我们的生活产生积极影响。”
　　AlphaGo Zero 技术细节拆解：将价值网络和策略网络整合为一个架构，整合蒙特卡洛搜索不断迭代
　　新方法使用了一个深度神经网络 fθ，参数为 θ。这个神经网络将原始棋盘表征 s（棋子位置和历史）作为输入，输出落子概率和一个值 (p, v)= fθ(s)。
　　落子概率向量 p 表示选择下每一步棋（包括不下）的概率。值 v 是一个标量估值，衡量当前棋手在位置 s 获胜的概率。
　　这个神经网络将最初的 AlphaGo（下文中的 AlphaGo Fan 和 AlphaGo Lee，分别指对战樊麾和对战李世石的版本）的策略网络和价值网络整合到一个架构里，含有很多基于卷积神经网络的残差模块，这些残差模块中使用了批正则化（batch normalization）和非线性整流函数（rectifier nonlinearities）。
　　AlphaGo Zero 的神经网络使用自我对弈数据做训练，这些自我对弈是在一种新的强化学习算法下完成的。在每个位置 s，神经网络 fθ 都会进行蒙特卡洛树搜索（MCTS）。MCTS 输出下每步棋的落子概率 π。这样搜索得出的概率通常比神经网络 fθ(s) 的原始落子概率 p 要更加强一些；MCTS 也因此可以被视为一个更加强大的策略提升 operator。
　　系统通过搜索进行自我对弈，也即使用增强的基于 MCTS 的策略选择下哪步棋，然后使用获胜者 z 作为价值样本，这个过程可以被视为一个强有力的策略评估 operator。
　　这一新的强化学习算法的核心思想是，在策略迭代的过程中，反复使用这些搜索 operator：神经网络的参数不断更新，让落子概率和价值 (p,v)= fθ(s) 越来越接近改善后的搜索概率和自我对弈赢家 (π, z)。这些新的参数也被用于下一次自我对弈的迭代，让搜索更强。下面的图1 展示了自我对弈训练的流程。

IP属地:浙江

8楼2017-11-12 19:18

惠州市冠毅实业有限公司

电感轴的核心技术在于电磁感应原理的应用.Unionwell联合研发的这款"特斯拉"电感轴

2025-01-27 17:50广告

立即查看

人工智能长期以来的一个目标是创造一个能够在具有挑战性的领域，以超越人类的精通程度学习的算法，“tabula rasa”（译注：一种认知论观念，认为指个体在没有先天精神内容的情况下诞生，所有的知识都来自于后天的经验或感知）。此前，AlphaGo成为首个在围棋中战胜人类世界冠军的系统。AlphaGo的那些神经网络使用人类专家下棋的数据进行监督学习训练，同时也通过自我对弈进行强化学习。
　　在这里，我们介绍一种仅基于强化学习的算法，不使用人类的数据、指导或规则以外的领域知识。AlphaGo成了自己的老师。我们训练了一个神经网络来预测AlphaGo自己的落子选择和AlphaGo自我对弈的赢家。这种神经网络提高了树搜索的强度，使落子质量更高，自我对弈迭代更强。从“tabula rasa”开始，我们的新系统AlphaGo Zero实现了超人的表现，以100：0的成绩击败了此前发表的AlphaGo。
　　DOI：10.1038/nature24270
　　全新的强化学习：自己成为自己的老师
　　DeepMind 研究人员介绍 AlphaGo Zero。视频来源：DeepMind，视频中英文字幕由Nature 上海办公室制作
　　AlphaGo Zero 得到这样的结果，是利用了一种新的强化学习方式，在这个过程中，AlphaGo Zero 成为自己的老师。这个系统从一个对围棋游戏完全没有任何知识的神经网络开始。然后，通过将这个神经网络与一种强大的搜索算法相结合，它就可以自己和自己下棋了。在它自我对弈的过程中，神经网络被调整、更新，以预测下一个落子位置以及对局的最终赢家。
　　这个更新后的神经网络又将与搜索算法重新组合，进而创建一个新的、更强大的 AlphaGo Zero 版本，再次重复这个过程。在每一次迭代中，系统的性能都得到一点儿的提高，自我对弈的质量也在提高，这就使得神经网络的预测越来越准确，得到更加强大的 AlphaGo Zero 版本。
　　这种技术比上一版本的 AlphaGo 更强大，因为它不再受限于人类知识的局限。相反，它可以从一张白纸的状态开始，从世界上最强大的围棋玩家——AlphaGo 自身——学习。
　　AlphaGo Zero 在其他方面也与之前的版本有所不同：
　　AlphaGo Zero 只使用围棋棋盘上的黑子和白子作为输入，而上一版本的 AlphaGo 的输入包含了少量人工设计的特征。
　　它只使用一个神经网络，而不是两个。以前版本的 AlphaGo 使用一个“策略网络”（policy network）来选择下一个落子位置和一个“价值网络”（value network）来预测游戏的赢家。这些在 AlphaGo Zero 中是联合进行的，这使得它能够更有效地进行训练和评估。
　　AlphaGo Zero 不使用“走子演算”（rollout）——这是其他围棋程序使用的快速、随机游戏，用来预测哪一方将从当前的棋局中获胜。相反，它依赖于高质量的神经网络来评估落子位置。
　　上面的所有这些不同之处都有助于提高系统的性能，使其更加通用。但使得这个系统更加强大和高效的是算法的改变。
　　在进行了3天的自我训练后，AlphaGo Zero 在100局比赛中以100：0击败了上一版本的 AlphaGo——而上一版本的 AlphaGo 击败了曾18次获得围棋世界冠军的韩国九段棋士李世乭。经过 40 天的自我训练后，AlphaGo Zero 变得更加强大，超越了“Master”版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、世界第一的柯洁。
　　在经过数以百万计的 AlphaGo vs AlphaGo 的对弈后，这个系统逐渐从零开始学会了下围棋，在短短几天内积累了人类数千年积累的知识。AlphaGo Zero 也发现了新的知识，开发出非常规的策略和创造性的新下法，这些新下法超越了它在与柯洁和李世乭比赛时发明的新技巧。
　　尽管目前仍处于早期阶段，但 AlphaGo Zero 成为了朝着这个目标迈进的关键一步。DeepMind 联合创始人兼 CEO Demis Hassabis 评论称：“AlphaGo在短短两年里取得了如此令人惊叹的成果。现在，AlphaGo Zero是我们项目中最强大的版本，它展示了我们在更少的计算能力，而且完全不使用人类数据的情况下可以取得如此大的进展。
　　“最终，我们希望利用这样的算法突破来帮助解决现实世界的各种紧迫问题，例如蛋白质折叠或新材料设计。如果我们能在这些问题上取得与AlphaGo同样的进展，就有可能推动人类理解，并对我们的生活产生积极影响。”
　　AlphaGo Zero 技术细节拆解：将价值网络和策略网络整合为一个架构，整合蒙特卡洛搜索不断迭代
　　新方法使用了一个深度神经网络 fθ，参数为 θ。这个神经网络将原始棋盘表征 s（棋子位置和历史）作为输入，输出落子概率和一个值 (p, v)= fθ(s)。
　　落子概率向量 p 表示选择下每一步棋（包括不下）的概率。值 v 是一个标量估值，衡量当前棋手在位置 s 获胜的概率。
　　这个神经网络将最初的 AlphaGo（下文中的 AlphaGo Fan 和 AlphaGo Lee，分别指对战樊麾和对战李世石的版本）的策略网络和价值网络整合到一个架构里，含有很多基于卷积神经网络的残差模块，这些残差模块中使用了批正则化（batch normalization）和非线性整流函数（rectifier nonlinearities）。
　　AlphaGo Zero 的神经网络使用自我对弈数据做训练，这些自我对弈是在一种新的强化学习算法下完成的。在每个位置 s，神经网络 fθ 都会进行蒙特卡洛树搜索（MCTS）。MCTS 输出下每步棋的落子概率 π。这样搜索得出的概率通常比神经网络 fθ(s) 的原始落子概率 p 要更加强一些；MCTS 也因此可以被视为一个更加强大的策略提升 operator。
　　系统通过搜索进行自我对弈，也即使用增强的基于 MCTS 的策略选择下哪步棋，然后使用获胜者 z 作为价值样本，这个过程可以被视为一个强有力的策略评估 operator。
　　这一新的强化学习算法的核心思想是，在策略迭代的过程中，反复使用这些搜索 operator：神经网络的参数不断更新，让落子概率和价值 (p,v)= fθ(s) 越来越接近改善后的搜索概率和自我对弈赢家 (π, z)。这些新的参数也被用于下一次自我对弈的迭代，让搜索更强。下面的图1 展示了自我对弈训练的流程。

IP属地:浙江

9楼2017-11-12 19:18

人工智能长期以来的一个目标是创造一个能够在具有挑战性的领域，以超越人类的精通程度学习的算法，“tabula rasa”（译注：一种认知论观念，认为指个体在没有先天精神内容的情况下诞生，所有的知识都来自于后天的经验或感知）。此前，AlphaGo成为首个在围棋中战胜人类世界冠军的系统。AlphaGo的那些神经网络使用人类专家下棋的数据进行监督学习训练，同时也通过自我对弈进行强化学习。
　　在这里，我们介绍一种仅基于强化学习的算法，不使用人类的数据、指导或规则以外的领域知识。AlphaGo成了自己的老师。我们训练了一个神经网络来预测AlphaGo自己的落子选择和AlphaGo自我对弈的赢家。这种神经网络提高了树搜索的强度，使落子质量更高，自我对弈迭代更强。从“tabula rasa”开始，我们的新系统AlphaGo Zero实现了超人的表现，以100：0的成绩击败了此前发表的AlphaGo。
　　DOI：10.1038/nature24270
　　全新的强化学习：自己成为自己的老师
　　DeepMind 研究人员介绍 AlphaGo Zero。视频来源：DeepMind，视频中英文字幕由Nature 上海办公室制作
　　AlphaGo Zero 得到这样的结果，是利用了一种新的强化学习方式，在这个过程中，AlphaGo Zero 成为自己的老师。这个系统从一个对围棋游戏完全没有任何知识的神经网络开始。然后，通过将这个神经网络与一种强大的搜索算法相结合，它就可以自己和自己下棋了。在它自我对弈的过程中，神经网络被调整、更新，以预测下一个落子位置以及对局的最终赢家。
　　这个更新后的神经网络又将与搜索算法重新组合，进而创建一个新的、更强大的 AlphaGo Zero 版本，再次重复这个过程。在每一次迭代中，系统的性能都得到一点儿的提高，自我对弈的质量也在提高，这就使得神经网络的预测越来越准确，得到更加强大的 AlphaGo Zero 版本。
　　这种技术比上一版本的 AlphaGo 更强大，因为它不再受限于人类知识的局限。相反，它可以从一张白纸的状态开始，从世界上最强大的围棋玩家——AlphaGo 自身——学习。
　　AlphaGo Zero 在其他方面也与之前的版本有所不同：
　　AlphaGo Zero 只使用围棋棋盘上的黑子和白子作为输入，而上一版本的 AlphaGo 的输入包含了少量人工设计的特征。
　　它只使用一个神经网络，而不是两个。以前版本的 AlphaGo 使用一个“策略网络”（policy network）来选择下一个落子位置和一个“价值网络”（value network）来预测游戏的赢家。这些在 AlphaGo Zero 中是联合进行的，这使得它能够更有效地进行训练和评估。
　　AlphaGo Zero 不使用“走子演算”（rollout）——这是其他围棋程序使用的快速、随机游戏，用来预测哪一方将从当前的棋局中获胜。相反，它依赖于高质量的神经网络来评估落子位置。
　　上面的所有这些不同之处都有助于提高系统的性能，使其更加通用。但使得这个系统更加强大和高效的是算法的改变。
　　在进行了3天的自我训练后，AlphaGo Zero 在100局比赛中以100：0击败了上一版本的 AlphaGo——而上一版本的 AlphaGo 击败了曾18次获得围棋世界冠军的韩国九段棋士李世乭。经过 40 天的自我训练后，AlphaGo Zero 变得更加强大，超越了“Master”版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、世界第一的柯洁。
　　在经过数以百万计的 AlphaGo vs AlphaGo 的对弈后，这个系统逐渐从零开始学会了下围棋，在短短几天内积累了人类数千年积累的知识。AlphaGo Zero 也发现了新的知识，开发出非常规的策略和创造性的新下法，这些新下法超越了它在与柯洁和李世乭比赛时发明的新技巧。
　　尽管目前仍处于早期阶段，但 AlphaGo Zero 成为了朝着这个目标迈进的关键一步。DeepMind 联合创始人兼 CEO Demis Hassabis 评论称：“AlphaGo在短短两年里取得了如此令人惊叹的成果。现在，AlphaGo Zero是我们项目中最强大的版本，它展示了我们在更少的计算能力，而且完全不使用人类数据的情况下可以取得如此大的进展。
　　“最终，我们希望利用这样的算法突破来帮助解决现实世界的各种紧迫问题，例如蛋白质折叠或新材料设计。如果我们能在这些问题上取得与AlphaGo同样的进展，就有可能推动人类理解，并对我们的生活产生积极影响。”
　　AlphaGo Zero 技术细节拆解：将价值网络和策略网络整合为一个架构，整合蒙特卡洛搜索不断迭代
　　新方法使用了一个深度神经网络 fθ，参数为 θ。这个神经网络将原始棋盘表征 s（棋子位置和历史）作为输入，输出落子概率和一个值 (p, v)= fθ(s)。
　　落子概率向量 p 表示选择下每一步棋（包括不下）的概率。值 v 是一个标量估值，衡量当前棋手在位置 s 获胜的概率。
　　这个神经网络将最初的 AlphaGo（下文中的 AlphaGo Fan 和 AlphaGo Lee，分别指对战樊麾和对战李世石的版本）的策略网络和价值网络整合到一个架构里，含有很多基于卷积神经网络的残差模块，这些残差模块中使用了批正则化（batch normalization）和非线性整流函数（rectifier nonlinearities）。
　　AlphaGo Zero 的神经网络使用自我对弈数据做训练，这些自我对弈是在一种新的强化学习算法下完成的。在每个位置 s，神经网络 fθ 都会进行蒙特卡洛树搜索（MCTS）。MCTS 输出下每步棋的落子概率 π。这样搜索得出的概率通常比神经网络 fθ(s) 的原始落子概率 p 要更加强一些；MCTS 也因此可以被视为一个更加强大的策略提升 operator。
　　系统通过搜索进行自我对弈，也即使用增强的基于 MCTS 的策略选择下哪步棋，然后使用获胜者 z 作为价值样本，这个过程可以被视为一个强有力的策略评估 operator。
　　这一新的强化学习算法的核心思想是，在策略迭代的过程中，反复使用这些搜索 operator：神经网络的参数不断更新，让落子概率和价值 (p,v)= fθ(s) 越来越接近改善后的搜索概率和自我对弈赢家 (π, z)。这些新的参数也被用于下一次自我对弈的迭代，让搜索更强。下面的图1 展示了自我对弈训练的流程。

IP属地:浙江

10楼2017-11-12 19:18

系统通过搜索进行自我对弈，也即使用增强的基于 MCTS 的策略选择下哪步棋，然后使用获胜者 z 作为价值样本，这个过程可以被视为一个强有力的策略评估 operator。
　

IP属地:浙江

11楼2017-11-12 19:18

系统通过搜索进行自我对弈，也即使用增强的基于 MCTS 的策略选择下哪步棋，然后使用获胜者 z 作为价值样本，这个过程可以被视为一个强有力的策略评估 operator。
　　这一新的强化学习算法的核心思想是，在策略迭代的过程中，反复使用这些搜索 operator：神经网络的参数不断更新，让落子概率和价值 (p,v)= fθ(s) 越来越接近改善后的搜索概率和自我对弈赢家 (π, z)。这些新的参数也被用于下一次自我对弈的迭代，让搜索更强。下面的图1 展示了自我对弈训练的流程。

IP属地:浙江

12楼2017-11-12 19:20

IP属地:浙江

13楼2017-11-12 19:20

AlphaGo Zero 的神经网络使用自我对弈数据做训练，这些自我对弈是在一种新的强化学习算法下完成的。在每个位置 s，神经网络 fθ 都会进行蒙特卡洛树搜索（MCTS）。MCTS 输出下每步棋的落子概率 π。这样搜索得出的概率通常比神经网络 fθ(s) 的原始落子概率 p 要更加强一些；MCTS 也因此可以被视为一个更加强大的策略提升 operator。
　　系统通过搜索进行自我对弈，也即使用增强的基于 MCTS 的策略选择下哪步棋，然后使用获胜者 z 作为价值样本，这个过程可以被视为一个强有力的策略评估 operator。
　　这一新的强化学习算法的核心思想是，在策略迭代的过程中，反复使用这些搜索 operator：神经网络的参数不断更新，让落子概率和价值 (p,v)= fθ(s) 越来越接近改善后的搜索概率和自我对弈赢家 (π, z)。这些新的参数也被用于下一次自我对弈的迭代，让搜索更强。下面的图1 展示了自我对弈训练的流程。

IP属地:浙江

14楼2017-11-12 19:20

深圳市铭顺信电子有限公司

铭顺信专业生产各类按钮开关继电器，集成电流继电器，品质优良，高新企业值得您的选择~

2025-01-27 17:50广告

立即查看

这个神经网络将最初的 AlphaGo（下文中的 AlphaGo Fan 和 AlphaGo Lee，分别指对战樊麾和对战李世石的版本）的策略网络和价值网络整合到一个架构里，含有很多基于卷积神经网络的残差模块，这些残差模块中使用了批正则化（batch normalization）和非线性整流函数（rectifier nonlinearities）。
　　AlphaGo Zero 的神经网络使用自我对弈数据做训练，这些自我对弈是在一种新的强化学习算法下完成的。在每个位置 s，神经网络 fθ 都会进行蒙特卡洛树搜索（MCTS）。MCTS 输出下每步棋的落子概率 π。这样搜索得出的概率通常比神经网络 fθ(s) 的原始落子概率 p 要更加强一些；MCTS 也因此可以被视为一个更加强大的策略提升 operator。
　　系统通过搜索进行自我对弈，也即使用增强的基于 MCTS 的策略选择下哪步棋，然后使用获胜者 z 作为价值样本，这个过程可以被视为一个强有力的策略评估 operator。
　　这一新的强化学习算法的核心思想是，在策略迭代的过程中，反复使用这些搜索 operator：神经网络的参数不断更新，让落子概率和价值 (p,v)= fθ(s) 越来越接近改善后的搜索概率和自我对弈赢家 (π, z)。这些新的参数也被用于下一次自我对弈的迭代，让搜索更强。下面的图1 展示了自我对弈训练的流程。

IP属地:浙江

15楼2017-11-12 19:20

日	一	二	三	四	五	六

谷歌的阿尔法狗论文（有翻译）

登录百度账号

扫二维码下载贴吧客户端