【图片】详细说说0狗对弈文件的说明【围棋吧】

围棋吧关注：349,170贴子：10,505,902

1 2 3 下一页尾页
133回复贴，共3页
，跳到页

详细说说0狗对弈文件的说明

终于看大概了解：0狗有2个版本，20block和40block。
（block 应该指 resitual blocks，卷积的残差块。似乎与卷积层有关，训练时间越长，块越多，即之前DeepMind提到的40层神经网络。@amiok9）
详细说说几个sgf文件夹的说明（非常重要）
【Extended Data Figure 1 - AlphaGo Zero 20 block vs AlphaGo Lee
这是20 block训练3天对李世石版本的对弈
【Extended Data Figure 4 - AlphaGo Zero 20 block self-play games】
这是20 block在3天内的自学历程
【Extended Data Figure 5 - AlphaGo Zero 40 block self-play games】
这是40 block在40天内的自学历程
【Extended Data Figure 6 - AlphaGo Zero 40 block vs AlphaGo Master】
这是40 block训练40天对master版本的对弈
【Figure 5 - AlphaGo Zero Timeline】
阶段示例（但是不清楚是20 block还是40 block的望补充）
以上来自弈客以及贴吧整理。。如有错误，大家补充

送TA礼物

IP属地:广东

1楼2017-10-19 16:30回复

那个图是40 block的

IP属地:北京

2楼2017-10-19 16:32

这些专业的术语。。。
论文出来了，就看谁先掌握了

3楼2017-10-19 16:45

非常不好意思，楼主的这些说明有人说是完全错误的，说20 block就是训练了20天版本。。大家讨论吧。。我也就是整理而已

其实一开始我也以为是20天和40天。。后来弈客和贴吧都不是这样说 ...

IP属地:广东

4楼2017-10-19 16:56

收起回复

肯定不是训练20天的

IP属地:天津

来自Android客户端5楼2017-10-19 17:07

Block是块的意思，就是说的网络结构，应该没毛病

IP属地:浙江

来自手机贴吧7楼2017-10-19 21:01

收起回复

啊我刚刚也注意到了，为了不误人子弟顶你上去

IP属地:浙江

8楼2017-10-19 21:39

还有一个容易误解的地方是训练量，
知乎上的答案：
20 block一共是3天，四百九十万。
40 block 40天两千九百万。

IP属地:广东

9楼2017-10-20 00:08

还有一个今天才知道的信息
alphago训练采用的围棋规则 --- Tromp-Taylor规则
1，围棋在19x19的棋盘上进行，对战者称为黑方和白方；
2，每个交叉点为黑，白，空三种颜色；
3，称某颜色不为C的点P为“到达C”，若存在一条由全是P点颜色的相邻点（水平或竖直）构成的从P到某颜色为C的点的路径；（就是说从P可以一直不变色地走到一个颜色为C的点）
4，将所有不能“到达空”的某种颜色的点染为空，叫做“清除”那种颜色；
5，从空白棋盘开始，双方轮替“下”，黑方起始；
6，“下”要么是什么也不走，要么是使得全局不和以往重复的一次“落子”；
7，“落子”由如下步骤组成：首先将一个空点染为己方颜色，然后“清除”对方颜色，再然后“清除”己方颜色；
8，当出现两次连续的“不走”时，棋局结束；
9，某一方的点数等于此方颜色的点数加上只“到达”这一颜色的空色点数；
10，点数高的一方获胜。双方点数相等为平局。
这一规则由John Tromp和Bill Taylor创制，也被称为围棋的逻辑规则，试图尽量简化规则，并消除歧义。
恰好是来自二楼的@29077017990669

IP属地:广东

来自iPhone客户端10楼2017-10-20 05:27

收起回复

看20block，和40block前几局都是乱下的，我认为是训练的历程，越到后面的棋局训练时间越长

IP属地:江西

来自Android客户端11楼2017-10-20 08:51

这个围棋逻辑超棒

IP属地:山东

来自Android客户端12楼2017-10-20 09:07

这也是值得讨论的信息
4个TPU是狗狗下棋的配置，训练的时候可能用了其他机器，不知道多少个TPU 应该不是4个tpu 3天就训练了490W AQ作者说要达到40天40block 2900W训练量如果1张1080卡要1400多年。里拉作者说要达到20block 3天490多W训练量1张GPU要7年时间。这样看一般AI要达到zero水平难度相当大

IP属地:广东

来自iPhone客户端13楼2017-10-20 13:18

收起回复

这个规则好玩

IP属地:四川

来自iPhone客户端14楼2017-10-20 19:00

1. 20-block與40-block是不同版本的AlphaGo Zero。
2. 20-block是40層神經網路的版本，從零開始總共訓練3天，至終對戰分布式版的v18，達到100%勝率。
3. 40-block是80層神經網路的版本，從零開始總共訓練40天，至終對戰Master，達到90%勝率。
--Aja Huang

IP属地:广东

15楼2017-10-20 21:18

收起回复

0狗原来最先是你创意的，不服不行。我从零狗开发到0狗还是落了后手。

IP属地:广东

来自手机贴吧16楼2017-10-20 22:15

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

1 2 3 下一页尾页
133回复贴，共3页
，跳到页

<返回围棋吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

详细说说0狗对弈文件的说明

登录百度账号

扫二维码下载贴吧客户端