围棋吧 关注:349,170贴子:10,505,902

详细说说0狗对弈文件的说明

只看楼主收藏回复

终于看大概了解:0狗有2个版本,20block和40block。
(block 应该指 resitual blocks,卷积的残差块。 似乎与卷积层有关,训练时间越长,块越多,即之前DeepMind提到的40层神经网络。@amiok9)
详细说说几个sgf文件夹的说明(非常重要)
【Extended Data Figure 1 - AlphaGo Zero 20 block vs AlphaGo Lee
这是20 block训练3天对李世石版本的对弈
【Extended Data Figure 4 - AlphaGo Zero 20 block self-play games】
这是20 block在3天内的自学历程
【Extended Data Figure 5 - AlphaGo Zero 40 block self-play games】
这是40 block在40天内的自学历程
【Extended Data Figure 6 - AlphaGo Zero 40 block vs AlphaGo Master】
这是40 block训练40天对master版本的对弈
【Figure 5 - AlphaGo Zero Timeline】
阶段示例(但是不清楚是20 block还是40 block的 望补充)
以上来自弈客以及贴吧整理。。如有错误,大家补充


IP属地:广东1楼2017-10-19 16:30回复
    那个图是40 block的


    IP属地:北京2楼2017-10-19 16:32
    回复
      这些专业的术语。。。
      论文出来了,就看谁先掌握了


      3楼2017-10-19 16:45
      回复
        非常不好意思,楼主的这些说明有人说是完全错误的,说20 block就是训练了20天版本。。大家讨论吧。。我也就是整理而已
        其实一开始我也以为是20天和40天。。后来弈客和贴吧都不是这样说 ...


        IP属地:广东4楼2017-10-19 16:56
        收起回复
          肯定不是训练20天的


          IP属地:天津来自Android客户端5楼2017-10-19 17:07
          回复
            Block是块的意思,就是说的网络结构,应该没毛病


            IP属地:浙江来自手机贴吧7楼2017-10-19 21:01
            收起回复
              啊我刚刚也注意到了,为了不误人子弟顶你上去


              IP属地:浙江8楼2017-10-19 21:39
              回复
                还有一个容易误解的地方是训练量,
                知乎上的答案:
                20 block一共是3天,四百九十万。
                40 block 40天 两千九百万。


                IP属地:广东9楼2017-10-20 00:08
                回复
                  还有一个今天才知道的信息
                  alphago训练采用的围棋规则 --- Tromp-Taylor规则
                  1,围棋在19x19的棋盘上进行,对战者称为黑方和白方;
                  2,每个交叉点为黑,白,空三种颜色;
                  3,称某颜色不为C的点P为“到达C”,若存在一条由全是P点颜色的相邻点(水平或竖直)构成的从P到某颜色为C的点的路径;(就是说从P可以一直不变色地走到一个颜色为C的点)
                  4,将所有不能“到达空”的某种颜色的点染为空,叫做“清除”那种颜色;
                  5,从空白棋盘开始,双方轮替“下”,黑方起始;
                  6,“下”要么是什么也不走,要么是使得全局不和以往重复的一次“落子”;
                  7,“落子”由如下步骤组成:首先将一个空点染为己方颜色,然后“清除”对方颜色,再然后“清除”己方颜色;
                  8,当出现两次连续的“不走”时,棋局结束;
                  9,某一方的点数等于此方颜色的点数加上只“到达”这一颜色的空色点数;
                  10,点数高的一方获胜。双方点数相等为平局。
                  这一规则由John Tromp和Bill Taylor创制,也被称为围棋的逻辑规则,试图尽量简化规则,并消除歧义。
                  恰好是来自二楼的@29077017990669


                  IP属地:广东来自iPhone客户端10楼2017-10-20 05:27
                  收起回复
                    看20block,和40block前几局都是乱下的,我认为是训练的历程,越到后面的棋局训练时间越长


                    IP属地:江西来自Android客户端11楼2017-10-20 08:51
                    回复
                      这个围棋逻辑超棒


                      IP属地:山东来自Android客户端12楼2017-10-20 09:07
                      回复
                        这也是值得讨论的信息
                        4个TPU是狗狗下棋的配置,训练的时候可能用了其他机器,不知道多少个TPU 应该不是4个tpu 3天就训练了490W AQ作者说要达到40天40block 2900W训练量 如果1张1080卡要1400多年。里拉作者说要达到20block 3天490多W训练量1张GPU要7年时间 。这样看一般AI要达到zero水平难度相当大


                        IP属地:广东来自iPhone客户端13楼2017-10-20 13:18
                        收起回复
                          这个规则好玩


                          IP属地:四川来自iPhone客户端14楼2017-10-20 19:00
                          回复
                            1. 20-block與40-block是不同版本的AlphaGo Zero。
                            2. 20-block是40層神經網路的版本,從零開始總共訓練3天,至終對戰分布式版的v18,達到100%勝率。
                            3. 40-block是80層神經網路的版本,從零開始總共訓練40天,至終對戰Master,達到90%勝率。
                            --Aja Huang


                            IP属地:广东15楼2017-10-20 21:18
                            收起回复
                              0狗原来最先是你创意的,不服不行。我从零狗开发到0狗还是落了后手。


                              IP属地:广东来自手机贴吧16楼2017-10-20 22:15
                              回复