其实比赛结束后看很多大新闻媒体光注重于报道10:1就知道 这些媒体只关注结果而不注重过程。
(国外好的不学,就把那一套理论学会了)
看过那几局比赛的玩家都知道alphastar并没有在现阶段完成他的设计初衷,也就是对决策能力的学习与体现。
在之前文章中提到的例子里alphastar把他的深度学习能力充分体现到了跳闪追+何时先知骚扰这一完全靠操作的层次.即使mana出的不朽在游戏体制里完全克制闪追star也没有转型,而是纯粹靠操作强吃(执行这一操作时它的epm达到了反人类的1000+,这也正是赛后mana说这是非人类操作的原因. 这也正是一点这篇文章里没有提到,虽然说为了限制AI在学习过程当中依赖通过apm来取胜.所以限制了apm.但是限制的是均值.而不是峰值.以文中提到的那种情况.ai依旧大幅依赖大量人类无力完成的操作来取胜.而不是ai在和tlo的对局中优先抬烧饼而不是不朽这种颠覆人类思维认知但是确实有效的不一般的决策能力..
其实整个录像+直播访谈+现场加赛看下来。
认为整个对局的意义如下:
1.证明了Deepmind团队确实一如其他google团队有着惊人的实践能力,再怎么说也在和暴雪的合作下,在大多数情况下让AI根据自己手头有的有限资源获得了判断局势的能力(即使几乎是纯闪追,也在拥有和人类几乎同样多的情报来源的情况下自己博弈,总结出了什么时候该打,该在什么地方打,用手头的这些兵该怎么打。这也是给了AlphaStar在对局中10胜的原因。)。而且经过自己独立的“思考”,有了自己的战术体系。(虽然这样的战术体系依旧极度依赖操作。但是可以想见的是,接下来google的工程师肯定会给Alphastar更多限制。而自我博弈的时间也只有短短七天,我记得那时候alphago可是博弈了半年还是一年多。)
2. 证明了星际争霸确实是个过于依赖操作的游戏。被不朽照道理可以一打3的闪追却可以依靠反人类操作强吃。以至于颠覆了既有的平衡性。感觉会对暴雪下一年的平衡型设计产生一定的思路影响。因为暴雪如果再不简化操作的话,可以想见的是在google工程师在限制峰值APM到人类峰值EPM水平之后这个AI的表现会因为现阶段决策能力的缺失(最后一盘被mana一棱镜+2不朽就把几乎所有追猎都放在家里应对,而不进一步跟mana对骚扰来巩固胜势,最后崩盘就是决策能力缺失的完美体现)而导致水平会有进一步的下滑。但是随着左右互搏的进一步深入,应该能够得到良好的改善。然后说点个人感想:
1. 如果暴雪不能将以前简化操作的一些改动实装到对战当中的话(自动矿螺,注卵,包括合作模式里面一些给指挥官的自动条追猎,自动自爆球这些很实用的改动),其实进一步让人类跟AI互打实在很不公平,也没必要。因为AI的操作远远超出了人类的操作水平。而星际争霸其实可以依靠操作上巨大的差距来翻盘,即使双方存在着巨大的决策能力差距也没啥用。(那盘几乎是纯闪追打爆不朽就证明了这点。)
2. GOogle 的工程师看到上文那种胜利方式恐怕实在不能认为Deepmind“赢了”。因为这种获胜方式背离了设计初衷:“决策能力的体现。”(虽然依托地形进行劣势翻盘战也是决策能力的一种,但是这恰恰说明了星际争霸是一个有缺陷的用来测试AI的游戏,因为AI可以通过人类无法获得的手速优势来获得不正当的优势。)
3. 那什么样的游戏适合拿来做这种测试? 个人认为以下5个因素都很重要:
(1) 最佳操作情况不能大于人类上限。这样在训练阶段就可以规避这个限制AI操作能力的问题。
(这样的现代游戏市场上几乎没有。因为欧美主流游戏都喜欢把人的反应力往死里压,无论是星际之前的开局农民数增加,还是前几年简化操作的改动取消都很好的印证了这一点。这一点几乎把所有FPS都枪毙了。因为很难定义什么叫近似人类的枪法。可能ARMA可以。)
(2) 要有很多人玩。(否则没有关注度,合作的公司也要有能力来合作完成项目的开发。)
(3) 存在的大量的决策分歧。(这一点MOBA和星际都做的不错。战争迷雾的存在其实非常有挑战。)
(4) 更新频率不能过快。(这其实违背市场规律,但是更新频率越快,AI训练时间越短,其实对工程师提出了更高的要求。)
(5) 平衡师不能瞎改。(手动斜眼)
(国外好的不学,就把那一套理论学会了)
看过那几局比赛的玩家都知道alphastar并没有在现阶段完成他的设计初衷,也就是对决策能力的学习与体现。
在之前文章中提到的例子里alphastar把他的深度学习能力充分体现到了跳闪追+何时先知骚扰这一完全靠操作的层次.即使mana出的不朽在游戏体制里完全克制闪追star也没有转型,而是纯粹靠操作强吃(执行这一操作时它的epm达到了反人类的1000+,这也正是赛后mana说这是非人类操作的原因. 这也正是一点这篇文章里没有提到,虽然说为了限制AI在学习过程当中依赖通过apm来取胜.所以限制了apm.但是限制的是均值.而不是峰值.以文中提到的那种情况.ai依旧大幅依赖大量人类无力完成的操作来取胜.而不是ai在和tlo的对局中优先抬烧饼而不是不朽这种颠覆人类思维认知但是确实有效的不一般的决策能力..
其实整个录像+直播访谈+现场加赛看下来。
认为整个对局的意义如下:
1.证明了Deepmind团队确实一如其他google团队有着惊人的实践能力,再怎么说也在和暴雪的合作下,在大多数情况下让AI根据自己手头有的有限资源获得了判断局势的能力(即使几乎是纯闪追,也在拥有和人类几乎同样多的情报来源的情况下自己博弈,总结出了什么时候该打,该在什么地方打,用手头的这些兵该怎么打。这也是给了AlphaStar在对局中10胜的原因。)。而且经过自己独立的“思考”,有了自己的战术体系。(虽然这样的战术体系依旧极度依赖操作。但是可以想见的是,接下来google的工程师肯定会给Alphastar更多限制。而自我博弈的时间也只有短短七天,我记得那时候alphago可是博弈了半年还是一年多。)
2. 证明了星际争霸确实是个过于依赖操作的游戏。被不朽照道理可以一打3的闪追却可以依靠反人类操作强吃。以至于颠覆了既有的平衡性。感觉会对暴雪下一年的平衡型设计产生一定的思路影响。因为暴雪如果再不简化操作的话,可以想见的是在google工程师在限制峰值APM到人类峰值EPM水平之后这个AI的表现会因为现阶段决策能力的缺失(最后一盘被mana一棱镜+2不朽就把几乎所有追猎都放在家里应对,而不进一步跟mana对骚扰来巩固胜势,最后崩盘就是决策能力缺失的完美体现)而导致水平会有进一步的下滑。但是随着左右互搏的进一步深入,应该能够得到良好的改善。然后说点个人感想:
1. 如果暴雪不能将以前简化操作的一些改动实装到对战当中的话(自动矿螺,注卵,包括合作模式里面一些给指挥官的自动条追猎,自动自爆球这些很实用的改动),其实进一步让人类跟AI互打实在很不公平,也没必要。因为AI的操作远远超出了人类的操作水平。而星际争霸其实可以依靠操作上巨大的差距来翻盘,即使双方存在着巨大的决策能力差距也没啥用。(那盘几乎是纯闪追打爆不朽就证明了这点。)
2. GOogle 的工程师看到上文那种胜利方式恐怕实在不能认为Deepmind“赢了”。因为这种获胜方式背离了设计初衷:“决策能力的体现。”(虽然依托地形进行劣势翻盘战也是决策能力的一种,但是这恰恰说明了星际争霸是一个有缺陷的用来测试AI的游戏,因为AI可以通过人类无法获得的手速优势来获得不正当的优势。)
3. 那什么样的游戏适合拿来做这种测试? 个人认为以下5个因素都很重要:
(1) 最佳操作情况不能大于人类上限。这样在训练阶段就可以规避这个限制AI操作能力的问题。
(这样的现代游戏市场上几乎没有。因为欧美主流游戏都喜欢把人的反应力往死里压,无论是星际之前的开局农民数增加,还是前几年简化操作的改动取消都很好的印证了这一点。这一点几乎把所有FPS都枪毙了。因为很难定义什么叫近似人类的枪法。可能ARMA可以。)
(2) 要有很多人玩。(否则没有关注度,合作的公司也要有能力来合作完成项目的开发。)
(3) 存在的大量的决策分歧。(这一点MOBA和星际都做的不错。战争迷雾的存在其实非常有挑战。)
(4) 更新频率不能过快。(这其实违背市场规律,但是更新频率越快,AI训练时间越短,其实对工程师提出了更高的要求。)
(5) 平衡师不能瞎改。(手动斜眼)