denev2004吧 关注:48贴子:2,312

【无聊发个教学贴】理论DP性能计算手册

只看楼主收藏回复

其实是因为好久没学术贴了发一个= =


1楼2012-08-16 11:40回复
    Core 2 - Nehalem 系列处理器, AMD K10
    每核均具有2个128bit的浮点处理单元 在一个Cycle内的浮点计算能力是4


    2楼2012-08-16 11:42
    回复
      Sandy Bridge架构系列
      每核均具有2个256bit的浮点处理单元 在一个Cycle内的浮点计算能力是8


      3楼2012-08-16 11:43
      回复
        Bulldozer架构系列,包括Piledriver
        每Module内具有2个128bit的浮点处理单元 该浮点处理单元支持FMA运算 在一个Cycle内的浮点计算能力是8


        4楼2012-08-16 11:44
        回复
          NI系列高端部分,VLIW4架构
          每个SM拥有16个4D,每个4D在一起只能在一个周期内进行一次DP运算,运算类型为MAD,一个Cycle内1个核心的浮点运算能力是0.5
          注:并非所有VLIW 4显卡都可按照此方式计算DP。但是SP的计算方式是一定合理的。


          8楼2012-08-16 11:53
          回复
            SI系列高端部分,GCN
            每个SM拥有4组16SP,其具体DP实现原理未知,DP/SP比为1:4,运算类型为FMA,一个Cycle内1个核心的浮点运算能力是0.5
            注:并非所有GCN显卡都可按照此方式计算DP。但是SP的计算方式是一定合理的。
            比如 Cape Verde (HD77XX) & Pitcairn (HD78XX) 的DP/SP比是1:16


            9楼2012-08-16 11:54
            回复
              Fermi系列
              每个SM中拥有32(GF110)48(GF114)个SP,每个SP均可以在一个Cycle内运行一次DP浮点运算,种类为FMA,一个Cycle内1个核心的浮点运算能力是1
              注:民用领域显卡DP/SP比已缩水至1:8,GF114/104往后缩水更加严重,但是基本架构原理相似


              11楼2012-08-16 12:00
              回复
                Kepler系列
                Kepler为独立DP运算单元,目前已知在GK104中单元数量比例为1:24,而在GK110中该比例为1:3。
                不确定其他产品是否有缩水或变化,也不确定民用版中是否会全部开启。
                GK104为192的SMX,其中DP单元数为8。GK110也为192的SMX,其中DP单元数为64
                每个DP单元1个Cycle内可执行1次DP运算,总类为FMA,计算为一个Cycle内1个DP的浮点运算能力是2


                12楼2012-08-16 12:05
                回复


                  IP属地:四川13楼2012-08-16 12:10
                  收起回复


                    IP属地:安徽16楼2013-04-24 22:57
                    回复
                      其实我想知道这个双精度到底是在算些什么...
                      32分之一......

                      然后GM210不出意外就是四分之一咯 不过反正买了也就是打个魔兽lol啥的几分之几对我而言也就是个数字罢了~~


                      IP属地:贵州18楼2014-11-28 07:07
                      回复