苹果开发者网站昨天出了一个视频介绍dynamic cache_高通吧

10月11日漏签0天

高通吧关注：171,480贴子：4,116,326

29回复贴，共1页

<返回高通吧

苹果开发者网站昨天出了一个视频介绍dynamic cache

只看楼主收藏回复

这是m3和a17的最新特性，这两个的gpu演进到第九代。

送TA礼物

IP属地:江苏

1楼2023-11-11 19:36回复

用cuda领域的专有名词解释就是：在苹果gpu上寄存器，share memory，L1缓存，只读缓存这几个东西全部合并了，不再有物理区分，gpu会根据应用自动分配。

IP属地:江苏

2楼2023-11-11 19:38

同晶体管感觉没啥进步。。。a17甚至翻车了

IP属地:江苏

来自Android客户端3楼2023-11-11 19:41

收起回复

对于ampere架构来说，每个SM的寄存器大小是64K个32bit，L1缓存、shared memory、constant memory共享192KB

IP属地:江苏

4楼2023-11-11 19:45

最开始，老黄家的卡也是分的很开的，到ampere这代，只有寄存器和L1缓存两个了。
苹果更进一步，把寄存器也合并了。

IP属地:江苏

5楼2023-11-11 19:46

在ALU方面，苹果的视频说，m3和a17支持fp32 fp16 整数三种运算同时执行。
也就是说，对于优化好的程序来说，速度提升很大。

IP属地:江苏

6楼2023-11-11 19:47

收起回复

前排支持

IP属地:上海

来自Android客户端7楼2023-11-11 20:09

主要是lds动态分配吧
然后rc加了排序

IP属地:中国澳门

来自iPhone客户端8楼2023-11-11 20:47

那a17pro的gpu也是真的弱，今年的a17pro的gpu完全可以给到8核的

IP属地:福建

来自iPhone客户端9楼2023-11-11 21:53

1 ：dynamic caching跟我之前猜的差不多，但没想到更进一步直接合并线程栈/寄存器/缓存。但这样延迟会变大，厨子是想用海量warp切换来掩盖延迟，为此还做到了Execute instructions from different warps
2 ：rt core是l4的，三角与盒子求交/加速结构遍历/光线排序，结合dc一起blender渲染提升3-5倍不等。
3 ：mesh shader加速也跟之前猜测的一样，通过在这个统一缓存上flexible更大的占用与访存优化，去缓解mesh payload因为不够存lds，导致spill到内存带来的延迟。
物理fp16管线又回来了，可以跟fp32/sfu/ld/st并行跑，但需要开发者自己在shader里做数据类型适配。

IP属地:上海

来自iPhone客户端10楼2023-11-11 22:13

没有吧a17好像不支持动态融合

IP属地:福建

来自iPhone客户端11楼2023-11-11 22:19

收起回复

楼主认为本地llm达到gpt3.5水平多少参数就够了

IP属地:江苏

来自iPhone客户端12楼2023-11-12 00:15

收起回复

大佬，我用andspec mod跑x3超大核也是显示failed to set xxxx's affinity:invalid argument，该怎么解决

IP属地:河南

来自Android客户端13楼2024-03-23 01:27

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

29回复贴，共1页

<返回高通吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

苹果开发者网站昨天出了一个视频介绍dynamic cache

登录百度账号

扫二维码下载贴吧客户端