1 :dynamic caching跟我之前猜的差不多,但没想到更进一步直接合并线程栈/寄存器/缓存。但这样延迟会变大,厨子是想用海量warp切换来掩盖延迟,为此还做到了Execute instructions from different warps
2 :rt core是l4的,三角与盒子求交/加速结构遍历/光线排序,结合dc一起blender渲染提升3-5倍不等。
3 :mesh shader加速也跟之前猜测的一样,通过在这个统一缓存上flexible更大的占用与访存优化,去缓解mesh payload因为不够存lds,导致spill到内存带来的延迟。
物理fp16管线又回来了,可以跟fp32/sfu/ld/st并行跑,但需要开发者自己在shader里做数据类型适配。