Khronos 发布了 Vulkan 1.4.352,这是一次小更新,最大的亮点是引入了 VK_NV_cooperative_matrix_decode_vector 扩展。该扩展由 NVIDIA 签署,允许每次调用解码多个矩阵元素,扩展了 VK_NV_cooperative_matrix2 的功能。此外,还包含了对 API 的修复和澄清。
协作矩阵的向量解码 🚀
VK_NV_cooperative_matrix_decode_vector 扩展优化了着色器中的矩阵处理。之前的扩展允许每次调用解码单个元素,而这一新版本处理完整向量,减少了所需调用次数。这有利于神经网络推理或数据压缩等工作负载,其中对数据块的访问很频繁。该实现是 NVIDIA 硬件特有的,需要最新的驱动程序支持。
NVIDIA 对解码每一个字节的执着 🔥
NVIDIA 并未停歇:如果以前一次只能解码一个元素,现在可以批量进行。很快我们会看到一个扩展,能一次性解码整个矩阵,然后另一个扩展让 GPU 在你等待时为你准备咖啡。与此同时,AMD 和 Intel 的开发人员侧目而视,思考这是魔法,还是另一种销售更多显卡的方式。