在 GPU 里你熟悉的 INT8 × INT8 → INT32 “乘-加+累加”单指令,其实在近几代 主流 CPU 上也早已存在,只是名字各异、颗粒度不同:有的还是传统 SIMD 指令(128/256/512 bit 向量),有的已经把矩阵乘法整合进片上“Tile” 或协处理器里。下面梳理几条主流路

阅读更多 »