源自2024年CCF大模型论坛清华大学教授汪玉老师的报告。
算法模型设计和剪枝可以降低工作负载,降低总计算量、存储量; 量化使得在单位面积内能够存放更多的算力,提升资源利用率。
根据量化敏感性为各层分配不同的量化位宽。
负载小的算子切的细一点,提高并行度。 负载大的算子使用double buffer,重叠访存。
团队成就