使用 gem5 模拟 MI300X,立省 10 万块?

前段时间社区的雾佬发了一篇 使用 gem5 模拟 MI300X 的知乎 1 ,正好我最近在验证 AMDGPU 的浮点运算精度,就想着对比一下 gem5 MI300X 的 model 浮点精度和真实硬件有没有什么差异。 这里推荐使用服务器或者工作站来运行 gem5,个人电脑资源可能不太够用。 主要参考雾佬的文章,以及官方提供的文档 Full System AM

2025-07-28 · 3 min · zevorn

浅析适用于 LLM 的 AI FPU 硬件的虚拟原型平台的浮点精度

本文首发于微信公众号: GTOC 业界经常使用量化的手段来提高大模型的训练和推理效率和节省成本,因此衍生了很多浮点精度和格式,比如 TF32、BF16、FP8、FP4 等。 在 AI 芯片的虚拟原型平台开发中,对于各类 FPU 硬件的 model 建模,一般采用软浮点的方式来模拟,常使用 C/C++ 来实现,在保证准确性的同时,性能也不会太差。 常见的模拟器

2025-07-16 · 9 min · zevorn