人生箴言
随机文章
- 让一追二逆转马来西亚!《DOTA2》亚运会中国队晋级决赛 !
- 女子被住建局保安踩在脚下 警方通报:涉事3人被刑拘 !
- 前国脚宋黎辉回应开网约车:临时提司机顶班,本职工作还是足球教练 !
- 刘德华代言!华为Mate 60 RS非凡大师上架:11999元起 !
- 业主“打包”买走小区近200个车位:其他业主要买需18万 !
- 为什么觉得假期越休息越累?“假期综合征”在作祟 !
- iPhone 15被投诉发热严重 苹果承认将软件修复:有人竟被烫伤 你怎么看?
- 蜂花回应聘用残障人士包装香皂:有助于他们康复训练,他们也能够通过自己的劳动获得收益 !
- 敞篷还带“飞飞门” 名爵Cyberster纯电跑车官宣!9月26日开启预售 !
- 价格没优势 HDD还有存在必要吗?2023硬盘实测故障率:SSD比机械硬盘更可靠 !
5月9日消息,近日,国产GPU厂商摩尔线程正式发布Torch-MUSA v2.0.0版本,这是其面向PyTorch深度学习框架的MUSA扩展库的重要升级。
在Torch-MUSA中,用户只需指定torch.device("musa"),即可将现有的PyTorch模型迁移到MUSA架构的GPU上运行,无需大幅修改代码,目前Torch-MUSA已完全开源,可通过GitHub获取源代码。
作为本次升级的核心亮点,Torch-MUSA v2.0.0率先在国产GPU上实现了对FP8数据类型的完整支持。
FP8是当前AI计算的一种低精度格式,在支持原生FP8的GPU上,大语言模型训练采用FP8混合精度可大幅提高GPU算力,降低显存占用。
摩尔线程基于新一代MUSA Compute Capability 3.1计算架构的全功能GPU原生支持FP8计算,为Torch-MUSA v2.0.0实现FP8矩阵乘法和分布式通信优化提供了基础。
依托这一底层架构优势,Torch-MUSA v2.0.0能够充分发挥FP8的计算效能,显著提升大语言模型训练和推理的效率。
Torch-MUSA v2.0.0在MUSA计算平台引入多项创新功能,进一步提升深度学习任务的执行效率,主要包括:
1、新增虚拟内存管理支持:
MUSA虚拟内存管理技术能够有效缓解GPU内存碎片化问题,降低模型训练过程中的峰值内存占用,特别适用于FSDP、DeepSpeed和Megatron-LM等主流大模型训练框架。
2、新增MUSA Graph支持:
MUSA Graph技术将多个MUSA内核整合到一个图中,通过单次CPU调度大幅减少启动开销,提升计算效率,同时与CUDA Graph接口高效兼容。
3、torch.compile增加Triton后端支持:
为torch.compile提供了Triton-MUSA后端支持,开发者可以直接使用PyTorch原生接口,获得更高效的性能表现。
不仅如此,Torch-MUSA v2.0.0在完整支持PyTorch 2.2.0的基础上,还新增了对PyTorch 2.5.0的支持,使开发者能够在基于MUSA Compute Capability 3.1计算架构的全功能GPU上,无缝运行新版本的PyTorch。
未来Torch-MUSA还将继续跟进PyTorch的版本更新,计划支持更高版本的PyTorch。