October 17, 2024

PyTorch 2.5 发布博客

我们很高兴地宣布发布 PyTorch® 2.5(release note)!此版本引入了一个新的 CuDNN 后端用于 SDPA,默认情况下为使用 H100 或更新 GPU 的 SDPA 用户提供加速。此外,torch.compile 的区域编译提供了一种减少 torch.compile 冷启动时间的方法,允许用户在不重新编译的情况下编译重复的 nn.Module(例如 LLM 中的 transformer 层)。最后,TorchInductor CPP 后端通过诸如 FP16 支持、CPP 包装器、AOT-Inductor 模式和最大自动调优模式等众多增强功能提供了显著的性能提升。

Read More

July 24, 2024

PyTorch 2.4 Release Blog

我们很高兴地宣布 PyTorch® 2.4 的发布(release note)! PyTorch 2.4 为 torch.compile 添加了对 Python(3.12)最新版本 的支持。AOTInductor freezing 通过允许序列化 MKLDNN 权重, 为运行 AOTInductor 的开发者提供了更多基于性能的优化。此外,引入了一个新的使用 libuv 的默认 TCPStore 服务器后端,能显著减少运行大规模作业时的初始化时间。 最后,新的 Python 自定义算子 API 使得将自定义内核集成到 PyTorch 中变得比以前更容易,特别是对于 torch.compile。

Read More