AI 生成优化 Metal 内核，PyTorch 推理速度提升 87%-IT新闻-PHP中文网

AI 生成优化 Metal 内核，PyTorch 推理速度提升 87%

碧海醫心

发布： 2025-09-05 18:20:12

原创

145人浏览过

ai 生成优化 metal 内核，pytorch 推理速度提升 87%

根据 Gimlet Labs 的最新研究成果，AI 已能够自动生成高度优化的 Metal 内核，使 PyTorch 的推理速度提升了87%。这项技术突破不仅显著增强了性能表现，还在测试涵盖的215个 PyTorch 模块上实现了平均1.87倍的加速效果，部分特定工作负载甚至达到了数百倍的速度提升。

研究团队选用了来自 Anthropic、DeepSeek 和 OpenAI 等领先人工智能机构的八个先进模型，利用它们为苹果设备定制高效的 GPU 内核代码。整个过程无需更改用户原有代码，也不依赖新框架的引入，即可在苹果硬件平台上直接实现性能飞跃。

实验平台采用搭载 Apple M4 Max 芯片的 Mac Studio，以 PyTorch 的 eager 模式作为性能基准。测试使用的 KernelBench 数据集包含215个典型 PyTorch 模块，覆盖从基础的矩阵乘法运算到完整神经网络架构等多种场景。

测试流程包括接收输入参数和原始 PyTorch 代码、自动生成对应的 Metal 内核，并验证其功能正确性。数据表明，随着生成尝试次数增加，AI 输出内核的准确性持续提升。例如，在第五次尝试时，正确实现的比例已达到94%。值得注意的是，尽管部分非专为推理设计的模型也具备生成有效内核的能力，显示出跨任务适应的潜力。

千博企业网站系统全功能个人版Access2011 Build 0903

2010.09.03更新优化前台内核处理代码；优化后台内核、静态生成相关代码，生成速度全面提升；修改前台静态模板中所有已知错误；修正后台相关模块所有已知错误；更换后台编辑器，功能更强大；增加系统说明书。免费下载、免费使用、完全无限制。完全免费拥有：应广大用户要求，千博网络全面超值发布企业网站系统个人版程序包：内含Flash动画源码、Access数据库程序包、SQL数据库程序包。全站模块化操作，静态