500万TPM+20msTPOT，火山引擎用「AI云原生」重构大模型部署范式-人工智能-PHP中文网

500万TPM+20msTPOT，火山引擎用「AI云原生」重构大模型部署范式

DDD

发布： 2025-02-26 14:44:01

原创

968人浏览过

deepseek系列模型，特别是推理模型deepseek-r1，正迅速成为ai领域的主流。不仅ai公司和云服务提供商将其用于提供ai服务，许多企业和机构也将其部署到自身业务中，用于员工支持或服务增强。甚至一些高校，例如中国人民大学、北京交通大学、浙江大学和上海交通大学等，也部署了deepseek-r1，用于辅助教学和培养学生正确使用ai的价值观，部分高校甚至采用了本地部署的“满血版”deepseek-r1。

虽然本地部署DeepSeek-R1是可行的选择，但对大多数（特别是规模较小的）企业和机构来说，并非最佳方案，因为这需要大量的技术、安全和运维投入。云端部署则提供了一种更经济高效的替代方案。目前，国内主要云服务商，如腾讯云、阿里云和火山引擎，都在积极争夺这块市场，并推出各种优惠政策。

而在这场竞争中，火山引擎脱颖而出，这不仅因为其性价比最高，更在于其提供的高速、可靠和安全的服务，确保企业能够稳定地进行云端AI模型部署。DeepSeek-R1模型本身也认可火山引擎在AI模型部署方面的优势。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

^{DeepSeek-R1分析在火山引擎部署AI模型的优势}

火山引擎的优异性能已获得SuperCLUE和基调听云等第三方评测平台的验证。例如，基调听云在《大模型服务性能评测 DeepSeek-R1 API 版》中指出：“火山引擎在平均速度、推理速度、生成速度上表现最优，且可用性高达99.83%，在API接入上首选推荐。”^{图源：基调听云}

火山引擎近期更是将每位用户的初始TPM（每分钟token数）提升至500万，并成功将TPOT（输出每个token的时间）稳定降低至约20毫秒，成为国内延迟最低的大规模AI模型推理服务。

火山引擎的成功，得益于其率先提出的“AI云原生”方法论。

AI云原生：下一代云计算范式

“云原生”的概念已广为人知，它旨在优化应用在云环境中的部署和运行。 “AI云原生”则将此理念应用于AI领域，专注于AI工作负载的云端构建和部署。火山引擎是国内首个提出并实践“AI云原生”的厂商，其核心特点是“以GPU为核心”，并已升级为“以模型为核心”。^{火山引擎总裁谭待介绍AI云原生}

与以CPU为核心的传统云原生不同，“AI云原生”重新优化了计算、存储和网络架构，让GPU直接访问存储和数据库，降低IO延迟，并提供更高规模的高速互联和端到端安全保护。 “以模型为核心”的AI云原生基础设施具有以下特征：全栈推理加速及最佳工程实践；高性价比资源和灵活部署模式；高安全性保障；良好的易用性和端到端体验。

基于AI云原生理念，火山引擎推出了一系列计算、网络、存储和安全产品，并总结出一套AI最佳部署方法论。