0

0

云端部署大模型的三个秘密

WBOY

WBOY

发布时间:2024-04-24 15:00:02

|

863人浏览过

|

来源于51CTO.COM

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

云端部署大模型的三个秘密

编译 | 星璇

出品 | 51CTO技术栈(微信号:blog51cto)

在过去的两年里,我更多地参与了使用大型语言模型(LLMs)的生成AI项目,而非传统的系统。我开始怀念无服务器云计算。它们的应用范围广泛,从增强对话AI到为各行各业提供复杂的分析解决方案,以及其他许多功能。许多企业将这些模型部署在云平台上,因为公共云提供商已经提供了现成的生态系统,而且这是阻力最小的路径。然而,这并不便宜。

云还提供了其他好处,如可扩展性、效率和高级计算能力(按需提供GPU)。在公共云平台上部署LLM的过程有一些鲜为人知的秘密,它们可能会对成功或失败产生重大影响。也许是因为处理LLMs的AI专家并不多,也因为我们在这方面还没太多经验,我们的知识体系中存在很多空白。

让我们探讨三个在云上部署LLM时鲜为人知的“技巧”,也许你的AI工程师们也不知道。考虑到这些工程师的年薪往往超过30万美元,也许现在是时候考虑他们做这些事情的细节了。我看到每个人都像头发发着火一样奔向生成为AI,但犯的错误比以往任何时候都多。

1.管理成本效益和可扩展性

云平台部署LLMs的主要吸引力之一是能够够按需扩展资源。我们不需要成为优秀的容量规划师,因为云平台拥有我们只需要点击鼠标或自动分配的资源。

然而,等待,我们即将犯下当初使用云计算时犯下的同样错误。在扩展的同时管理成本是一项技能,许多人需要在这方面获得帮助以进行有效导航。请注意,云服务通常根据消耗的计算资源收费;他们就像公共事业一样运作。处理得越多,付费就越多。考虑到GPU的成本更高(且耗电量更大),这是使用公共云提供商提供的LLMs时的核心关注点。

请确保您使用成本管理工具,包括云平台提供的工具和可靠的第三方成本治理和监控服务商(finops)提供的工具。例如,实施自动扩展和调度、选择合适的实例类型或使用抢占式实例来优化成本。此外,请记得持续监控部署情况,根据使用情况而不是仅根据预测负载调整资源。这意味着不惜一切代价避免过度配置(明白我这里的双关了吗?)。

2.多租户环境中的数据隐私

部署LLMs通常涉及处理大量数据和训练经过的知识模型,这些可能包含敏感或专有数据。使用公共云的风险在于,你的“邻居”是以处理实例的形式存在,它们在同一物理硬件上运行。因此,公共云确实存储在这样的风险:在数据存储和处理过程中,数据可能会被公共云数据中心中同一物理硬件上运行的其他虚拟机访问。 为了解决这个问题,许多公共云提供商提供了面向企业的云安全选项。这些选项提供了物理硬件上运行的其他虚拟机访问你的数据的隔离和保护。 另一个安全问题是数据在存储和处理过程中的传输。数据可能会通过公共云网络传输,这意味着在传输过程中可能会被截取或窃听。为了解决这个问题,公共云通常提供了加密和安全传输协议来保护数据在传输过程中的安全性。 总的来说,部署LLMs

如果你询问公共云提供商有关此问题,他们会急忙拿出最新的PowerPoint演示文稿,展示这是不可能的。虽然这主要是真的,但并不完全准确。所有多租户系统都存在这种风险;你需要加以缓解。我发现,云提供商的规模越小,比如那些仅在单一国家运营的云提供商,这种问题出现的可能性就越大。这适用于数据存储和LLMs。

OneAI
OneAI

将生成式AI技术打包为API,整合到企业产品和服务中

下载

秘诀在于选择符合严格安全标准并能提供证明的云提供商:静止和传输中的数据加密、身份和访问管理(IAM)以及隔离策略。当然,更好的做法是你实施自己的安全策略和安全技术栈,以确保在云上使用多租户LLMs的风险较低。

3.处理有状态模型部署

大型语言模型(LLMs)大多数都是有状态的,这意味着它们会在一次交互到下一次交互之间保留信息。这个旧方法提供了新的好处:即在持续学习场景中提高效率的能力。然而,在云环境中管理这些模型的有状态性是有挑战性的,因为云环境中的实例可能是按设计短暂或无状态的。

支持有状态部署的编排工具(如 Kubernetes)是有帮助的。它们可以为大型语言模型利用持久性存储选项,并配置为跨会话维护和操作其状态。为了支持大型语言模型的连续性和性能,您需要这样做。

随着生成式人工智能的爆炸式增长,在云平台上部署大型语言模型已成定局。对于大多数企业来说,不使用云实在是太不方便了。我对接下来这股狂热的担忧是,我们会错过一些容易解决的问题,并会犯下巨大而昂贵的错误,而这些错误在最终大多是可以避免的。

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

391

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

572

2023.08.10

Golang云原生微服务Kubernetes_Golang怎么集成Kubernetes开发云原生服务
Golang云原生微服务Kubernetes_Golang怎么集成Kubernetes开发云原生服务

Golang云原生微服务Kubernetes (K8s) 是指 使用 Go 语言(Golang)编写的云原生微服务,并利用 Kubernetes 平台进行容器化部署、自动化管理、弹性伸缩和高效编排的一整套现代应用架构方案。

24

2025.12.22

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

411

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

304

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

628

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

33

2025.10.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1988

2024.08.16

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

72

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Rust 教程
Rust 教程

共28课时 | 4.5万人学习

Kotlin 教程
Kotlin 教程

共23课时 | 2.6万人学习

Go 教程
Go 教程

共32课时 | 3.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号