0

0

首席信息官必须了解的关于人工智能基础设施的五件事

WBOY

WBOY

发布时间:2024-05-10 09:10:19

|

1440人浏览过

|

来源于51CTO.COM

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

首席信息官必须了解的关于人工智能基础设施的五件事

生产型人工智能具有潜力改变行业并产生难以估量的投资回报率,但前提是首席信息官和其他IT领导者了解一些基本要素。 首先,了解人工智能的基本概念和技术是至关重要的。人工智能是指计算机系统能够模仿和执行人类智能活动的能力。这包括机器学习、

生成式人工智能吸引了所有人的注意力,这有着充分理由。但是,从潜力到盈利并非没有风险,例如,假设部署主流企业IT基础设施的既定流程将在复杂的人工智能超级群的新时代发挥作用。

确保人工智能实现其承诺的关键信息官们需要更好地了解大规模设计、部署和管理这一基础设施组件所需的条件,其中包括:

1.基础设施需求

建立在人工智能的环境相对较新,尝试将传统的企业计算设计和架构与高性能处理器、低延迟网络和调度器驱动器的工作负载环境结合起来会带来一系列新的挑战。物理数据中心设计是基础的,不正确配置系统的无声、长尾影响可能意味着启动基于不正确的电源、冷却和网络元素的“错误启动”部署。

2.性能优化

这是一个设计上错综复杂、低延迟的GPU网络架构的影响。这些系统需要精确的配置,否则未调优的系统仍能正常工作,但团队对人工智能工作负载的低性能水平毫无所知,最终导致大量错误投资回报率。

Penguin/SGH全球营销副总裁Mark Seamans将其比作一级方程式赛车。他说:“一个配置不当的系统可能看起来就像一辆F1赛车,但只有当你把其他五辆车放在赛道上时,你才会意识到竞争对手正在超越。确保你在设计、制造和部署过程中都遵循一套规范的标准,这意味着即使你是赛道上唯一的车手,你也能达到F1赛车的全速。”

炉米Lumi
炉米Lumi

字节跳动推出的AI模型分享社区和模型训练平台

下载

3.可扩展性、灵活性和可靠性

在考虑人工智能基础设施及其构建块的性质时,精度对于有有效处理不同的人工智能工作负载变得更加重要。这就是适应不断变化的计算需求的可扩展性和灵活性。但是,正如马克所指出的,“在团队进行安全、软件和固件更新时,或者在增加新的人工智能节点以扩大集群容量的情况下,这也与稳定性有关。”如果构建模块不是最优的,未来的变化可能会破坏系统的稳定性。”

4.数据管理

组织习惯于这样的环境:如果一台服务器宕机,其他服务器可以接管负载。然而,人工智能系统并不以同样的方式运行。错误配置的网络、节点故障,甚至单个GPU的丢失,都可能扼杀可能已经运行了数周的作业——让用户感到沮丧,并为负担重的IT团队增加工作量。 然而,并非没有解决方案。一种方法是将任务分解为更小的部分,并通过分布式计算来处理。这样,如果一个节点出现故障,其他节点仍然可以继续工作。另一种方法是通过数据备份和冗余来确保系统的弹性。这样,在发生故障时,可以快速恢复并继续工作,减少中断时间。 除了技术层面的解决方案,还应该培养团队的问题解决和危机管理能力。提前制定灾难恢复计

Mark: "Penguin公司为提高集群性能和可靠性开发了许多创新——包括一个隔离未决GPU故障的解决方案,我们可以剔除这些节点,在生产配置之外对其进行分类,修复问题,然后重新配置并将其作为健康节点放回集群。"

5.成本的考虑

成本始终是一个考虑因素,但与人工智能工作负载相关的影响更大。考虑一个有1000个节点的系统,每个节点由10根网线和多个复杂的网络结构连接。硬件采购、电力和冷却的大量能源消耗以及维护成本如果不能与部署时间表和性能要求相平衡,就会超出预算限制。有了这些价值数百万美元的人工智能配置,将系统投入生产的延迟会带来大量不必要的折旧成本和错失的投资回报率。

来自经验丰富的AI基础设施合作伙伴的证明点

超过25年的高性能计算经验和超过7年的大规模部署人工智能基础设施,使企鹅解决方案成为人工智能平台的首选。企鹅已经部署了5万多块GPU,像Meta公司这样的客户依赖于他们的专业知识,Penguin公司已经准备好成为值得信赖的合作伙伴,帮助每一位客户走向未来。

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

325

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

232

2023.10.07

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

411

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

304

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

628

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

33

2025.10.21

PHP 高并发与性能优化
PHP 高并发与性能优化

本专题聚焦 PHP 在高并发场景下的性能优化与系统调优,内容涵盖 Nginx 与 PHP-FPM 优化、Opcode 缓存、Redis/Memcached 应用、异步任务队列、数据库优化、代码性能分析与瓶颈排查。通过实战案例(如高并发接口优化、缓存系统设计、秒杀活动实现),帮助学习者掌握 构建高性能PHP后端系统的核心能力。

98

2025.10.16

PHP 数据库操作与性能优化
PHP 数据库操作与性能优化

本专题聚焦于PHP在数据库开发中的核心应用,详细讲解PDO与MySQLi的使用方法、预处理语句、事务控制与安全防注入策略。同时深入分析SQL查询优化、索引设计、慢查询排查等性能提升手段。通过实战案例帮助开发者构建高效、安全、可扩展的PHP数据库应用系统。

80

2025.11.13

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

72

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 5.1万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号