首页 > 新闻 > IT新闻 > 正文

BentoML 发布 llm-optimizer,LLM 推理和性能优化开源工具

心靈之曲
发布: 2025-09-15 20:36:15
原创
233人浏览过

bentoml 发布 llm-optimizer,llm 推理和性能优化开源工具

BentoML 近日推出了 llm-optimizer,一个开源的 LLM 推理基准测试与优化工具。该工具支持多种推理框架,并可兼容任意开源大语言模型。

llm-optimizer 的目标是将原本繁琐的手动性能调优过程自动化。用户只需几个命令,即可集中化地运行结构化实验、施加约束条件并可视化分析结果。

使用示例:

llm-optimizer estimate \  --model meta-llama/Llama-3.1-8B-Instruct \  --input-len 1024 \  --output-len 512 \  --gpu A100 \  --num-gpus 2
登录后复制

预期输出:

自由画布
自由画布

百度文库和百度网盘联合开发的AI创作工具类智能体

自由画布 73
查看详情 自由画布

=== Configuration ===Model: meta-llama/Llama-3.1-8B-InstructGPU: 2x A100Precision: fp16Input/Output: 1024/512 tokensTarget: throughputFetching model configuration...Model: 8029995008.0B parameters, 32 layers=== Performance Analysis ===Best Latency (concurrency=1):  TTFT: 43.1 ms  ITL: 2.6 ms  E2E: 1.39 sBest Throughput (concurrency=512):  Output: 18873.3 tokens/s  Input: 23767.8 tokens/s  Requests: 14.24 req/s  Bottleneck: Memory=== Roofline Analysis ===Hardware Ops/Byte Ratio: 142.5 ops/bytePrefill Arithmetic Intensity: 52205.5 ops/byteDecode Arithmetic Intensity: 50.9 ops/bytePrefill Phase: Compute BoundDecode Phase: Memory Bound=== Concurrency Analysis ===KV Cache Memory Limit: 688 concurrent requestsPrefill Compute Limit: 8 concurrent requestsDecode Capacity Limit: 13 concurrent requestsTheoretical Overall Limit: 8 concurrent requestsEmpirical Optimal Concurrency: 16 concurrent requests=== Tuning Commands ===--- SGLANG ---Simple (concurrency + TP/DP):  llm-optimizer --framework sglang --model meta-llama/Llama-3.1-8B-Instruct --gpus 2 --host 127.0.0.1 --server-args "tp_size*dp_size=[(1, 2), (2, 1)]" --client-args "num_prompts=1000;dataset_name=sharegpt;random_input=1024;random_output=512;num_prompts=1000;max_concurrency=[256, 512, 768]" --output-dir tuning_results --output-json tuning_results/config_1_sglang.jsonAdvanced (additional parameters):  llm-optimizer --framework sglang --model meta-llama/Llama-3.1-8B-Instruct --gpus 2 --host 127.0.0.1 --server-args "tp_size*dp_size=[(1, 2), (2, 1)];chunked_prefill_size=[1434, 2048, 2662];schedule_conservativeness=[0.3, 0.6, 1.0];schedule_policy=fcfs" --client-args "num_prompts=1000;dataset_name=sharegpt;random_input=1024;random_output=512;num_prompts=1000;max_concurrency=[256, 512, 768]" --output-dir tuning_results --output-json tuning_results/config_1_sglang.json--- VLLM ---Simple (concurrency + TP/DP):  llm-optimizer --framework vllm --model meta-llama/Llama-3.1-8B-Instruct --gpus 2 --host 127.0.0.1 --server-args "tensor_parallel_size*data_parallel_size=[(1, 2), (2, 1)]" --client-args "num_prompts=1000;dataset_name=sharegpt;random_input=1024;random_output=512;num_prompts=1000;max_concurrency=[256, 512, 768]" --output-dir tuning_results --output-json tuning_results/config_1_vllm.jsonAdvanced (additional parameters):  llm-optimizer --framework vllm --model meta-llama/Llama-3.1-8B-Instruct --gpus 2 --host 127.0.0.1 --server-args "tensor_parallel_size*data_parallel_size=[(1, 2), (2, 1)];max_num_batched_tokens=[1024, 1177, 1331]" --client-args "num_prompts=1000;dataset_name=sharegpt;random_input=1024;random_output=512;num_prompts=1000;max_concurrency=[256, 512, 768]" --output-dir tuning_results --output-json tuning_results/config_1_vllm.json
登录后复制

此工具应对了 LLM 部署中的典型难题:如何在不依赖反复试错的前提下,找到延迟、吞吐量与成本之间的最优平衡。llm-optimizer 提供了一种系统化探索模型性能空间的方法,通过自动执行基准测试和配置搜索,显著减少了人为猜测和重复劳动。

项目开源地址:https://www.php.cn/link/c11a6c8821cdb24676ff61d9b59c10a0

以上就是BentoML 发布 llm-optimizer,LLM 推理和性能优化开源工具的详细内容,更多请关注php中文网其它相关文章!

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号