0

0

​哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一

DDD

DDD

发布时间:2024-10-25 19:16:01

|

1069人浏览过

|

来源于机器之心

转载

​哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.co

工具调用是 AI 智能体的关键功能之一,AI 智能体根据场景变化动态地选择和调用合适的工具,从而实现对复杂任务的自动化处理。例如,在智能办公场景中,模型可同时调用文档编辑工具、数据处理工具和通信工具,完成文档撰写、数据统计和信息沟通等多项任务。

业界已发布的工具调用模型,在特定评测基准上有接近甚至超越闭源 SOTA 模型(比如 GPT-4)的表现,但在其他评测基准上下降明显,难以泛化到新工具和新场景。为应对这一挑战,来自 OPPO 研究院上海交通大学的研究团队提出函数掩码(Function Masking) 方法,构建了具备强大泛化能力的轻量化工具调用系列模型:Hammer,并开源了完整的技术栈,旨在帮助开发者构建个性化的终端智能应用。

在工具调用典型评测基准上,包括 Berkeley Function-Calling Leaderboard(BFCL)、API-Bank、Seal-Tools 等,Hammer 系列模型展现了出色的总体性能,特别是 Hammer-7B 模型,综合效果仅次于 GPT-4 等闭源大模型,在工具调用模型中综合排名第一,具备强大的新场景和新工具泛化能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

​哪个模型擅长调用工具?这个7b模型跻身工具调用综合榜单第一

  • 模型地址:https://huggingface.co/MadeAgents
  • 论文地址:https://arxiv.org/abs/2410.04587
  • 代码地址:https://github.com/MadeAgents/Hammer

工具调用任务说明

工具调用作为 AI 智能体执行复杂任务所必备的核心能力,要求模型不仅能够识别正确的函数,还要准确填写函数的输入参数;如果给定函数列表无法满足用户的意图,模型也应具备拒绝任务的能力。下图是工具调用模型输入输出的一个样例:

​哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一

Hammer 训练方法

研究团队在 Hammer 的训练过程中引入了一项关键技术:函数掩码(Function Masking) 和一个增强数据集:不相关性检测增强数据集(Irrelevance-Augmented Dataset)

  • 函数掩码旨在减少模型对函数名称和参数名称的依赖,核心是通过哈希化函数名称和参数名称,使模型在执行工具调用任务时不得不依赖更完备且可靠的功能描述信息,而不是对名称的记忆或匹配。这种方式有助于减少因命名差异导致的误判问题,提升模型在多样化命名风格和应用场景中的稳定性和适应性。
  • 不相关性检测增强数据集旨在帮助模型在给定用户意图而当前无适用函数的情况下,能够正确判断并给出「不相关」信号。该数据集包含了 7,500 个增强样本,设计时平衡了工具调用任务和不相关性检测任务的比例,以达到最佳的综合效果。(已开源至:https://huggingface.co/datasets/MadeAgents/xlam-irrelevance-7.5k)
​哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一
Hammer 总体表现

Hammer 系列模型在工具调用典型评测基准上均展现了出色的性能,具体表现如下面的两张表格所示。可以看到,在 BFCL 榜单上,Hammer-7B 模型的总体准确率达到 83.92%,接近闭源 SOTA 模型 GPT-4 的 95.79%,优于其他工具调用模型。同时,在其他评测基准上,Hammer-7B 模型的平均 F1 达到 76.21%,接近闭源模型 GPT-4 的 78.79%,大幅领先其他工具调用模型。Hammer-7B 能够在参数规模较小的情况下,在不同评测基准上与闭源 SOTA 大模型竞争,充分展示了 Hammer 模型在各种工具调用任务中的准确性和稳定性。
​哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一

​哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一

函数掩码技术的通用性

研究团队还将函数掩码和数据增强技术应用于不同的基础模型,以验证其通用性。实验选择了 Qwen 系列和 Deepseek-Coder 系列模型作为基准,并在相同的训练和测试条件下进行比较。下表中的结果显示,经过函数掩码技术调优后的 Hammer 版本显著提升了基础模型的工具调用准确性,远高于未调优版本,证明了函数掩码和不相关性数据增强对不同模型架构均有显著的优化效果。同时,在使用相同的基座模型和基础数据的情况下,与 xLAM(同样基于 Deepseek 微调而来的工具调用模型)的对比,也体现了函数掩码及不相关性数据增强的作用。

​哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一

酷表ChatExcel
酷表ChatExcel

北大团队开发的通过聊天来操作Excel表格的AI工具

下载
不相关性数据增强比例的权衡

在设计不相关性数据增强时,研究团队测试了不同比例的不相关性数据样本对模型表现的影响。下图实验结果表明,合理比例的不相关性增强数据(约占总数据的 10%)能够在提升工具调用准确性的同时,显著增强模型在不相关检测场景中的识别能力,降低错误调用的风险。实验结果还显示,进一步增加不相关性数据会略微降低功能调用的准确性,因此找到适当的平衡点至关重要。

​哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一

总结

Hammer 模型通过函数掩码技术和不相关性检测数据增强,在多个评测基准中取得了良好的效果,表现出强大的泛化能力和稳定性,为轻量化工具调用模型在终端应用向前迈了一步。

Hammer 系列目前已更新至 2.0 版本,欢迎感兴趣的读者通过 huggingface 进行体验!

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

389

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

572

2023.08.10

function是什么
function是什么

function是函数的意思,是一段具有特定功能的可重复使用的代码块,是程序的基本组成单元之一,可以接受输入参数,执行特定的操作,并返回结果。本专题为大家提供function是什么的相关的文章、下载、课程内容,供大家免费下载体验。

476

2023.08.04

js函数function用法
js函数function用法

js函数function用法有:1、声明函数;2、调用函数;3、函数参数;4、函数返回值;5、匿名函数;6、函数作为参数;7、函数作用域;8、递归函数。本专题提供js函数function用法的相关文章内容,大家可以免费阅读。

163

2023.10.07

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1976

2024.08.16

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

28

2025.12.13

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

6

2026.01.16

java数据库连接教程大全
java数据库连接教程大全

本专题整合了java数据库连接相关教程,阅读专题下面的文章了解更多详细内容。

28

2026.01.15

Java音频处理教程汇总
Java音频处理教程汇总

本专题整合了java音频处理教程大全,阅读专题下面的文章了解更多详细内容。

12

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号