上个月,字节跳动旗下的 agent 「扣子空间」刚上线时,曾因用户量激增而导致服务器一度被挤爆,全网都在疯传内测码。
经过一个月的发展,AI 科技评论发现扣子空间最新推出了一个新功能—— 一键生成播客。
相较于专注于任务规划与执行的通用 Agent,AI 播客 Agent 需要的能力更为复杂,包括但不限于内容理解、多模态融合、语音合成、情感表达、多角色模拟以及对话逻辑等,这对多模态性能提出了更高要求。
目前市场上具备一键生成播客功能的 AI 工具并不多见。谷歌 NotebookLM 的音频模块虽能将用户提供的文档、笔记、网页等内容转化为类似播客的音频对话,但在中文语音合成的自然度和情感表达方面还有待提高,相较之下,扣子空间在中文环境下更具优势。
下面让我们一起来体验一下扣子空间的实际效果。
1、Agent 一键生成播客,比真人更流畅
以 AI 科技评论发布的对 Trans-N.ai 联创孙又晗的采访《前小马智行孙又晗创立 Trans-N.ai,出海日本获最大种子轮融资》为例,若想将文字版内容转换成包含声音、文字、图片的完整播客形式,则需要经历复杂的生产流程。
在内容层面,创作者需要耗费时间构思创意并撰写脚本;在音频制作方面,则涉及硬件设备、剪辑软件、录制过程、手动剪辑、降噪处理等多个环节,整个过程耗时耗力。
然而,使用扣子空间打开这期播客非常简单,只需在对话框中输入需求:“请根据这篇文章生成一期播客”,无需额外操作,即可立即获取完整的播客内容。
扣子空间生成的结果如下:
首先必须指出的是,这段播客语音几乎完全忠实于原文,没有出现随意杜撰的情况。其次,对话中的 AI 主播语气生动自然,对于长句的分割准确,在转折处还能感受到情绪的变化。此外,双方问答的形式非常自然,具有很强的对话感。
原链接:
https://www.php.cn/link/cd9840da1d1e99d7a4455acf36785fc6%
面对数千字的文字专访,扣子空间能够生成内容生动自然的播客,大家可以亲自试试看!如果挑战更大一些,发送一篇几万字的长文档,并且语言较为学术、深奥,扣子空间的表现又如何呢?
提供如下一篇论文,主题为《晚清天文学译词考察——以五种天文学译著为中心》,共有17页PDF内容,其中包括大量天文学专业术语:
论文链接:
https://www.php.cn/link/50177f8a9ab8866cb77c77ae1e47c5fa
将这篇论文生成一期播客,扣子空间给出的回答是:
整段播客对话仿佛来自专业电台主播。在内容理解和表达方面,口语化的表达缓解了学术内容的严肃感,同时逻辑清晰,逐步深入地探讨了译词的特点、来源、演变及其研究意义,信息密度高。AI 男女主播问答配合默契,语气轻松。
原链接:https://www.php.cn/link/f4271742acc08a5da8f3dd4053e38b27
跳出专业性强的内容,如果是生活化、轻松的话题,扣子空间能否准确理解各种类型的 prompt 要求,并生成富有表现力的内容。
提供如下一篇小红书笔记,要求根据这篇笔记生成一个“彩虹屁”播客。
扣子空间生成的播客如下:
拌面天才的故事,AI科技评论,1分钟
在这段音频中,不仅尊重了字数有限的小红书文案,还自动生成了一些非原文的内容,比如男主播调侃“这话题听着就饿”,更加贴近人类语境。而且,音频对话节奏明快,符合播客的娱乐属性,营造了人类主播的氛围感。
原链接:
https://www.php.cn/link/c94bb1bbd9c2b4a9c93fcf140c18e20e
再增加难度,让扣子空间围绕“2025端午节龙舟赛”这样的实时热点话题,生成一期新闻热点的时评播客:
从捕捉实时热点的角度来看,扣子空间能够捕捉到南昌国际赛、深圳福田邀请赛等赛事,信息详尽且数据准确。并且,AI 主播在讲解时表现得富有感染力,语气词的加入也让内容显得更加真实。
原链接:
https://www.php.cn/link/dea279307a9e8db9a1f426e4d0d4886d
2、不止「一键生成播客」
经过数十个案例的测评,AI 科技评论发现,扣子空间的能力远不止一键生成播客,它更像是一个精通多项技能的「通用实习生」,并且这个「实习生」背后有各行各业的专家作为后盾,无论是在生活、学习还是工作场景,扣子空间都能高效、及时地响应你的个性化需求。
Agent 搜图
尽管 AI 图像处理技术已经广泛应用,但在某些特定场景下生成的图片仍然存在“AI味儿”太浓、与文字搭配不自然、与现实差距较大、无法满足严肃创作需求等问题。最终,不得不手动通过搜索引擎一张张寻找符合需求的图片。
扣子空间的 Agent 搜图能力则更为全面、精准。输入 prompt:“写一篇详细的乌兰察布旅游指南,重点介绍值得一游的景点和当地的特色美食,要求图文并茂。”得到的答案是:
在这份攻略中,美食、美景图片能够与文字精准匹配。扣子空间不仅能在海量图片资源中找到高质量的真实图片,还具备强大的视觉理解能力,准确理解每张图片所包含的内容。
再以云南毒蘑菇宣传科普文为例,要求将毒蘑菇图片与文字介绍精确对应,扣子空间给出的结果是:
点击查看完整内容:
https://www.php.cn/link/06956e10db83a3243154d65e297620d1
不仅图片与文字对应正确,扣子空间生成的内容更加全面,共给出了39种蘑菇图片及其介绍。
深度分析、多种形式呈现能力
工作中或学习中,针对某一话题展开调研是常见的需求,通常需要快速针对某一事件进行调研、收集海量信息,再条理清晰地呈现出来。
例如,在电商运营场景中,将特定产品在某电商平台的1000条用户评论交给扣子空间,要求进行深度分析,并用可视化方式呈现,得到的结果是:
再提供一个数十页 PDF 的智能眼镜访谈记录文档:
提出的需求仅为“帮我总结访谈记录”,无需进一步交互,扣子空间就能输出如下结果:
完整结果可查看:
https
以上就是实测字节扣子空间:AI 播客比真人丝滑,Agent 能打 80% 的工的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号