Apertus— 瑞士开源的首个大规模语言模型

DDD
发布: 2025-09-05 11:13:35
原创
203人浏览过

Apertus是什么

apertus是瑞士epfl、eth zurich和瑞士国家超级计算中心(cscs)联合推出的瑞士首个大规模开放、多语言的大型语言模型,有70b和8b两个参数版本,用大规模语言进行训练,其中40%的数据为非英语,包括瑞士德语、罗曼什语等此前在llm中被低估的语言。apertus用解码器仅的transformer架构,基于新的xielu激活函数和ademamix优化器。模型完全开放,模型权重、数据和训练细节,用户能在自己的服务器上使用,保持数据控制权。

Apertus— 瑞士开源的首个大规模语言模型

Apertus的主要功能

  • 文本生成:根据用户输入的提示生成连贯、相关的文本。
  • 多语言支持:支持超过1811种语言,包括许多此前在LLM中被低估的小语种。
  • 透明性和开放性:模型权重、数据和训练细节完全公开,用户能在自己的服务器上使用。
  • 长上下文处理:支持长上下文处理,适用于复杂的任务。

Apertus的技术原理

  • 模型架构:Apertus用仅密集解码器Transformer架构,模型有8B和70B两种规模,分别有32层/32个注意力头和80层/64个注意力头。使用xIELU激活函数、RMSNorm归一化、RoPE位置编码和分组查询注意力机制,提升模型效率和长上下文处理能力。
  • 预训练目标:用Goldfish目标函数,通过随机掩盖部分标记,防止模型学习精确的上下文映射,有效抑制逐字回忆,同时保留下游任务性能。预训练数据完全来自公开可用的来源,尊重内容所有者的退出意愿,避免使用受版权保护、非许可、有毒或包含个人身份信息的内容。
  • 预训练数据:Apertus在超过15万亿个标记的数据上进行预训练,涵盖超过1800种语言。数据来源多样,包括高质量的网络爬取数据、代码数据、数学数据等。通过多种过滤机制,如尊重robots.txt文件中的爬取限制、移除个人身份信息和毒性内容,确保数据的合规性。为提高模型的多语言能力和数据多样性,在预训练数据中分配大量非英语内容。
  • 训练过程:用AdEMAMix优化器和WSD学习率调度进行训练,确保训练的稳定性和效率。通过逐步增加上下文长度,使模型能处理更长的文本序列,支持长达65,536个标记的上下文。
  • 后训练(Post-Training):通过指令微调和对齐训练,用QRPO算法优化模型的行为,使其在生成文本时更加安全、有用和符合人类价值观。后训练阶段使模型能更好地理解和生成符合指令的文本。

Apertus的项目地址

  • 项目官网:http://www.swiss-ai.org/apertus
  • HuggingFace模型库:http://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059
  • 技术论文:http://github.com/swiss-ai/apertus-tech-report

Apertus的应用场景

  • 多语言对话系统:适用构建多语言聊天机器人、客服系统等,为用户提供跨语言的交流和信息获取服务。
  • 代码生成与辅助:根据自然语言描述生成代码片段,帮助开发者快速实现编程任务,提高开发效率,适用于软件开发辅助工具
  • 教育与学习辅助:生成教育内容、解答学术问题、提供学习建议等,用于在线教育平台、智能辅导系统等教育场景。
  • 内容创作:协助创作文本内容,如撰写文章、故事、新闻报道等,为内容创作者提供灵感和写作辅助。
  • 翻译服务:用在翻译任务,提供文本翻译服务,支持跨语言的信息传播和交流。

以上就是Apertus— 瑞士开源的首个大规模语言模型的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号