当地时间周四,谷歌正式宣布,推出其基于人工智能的文件类型检测系统——magika的1.0稳定版本。此次更新最大的亮点在于,其核心引擎已完全采用rust语言进行重写,以实现更高的性能和内存安全性。
据谷歌介绍,自去年初首次开源以来,Magika已在开源社区获得了广泛的应用,其月度下载量已超过100万次。

得益于Rust语言的重构,新版的Magika在性能上实现了巨大的飞跃。其新提供的原生Rust命令行工具,在单核环境下,每秒可识别数百个文件;而在多核CPU上,这一数字更可扩展至每秒数千个。根据谷歌公布的测试数据,在一台MacBook Pro (M4)上,Magika每秒可处理约1000个文件。

在文件类型的支持方面,Magika 1.0的检测能力已扩展至超过200种文件格式,是初始版本的两倍。此次新增的类别,涵盖了数据科学(如Jupyter Notebooks)、现代编程与网页开发(如Swift, Kotlin, TypeScript)、DevOps与配置文件(如Dockerfile, TOML)以及数据库与图形格式(如SQLite, Photoshop)等多个前沿领域。
此外,新版本还显著提升了其区分相似格式的能力,例如,它现在可以准确地区分JSONL与JSON、C与C++、JavaScript与TypeScript等容易混淆的文件类型。

在技术实现上,该团队主要克服了两大挑战:一是如何高效地处理超过3TB的庞大训练数据集;二是如何应对部分文件类型样本稀缺的问题。对于前者,谷歌采用了自研的数据集库;而对于后者,研究团队则创造性地使用了生成式AI工具Gemini,来创建高质量的合成训练数据,以增强模型的泛化能力。
谷歌表示,Magika的未来发展,将持续聚焦于性能的优化和文件类型的扩展,并鼓励广大的开发者社区,能够积极参与到该项目的贡献中来。
以上就是谷歌发布开源工具Magika 1.0,核心引擎重写以提升性能的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号