苹果另辟蹊径:利用“归一化流”技术打造 AI 生图模型

P粉390130307
发布: 2025-06-24 12:12:08
原创
531人浏览过

感谢网友 对的时间点 提供的线索!

6 月 24 日消息,目前业界普遍采用扩散模型或自回归模型来开发 AI 图像生成系统。然而,苹果公司最近发布的一篇论文表明,他们正在探索一条较少被关注的技术路径——归一化流(Normalizing Flows)。

据悉,这种“归一化流”技术是一种通过学习数学变换方法,将现实世界的数据(如图片)转化为结构化噪声,并能够从噪声中还原出图像样本的生成机制。其最大特点是可以准确计算生成图像的概率分布,这是扩散模型所不具备的能力。这一特性使得归一化流在一些对概率精确性要求较高的应用场景中具有显著优势。但此类模型并不常见,主要原因是开发难度较大,且早期使用该技术生成的图像常常显得模糊、缺乏细节

根据苹果发布的论文《Normalizing Flows are Capable Generative Models》,他们提出了一种新的归一化流模型,命名为 TarFlow(Transformer AutoRegressive Flow)。该模型的核心理念是将待生成的大图划分为多个小区域,然后以这些区域为单位逐个生成像素值。每个区块的生成都依赖于之前已经生成的内容,从而逐步构建出完整的图像。这种方法有效地避免了将图像压缩为固定词汇表时所带来的质量下降和表现力受限的问题。

苹果另辟蹊径:利用“归一化流”技术打造 AI 生图模型

不过,TarFlow 在高分辨率图像生成方面仍存在局限,因此苹果又推出了第二项研究:《STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis》。

在这项研究中,苹果基于 TarFlow 基础上开发了升级版模型:STARFlow(Scalable Transformer AutoRegressive Flow)

这项改进的最大亮点在于,STARFlow 不再直接在像素级别生成图像,而是转而在“潜空间”(latent space)中操作。它首先生成图像的压缩表示,随后通过解码器将其放大还原。这种方式使模型无需处理数百万个像素点,而是先构建图像的整体结构,再由解码器补充细节内容,从而在保证画质的前提下提升了生成效率

苹果另辟蹊径:利用“归一化流”技术打造 AI 生图模型

除此之外,STARFlow 还优化了文本提示的处理方式。它不再内置专门的文本编码器,而是支持调用外部语言模型(例如谷歌推出的小型语言模型 Gemma,理论上可在本地设备上运行),用于解析用户的文字指令。这样一来,图像生成模块可以更加专注于图像细节的创作与优化。

以上就是苹果另辟蹊径:利用“归一化流”技术打造 AI 生图模型的详细内容,更多请关注php中文网其它相关文章!

豆包AI编程
豆包AI编程

智能代码生成与优化,高效提升开发速度与质量!

下载
相关标签:
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号