
https://www.php.cn/link/df2782c019d0d66a88af774011e8ab29
苹果公司近日推出了名为Pico-Banana-400K的大规模图像数据集,包含40万张精心筛选的图片。该数据集基于Google Gemini-2.5系列模型构建,相关论文《Pico-Banana-400K:面向文本引导图像编辑的大规模数据集》也已同步发布。
该数据集以OpenImages中的真实图像为原始素材,涵盖35种不同类型的编辑任务,归为8个主要类别。编辑图像由Gemini-2.5-Flash-Image(又称Nano-Banana)生成,随后通过Gemini-2.5-Pro对指令遵循能力与视觉质量进行评估和筛选。数据集中包含单步编辑、多轮编辑流程以及成功与失败结果的对比样本。


Pico-Banana-400K采用非商业性研究许可,仅供学术及人工智能研究使用,禁止用于商业用途。尽管苹果承认Nano-Banana在技术上存在一定局限,但仍希望该数据集能成为推动下一代图像编辑模型发展的重要资源,为训练和基准测试提供支持。论文已发布于arXiv,数据集亦可在GitHub上免费获取。
以上就是苹果发布 Pico-Banana-400K 数据集,助力文本引导图像编辑研究的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号