突破性进展:无编码器3d多模态大模型enel问世!
这项由上海AI Lab、西北工业大学、香港中文大学和清华大学等机构联合研发的ENEL模型,将无编码器多模态大模型拓展到了3D领域,实现了对不同点云分辨率的适应性,并彻底摆脱了对预训练编码器的依赖。
ENEL在Objaverse基准测试中表现卓越,性能超越了当前最先进的ShapeLLM-13B模型。
基于编码器架构的3D LMM的局限性
传统的基于编码器的3D大型多模态模型(LMMs)存在以下不足:
ENEL的无编码器架构有效解决了这些问题,展现出更高的灵活性和泛化能力。
ENEL的核心创新:
为了克服无编码器结构的挑战,ENEL团队进行了两方面的创新:
实验结果:
ENEL在定性与定量实验中均取得了显著成果,验证了其创新方法的有效性。 ENEL-7B在描述和分类任务上超越了同等规模甚至13B的模型。
代码与论文链接:
ENEL的出现标志着无编码器3D多模态大模型领域取得了重大突破,为未来3D视觉和人工智能的发展提供了新的方向。
以上就是摆脱编码器依赖!Encoder-free 3D 多模态大模型,性能超越 13B 现有 SOTA的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号