首页 > 新闻 > IT新闻 > 正文

由 DeepSeek-OCR 启发的新思路:所有输入给 LLM 的内容都只应该是图像

碧海醫心
发布: 2025-10-21 13:27:22
原创
928人浏览过

由 deepseek-ocr 启发的新思路:所有输入给 llm 的内容都只应该是图像

Andrej Karpathy(前特斯拉自动驾驶负责人、OpenAI 联合创始人)在社交媒体上对 DeepSeek 最新开源的 DeepSeek-OCR 表达了自己的观点:


我对 DeepSeek-OCR 的这篇新论文非常感兴趣。它本身是一个相当出色的 OCR 模型(虽然可能略逊于 dots.ocr),当然其背后的数据构建工作也功不可没,但这并不是我最关心的部分。

真正让我兴奋的是它引出的一个根本性问题——尤其考虑到我本质上是个计算机视觉研究者,只是目前“潜伏”在自然语言处理领域:对于大语言模型(LLM)而言,像素形式的图像是否比文本更适合作为输入? 也就是说,我们现在使用的文本 token,是不是一种既低效又笨拙的方式?

或许,未来的 LLM 输入应该全部是图像。即使你手头只有纯文本,也应该先将它渲染成图片再送入模型。 这种做法具备多个明显优势:

1️⃣ 更高的信息密度:正如论文所示,把文字转为图像后,可以用更少的视觉 token 表达更多内容,从而显著减少上下文长度,提升处理效率。

2️⃣ 更统一的信息流:输入不再局限于平面文本,可以自然地融合加粗字体、彩色文字以及任意嵌入图像等复杂格式,实现真正的多模态输入。

3️⃣ 更强的输入建模能力:图像输入允许使用双向注意力机制(bidirectional attention)来处理整个输入内容,而不是依赖逐词生成式的自回归方式,这通常能带来更强的理解能力。

必应图像创建器
必应图像创建器

微软必应出品的AI绘图工具

必应图像创建器453
查看详情 必应图像创建器

4️⃣ 彻底淘汰分词器(Tokenizer)!! 我一直想说:分词器是个丑陋的、割裂的、非端到端的组件。它带来了 Unicode 编码字节序列等一系列历史包袱,还引发了不少安全漏洞(例如通过特殊字节序列实现越狱攻击)。两个看起来完全相同的字符,在 tokenizer 内部可能被拆解成不同的 token。一个笑脸 emoji 对人类来说清晰可辨,但在模型眼里只是一个抽象符号,无法享受图像预训练带来的语义和结构迁移优势。是时候让 tokenizer 退出历史舞台了。

要知道,OCR 只是众多“视觉到文本”(vision → text)任务中的一种。而反过来,几乎所有“文本到文本”(text → text)的任务,都可以被重构为“视觉到文本”的形式,但反之却不行。

因此,未来的发展方向可能是:用户输入以图像形式进入模型,而模型输出仍保持为文本。毕竟,如何高效生成高质量图像像素,或者我们是否真的需要模型输出图像,仍是尚未解决的开放问题。

现在我得努力按捺住冲动,别立刻动手去开发一个完全基于图像输入的 nanochat 新版本……

转载自 蚁工厂 微博 原文:https://www.php.cn/link/27e34e1093ba7e24075b9f5b25dcf5a7

源码地址:点击下载

以上就是由 DeepSeek-OCR 启发的新思路:所有输入给 LLM 的内容都只应该是图像的详细内容,更多请关注php中文网其它相关文章!

AI工具
AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型,支持联网搜索。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号