由 DeepSeek-OCR 启发的新思路：所有输入给 LLM 的内容都只应该是图像-IT新闻-PHP中文网

由 DeepSeek-OCR 启发的新思路：所有输入给 LLM 的内容都只应该是图像

碧海醫心

发布： 2025-10-21 13:27:22

原创

928人浏览过

由 deepseek-ocr 启发的新思路：所有输入给 llm 的内容都只应该是图像

Andrej Karpathy（前特斯拉自动驾驶负责人、OpenAI 联合创始人）在社交媒体上对 DeepSeek 最新开源的 DeepSeek-OCR 表达了自己的观点：

我对 DeepSeek-OCR 的这篇新论文非常感兴趣。它本身是一个相当出色的 OCR 模型（虽然可能略逊于 dots.ocr），当然其背后的数据构建工作也功不可没，但这并不是我最关心的部分。

真正让我兴奋的是它引出的一个根本性问题——尤其考虑到我本质上是个计算机视觉研究者，只是目前“潜伏”在自然语言处理领域：对于大语言模型（LLM）而言，像素形式的图像是否比文本更适合作为输入？ 也就是说，我们现在使用的文本 token，是不是一种既低效又笨拙的方式？

或许，未来的 LLM 输入应该全部是图像。即使你手头只有纯文本，也应该先将它渲染成图片再送入模型。 这种做法具备多个明显优势：

1️⃣ 更高的信息密度：正如论文所示，把文字转为图像后，可以用更少的视觉 token 表达更多内容，从而显著减少上下文长度，提升处理效率。

2️⃣ 更统一的信息流：输入不再局限于平面文本，可以自然地融合加粗字体、彩色文字以及任意嵌入图像等复杂格式，实现真正的多模态输入。

3️⃣ 更强的输入建模能力：图像输入允许使用双向注意力机制（bidirectional attention）来处理整个输入内容，而不是依赖逐词生成式的自回归方式，这通常能带来更强的理解能力。

必应图像创建器

微软必应出品的AI绘图工具

453

查看详情

4️⃣ 彻底淘汰分词器（Tokenizer）！！ 我一直想说：分词器是个丑陋的、割裂的、非端到端的组件。它带来了 Unicode 编码、字节序列等一系列历史包袱，还引发了不少安全漏洞（例如通过特殊字节序列实现越狱攻击）。两个看起来完全相同的字符，在 tokenizer 内部可能被拆解成不同的 token。一个笑脸 emoji 对人类来说清晰可辨，但在模型眼里只是一个抽象符号，无法享受图像预训练带来的语义和结构迁移优势。是时候让 tokenizer 退出历史舞台了。

要知道，OCR 只是众多“视觉到文本”（vision → text）任务中的一种。而反过来，几乎所有“文本到文本”（text → text）的任务，都可以被重构为“视觉到文本”的形式，但反之却不行。

因此，未来的发展方向可能是：用户输入以图像形式进入模型，而模型输出仍保持为文本。毕竟，如何高效生成高质量图像像素，或者我们是否真的需要模型输出图像，仍是尚未解决的开放问题。

现在我得努力按捺住冲动，别立刻动手去开发一个完全基于图像输入的 nanochat 新版本……