
Andrej Karpathy(前特斯拉自动驾驶负责人、OpenAI 联合创始人)在社交媒体上对 DeepSeek 最新开源的 DeepSeek-OCR 表达了自己的观点:
我对 DeepSeek-OCR 的这篇新论文非常感兴趣。它本身是一个相当出色的 OCR 模型(虽然可能略逊于 dots.ocr),当然其背后的数据构建工作也功不可没,但这并不是我最关心的部分。
真正让我兴奋的是它引出的一个根本性问题——尤其考虑到我本质上是个计算机视觉研究者,只是目前“潜伏”在自然语言处理领域:对于大语言模型(LLM)而言,像素形式的图像是否比文本更适合作为输入? 也就是说,我们现在使用的文本 token,是不是一种既低效又笨拙的方式?
或许,未来的 LLM 输入应该全部是图像。即使你手头只有纯文本,也应该先将它渲染成图片再送入模型。 这种做法具备多个明显优势:
1️⃣ 更高的信息密度:正如论文所示,把文字转为图像后,可以用更少的视觉 token 表达更多内容,从而显著减少上下文长度,提升处理效率。
2️⃣ 更统一的信息流:输入不再局限于平面文本,可以自然地融合加粗字体、彩色文字以及任意嵌入图像等复杂格式,实现真正的多模态输入。
3️⃣ 更强的输入建模能力:图像输入允许使用双向注意力机制(bidirectional attention)来处理整个输入内容,而不是依赖逐词生成式的自回归方式,这通常能带来更强的理解能力。
4️⃣ 彻底淘汰分词器(Tokenizer)!! 我一直想说:分词器是个丑陋的、割裂的、非端到端的组件。它带来了 Unicode 编码、字节序列等一系列历史包袱,还引发了不少安全漏洞(例如通过特殊字节序列实现越狱攻击)。两个看起来完全相同的字符,在 tokenizer 内部可能被拆解成不同的 token。一个笑脸 emoji 对人类来说清晰可辨,但在模型眼里只是一个抽象符号,无法享受图像预训练带来的语义和结构迁移优势。是时候让 tokenizer 退出历史舞台了。
要知道,OCR 只是众多“视觉到文本”(vision → text)任务中的一种。而反过来,几乎所有“文本到文本”(text → text)的任务,都可以被重构为“视觉到文本”的形式,但反之却不行。
因此,未来的发展方向可能是:用户输入以图像形式进入模型,而模型输出仍保持为文本。毕竟,如何高效生成高质量图像像素,或者我们是否真的需要模型输出图像,仍是尚未解决的开放问题。
现在我得努力按捺住冲动,别立刻动手去开发一个完全基于图像输入的 nanochat 新版本……
转载自 蚁工厂 微博 原文:https://www.php.cn/link/27e34e1093ba7e24075b9f5b25dcf5a7
源码地址:点击下载
以上就是由 DeepSeek-OCR 启发的新思路:所有输入给 LLM 的内容都只应该是图像的详细内容,更多请关注php中文网其它相关文章!
 
                Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号