Andrej Karpathy 评 DeepSeek-OCR 论文：图像输入可能成为大语言模型新方向-IT新闻-PHP中文网

Andrej Karpathy 评 DeepSeek-OCR 论文：图像输入可能成为大语言模型新方向

花韻仙語

发布： 2025-10-21 18:41:00

原创

950人浏览过

andrej karpathy 评 deepseek-ocr 论文：图像输入可能成为大语言模型新方向

特斯拉前自动驾驶负责人、OpenAI联合创始人Andrej Karpathy近日在社交媒体上对开源项目DeepSeek-OCR的论文发表评论，提出了一项引人深思的观点：未来大语言模型（LLM）可能应更多依赖图像而非传统文本token作为输入方式。这一见解迅速在AI研究圈引发热议，推动人们重新思考模型输入范式的演进路径。

Karpathy指出，当前主流的文本分词机制存在效率瓶颈，而以图像形式输入信息或能带来显著提升。他从多个角度分析了图像输入相较于标准token序列的潜在优势。

首先是更高的信息密度。当文字被渲染为图像后，单个视觉patch可承载多个字符内容，相比之下，传统tokenization方案中每个子词或字符往往需独立编码。这意味着，在处理超长上下文时，图像表示有望大幅减少所需的token数量，从而降低计算开销并提升整体效率。

其次是表达能力的增强。图像天然具备对字体样式、颜色、排版结构等视觉特征的承载能力，这些在纯文本系统中通常需要借助额外标记语言（如HTML或Markdown）来描述，而这本身又会增加token负担。若直接输入图像，模型便能更直观地感知文档的格式意图和重点信息。

第三点涉及注意力机制的设计优化。图像输入支持双向注意力结构，允许模型在整个上下文中自由聚焦任意位置，而不像自回归文本生成那样受限于因果顺序。这种非因果性有助于提升语义理解的完整性和准确性。

Karpathy还特别批评了tokenizer本身的复杂与冗余。他认为分词器是一个历史遗留组件，并非端到端设计的理想选择。例如，视觉上完全相同的字符因Unicode来源不同可能被切分为不同token，导致模型误判输入差异。若跳过分词步骤，直接将文本作为图像进行处理，则整个流程将更加简洁一致。

从技术基础来看，这一设想并非空中楼阁。近年来Vision Transformer等视觉架构已展现出强大的图像理解能力，而DeepSeek-OCR等系统的高精度也证明，从图像中还原并理解文本内容已成为现实。这为将“所有文本处理视为视觉任务”提供了可行性支撑。

但他也坦承一个关键限制：尽管输入可用图像，输出仍需回归文本。由于高质量图像生成难度大、成本高，用户交互界面依然依赖可读、可复制的文本结果。因此，即便采用图像输入，系统仍须保留强大的文本生成能力，无法彻底脱离传统语言建模模块。

可图大模型

可图大模型（Kolors）是快手大模型团队自研打造的文生图AI大模型

查看详情

该观点激起了广泛讨论。从效率维度看，若图像输入确能压缩上下文长度，在处理法律文书、技术手册等长篇材料时将极具价值；从架构统一性出发，图像输入或将打通OCR、文档解析、多模态问答等多个任务边界，实现更一致的模型设计。

然而挑战同样明显。其一，图像编码本身计算量较大，可能抵消部分节省下来的token红利；其二，图像化的“文本”难以编辑、搜索或程序化操作，丧失了纯文本的灵活性；其三，现有NLP生态高度依赖token级处理工具链——包括训练数据、评估指标、推理引擎等——全面转向图像输入意味着重建整套基础设施。

从长远视角观察，Karpathy的看法揭示了一个深层趋势：随着视觉模型日益强大，“语言模型”或许正逐步演化为“通用信息处理器”，其中文本只是信息呈现的一种形态。在这种范式下，语言与视觉的界限将进一步模糊，催生更具包容性的智能系统。

DeepSeek-OCR之所以成为此次讨论的导火索，正是因为它标志着OCR已超越简单字符识别，迈向深层次文档语义理解的新阶段。如果模型能够精准解析复杂排版中的语义结构，那么将一切文本理解任务都归结为“视觉理解”在逻辑上是成立的。

Karpathy最后半开玩笑地表示：“得忍住别马上去做一个只接受图像输入的聊天机器人。”这句话既流露出他对该方向的热情，也折射出实际落地过程中的重重障碍。这种根本性架构变革需要大量实证验证，还需克服工程、性能与兼容性等多重难题。

在应用层面，即使图像输入最终被证实更具优势，过渡过程也将是渐进式的。更现实的发展路径或是混合模式：在重视格式保真的场景（如合同分析、网页理解）使用图像输入；而在强调可编程性和组合性的场合（如代码生成、指令编辑），继续沿用文本token。

总而言之，Karpathy的观点虽具颠覆性，却为AI输入表示的研究打开了新的思路。它质疑了“文本必须转为token”的默认设定，促使学界重新审视模型前端设计的根本原则。无论这一构想是否最终普及，它都可能成为推动下一代高效、统一AI架构的重要催化剂。

以上就是Andrej Karpathy 评 DeepSeek-OCR 论文：图像输入可能成为大语言模型新方向的详细内容，更多请关注php中文网其它相关文章！

大家都在看：

fetcher v2.15.2 已经发布，基于 Fetch API 的现代 HTTP 客户端库影石创始人刘靖康称大疆董事长汪滔垄断：前无古人，后无来者 AI 应用市场 Q3 现状：移动端用户突破 7 亿，豆包夺原生 AI APP 月活第一腾势N8L正式上市：29.98万元起售，切入高端家用SUV红海我国前三季度全社会用电量 7.77 万亿千瓦时，创历史新高