首页 > 新闻 > IT新闻 > 正文

Andrej Karpathy 评 DeepSeek-OCR 论文:图像输入可能成为大语言模型新方向

花韻仙語
发布: 2025-10-21 18:41:00
原创
950人浏览过

andrej karpathy 评 deepseek-ocr 论文:图像输入可能成为大语言模型新方向

特斯拉前自动驾驶负责人、OpenAI联合创始人Andrej Karpathy近日在社交媒体上对开源项目DeepSeek-OCR的论文发表评论,提出了一项引人深思的观点:未来大语言模型(LLM)可能应更多依赖图像而非传统文本token作为输入方式。这一见解迅速在AI研究圈引发热议,推动人们重新思考模型输入范式的演进路径。

Karpathy指出,当前主流的文本分词机制存在效率瓶颈,而以图像形式输入信息或能带来显著提升。他从多个角度分析了图像输入相较于标准token序列的潜在优势。

首先是更高的信息密度。当文字被渲染为图像后,单个视觉patch可承载多个字符内容,相比之下,传统tokenization方案中每个子词或字符往往需独立编码。这意味着,在处理超长上下文时,图像表示有望大幅减少所需的token数量,从而降低计算开销并提升整体效率。

其次是表达能力的增强。图像天然具备对字体样式、颜色、排版结构等视觉特征的承载能力,这些在纯文本系统中通常需要借助额外标记语言(如HTML或Markdown)来描述,而这本身又会增加token负担。若直接输入图像,模型便能更直观地感知文档的格式意图和重点信息。

第三点涉及注意力机制的设计优化。图像输入支持双向注意力结构,允许模型在整个上下文中自由聚焦任意位置,而不像自回归文本生成那样受限于因果顺序。这种非因果性有助于提升语义理解的完整性和准确性。

Karpathy还特别批评了tokenizer本身的复杂与冗余。他认为分词器是一个历史遗留组件,并非端到端设计的理想选择。例如,视觉上完全相同的字符因Unicode来源不同可能被切分为不同token,导致模型误判输入差异。若跳过分词步骤,直接将文本作为图像进行处理,则整个流程将更加简洁一致。

从技术基础来看,这一设想并非空中楼阁。近年来Vision Transformer等视觉架构已展现出强大的图像理解能力,而DeepSeek-OCR等系统的高精度也证明,从图像中还原并理解文本内容已成为现实。这为将“所有文本处理视为视觉任务”提供了可行性支撑。

但他也坦承一个关键限制:尽管输入可用图像,输出仍需回归文本。由于高质量图像生成难度大、成本高,用户交互界面依然依赖可读、可复制的文本结果。因此,即便采用图像输入,系统仍须保留强大的文本生成能力,无法彻底脱离传统语言建模模块。

可图大模型
可图大模型

可图大模型(Kolors)是快手大模型团队自研打造的文生图AI大模型

可图大模型32
查看详情 可图大模型

该观点激起了广泛讨论。从效率维度看,若图像输入确能压缩上下文长度,在处理法律文书、技术手册等长篇材料时将极具价值;从架构统一性出发,图像输入或将打通OCR、文档解析、多模态问答等多个任务边界,实现更一致的模型设计。

然而挑战同样明显。其一,图像编码本身计算量较大,可能抵消部分节省下来的token红利;其二,图像化的“文本”难以编辑、搜索或程序化操作,丧失了纯文本的灵活性;其三,现有NLP生态高度依赖token级处理工具链——包括训练数据、评估指标、推理引擎等——全面转向图像输入意味着重建整套基础设施。

从长远视角观察,Karpathy的看法揭示了一个深层趋势:随着视觉模型日益强大,“语言模型”或许正逐步演化为“通用信息处理器”,其中文本只是信息呈现的一种形态。在这种范式下,语言与视觉的界限将进一步模糊,催生更具包容性的智能系统。

DeepSeek-OCR之所以成为此次讨论的导火索,正是因为它标志着OCR已超越简单字符识别,迈向深层次文档语义理解的新阶段。如果模型能够精准解析复杂排版中的语义结构,那么将一切文本理解任务都归结为“视觉理解”在逻辑上是成立的。

Karpathy最后半开玩笑地表示:“得忍住别马上去做一个只接受图像输入的聊天机器人。”这句话既流露出他对该方向的热情,也折射出实际落地过程中的重重障碍。这种根本性架构变革需要大量实证验证,还需克服工程、性能与兼容性等多重难题。

在应用层面,即使图像输入最终被证实更具优势,过渡过程也将是渐进式的。更现实的发展路径或是混合模式:在重视格式保真的场景(如合同分析、网页理解)使用图像输入;而在强调可编程性和组合性的场合(如代码生成、指令编辑),继续沿用文本token。

总而言之,Karpathy的观点虽具颠覆性,却为AI输入表示的研究打开了新的思路。它质疑了“文本必须转为token”的默认设定,促使学界重新审视模型前端设计的根本原则。无论这一构想是否最终普及,它都可能成为推动下一代高效、统一AI架构的重要催化剂。

以上就是Andrej Karpathy 评 DeepSeek-OCR 论文:图像输入可能成为大语言模型新方向的详细内容,更多请关注php中文网其它相关文章!

AI工具
AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型,支持联网搜索。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号