linux - pdftotxt对某些繁体PDF转换失败
黄舟
黄舟 2017-04-17 11:34:28
[Linux讨论组]

使用的指令是:
pdftotext -enc UTF-8 test.pdf - 2>/dev/null

但输出为空,使用Adobe Reader打开可以正常保存为txt文件,就是使用pdftotext不行。

用windows版的pdftotext也不行。PDF的编码是Identity-H,请问有其它解决方案吗?

以下是转换失败的PDF:
http://pan.baidu.com/s/1eQIFZO2

黄舟
黄舟

人生最曼妙的风景,竟是内心的淡定与从容!

全部回复(1)
怪我咯

感谢依云的提点,问题已经解决了。

其实poppler对Identity-H的PDF是有BUG的,以下是BUG的描述:
https://bugs.freedesktop.org/show_bug.cgi?id=35468

以下链接是补丁:
http://cgit.freedesktop.org/poppler/poppler/commit/?id=018892d4ceccd5e2994cdb74cd2d401293fc929d

把补丁打上后重新编译就可以正常转换Identity-H编码的PDF。

另外我在程序里使用了-cfg参数,不过poppler 0.25已经不支持-cfg参数,需要去掉才行。

PS:此问题是基于joomla2.5的jifile组件产生的,所以要使组件正常运作还需要修改代码。

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号