用fabpot/goutte(https://github.com/FriendsOfPHP/Goutte)抓取网页的时候,发现无论目标页面是什么编码(gb2312...),最后得到的都是unicode。
研究下发现是Symfony的crawler调用了html-entities编码。
mb_convert_encoding($content, 'HTML-ENTITIES', $charset);
引用
A numeric character reference in HTML refers to a character by its Universal Character Set/Unicode code point
以上就介绍了HTML-ENTITIES编码,包括了方面的内容,希望对PHP教程有兴趣的朋友有所帮助。
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号