php中文分词源码遇到的小问题

php中文网
发布: 2016-06-23 14:00:22
原创
1122人浏览过

define('_SP_', chr(0xFF).chr(0xFE)); define('UCS2', 'ucs-2be');
登录后复制

这2个常量定义的作用是什么?_SP_定义成chr(0xFF).chr(0xFE)是什么意思,我在ascii对照表内根本找不到FF,FE这2个对应的编码啊?
后面的代码如下
        //载入副词典        $hw = '';        $ds = file($dicAddon);//17行的txt格式字典文件        foreach($ds as $d)        {            $d = trim($d);            if($d=='') continue;            $estr = substr($d, 1, 1);            if( $estr==':' ) {                $hw = substr($d, 0, 1);            }            else            {                $spstr = _SP_;                $spstr = iconv(UCS2, 'utf-8', $spstr);//怎么会出现ucs2编码?咋回事                $ws = explode(',', $d);//每一行的汉字,用中间的逗号分成数组                $wall = iconv('utf-8', UCS2, join($spstr, $ws));//用_SP_又组合成了字符串??,然后又转换成了ucs2?                $ws = explode(_SP_, $wall);//又接着分割成数组?啥意思啊!!!                foreach($ws as $estr)                {                    $this->addonDic[$hw][$estr] = strlen($estr);                }            }        }
登录后复制


这段代码,就是载入字典文件,可是我没明白ELSE代码的逻辑?谁能简单说说

有道小P
有道小P

有道小P,新一代AI全科学习助手,在学习中遇到任何问题都可以问我。

有道小P 64
查看详情 有道小P

回复讨论(解决方案)

你的字典文件是 ucs-2be 编码的

chr(0xFF).chr(0xFE) 是 ucs-2be 的 BOM

你的字典文件是 ucs-2be 编码的

chr(0xFF).chr(0xFE) 是 ucs-2be 的 BOM

还是有些不懂,建立_SP_这个常量有什么作用啊?ucs-2be的BOM直接写出来存入一个变量就行了,为什么还要拿chr()函数计算出来?

chr(0xFF).chr(0xFE) 可写作 “\xff\xfe"
不过作者没有你那么聪明,所以就用字符串函数写了

chr(0xFF).chr(0xFE) 可写作 “\xff\xfe"
不过作者没有你那么聪明,所以就用字符串函数写了
作者是dede的作者,怎么可能?kending bushi zheyangde 

不是他,就是你
不知道变通!

不是他,就是你
不知道变通!
版主,我真没弄懂,人家用_SP_当字符串分割标识的,不是BOM吧,能帮帮忙嘛!

BOM 是编码类型声明,把 _SP_ 解释为 BOM 是为了帮助理解
你不是”在ascii对照表内根本找不到FF,FE这2个对应的编码“
再看

define('_SP_', chr(0xFF).chr(0xFE)); define('UCS2', 'ucs-2be');$spstr = _SP_;$spstr = iconv(UCS2, 'utf-8', $spstr);echo bin2hex($spstr);
登录后复制
得到 efbfbe
这是 utf-8 的 BOM

至于他为什么要这样做,你看看字典文件就知道是怎么回事了

BOM 是编码类型声明,把 _SP_ 解释为 BOM 是为了帮助理解
你不是”在ascii对照表内根本找不到FF,FE这2个对应的编码“
再看

define('_SP_', chr(0xFF).chr(0xFE)); define('UCS2', 'ucs-2be');$spstr = _SP_;$spstr = iconv(UCS2, 'utf-8', $spstr);echo bin2hex($spstr);
登录后复制
得到 efbfbe
这是 utf-8 的 BOM

至于他为什么要这样做,你看看字典文件就知道是怎么回事了
你说的好像不对,但是也没人知道

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号