PHP中文转拼音(支持20378汉字)

php中文网
发布: 2016-06-13 12:10:51
原创
1439人浏览过

PHP汉语转拼音(支持20378汉字)



PHP汉语转拼音(支持20378汉字)

 在项目中需要通过php来实现抽取汉字的拼音功能,当时实现的方式使用GB2312的字库来实现的,但是在项目中发现像”咔咔“这样的汉字就无能为力了,抽取不出来正确的拼音了。GB2312类库的版本地址:http://blog.csdn.net/wgw335363240/article/details/38588151

   为了能够尽可能多的正确抽取出汉字的拼音,参考了pinyin4j.jar的java实现,把汉语拼音的抽取转换为php版本,经测试,使用到的汉字基本都可以转换正确。在转换的过程中,php引擎需要安装了”mbstring“类库的支持,因为php引擎默认是使用iso-8859-1编码来实现的(即strlen('中国')的长度为6,相当于java中的”中国“.getBytes().length,它的长度也为6,当时java提供了”中国“.tochars()的实现,这个方法得到的chars集合长度为2,实际上就是按照汉字来遍历的),mbstring类库就相当于java中的tochars方法,把字符串按照汉字来遍历。如果不安装类库,还要自己根据utf8编码的规则类遍历byte,从而实现对汉字的拼音的抽取。

   注意:

   (1)php需要支持mbstring类库

   (2)php要是使用utf-8编码编写,这里比较懒,没有编写支持其他语言

   汉字转换拼音的原理如下:

   (1)定义Unicode与拼音的映射字典(在php体现为数组),该字典从pinyin4j.jar文件,去掉了多音字和声调

   (2)输入一个汉字如”严厉“,利用mbstring类库解析为”严“和”厉“两个字符

   (3)把解析后的”严“和”厉“依次调用相关方法抽取一个汉字的拼音,如先抽取”严“

   (4)把”严“字(此时是3个byte编码)转换为Unicode码(4E25,十进制为:20005)

   (5)把Unicode码(4E25)与字典的key进行比较,获取到对应的拼音

   (6)”厉”字也采取同样的策略来抽取拼音

   抽取效率:

       抽取一个汉字的时间:0.00076600000000004秒

   代码:

         上传到资源中,现在上传不上去。

相关标签:
PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号