首页 > php教程 > php手册 > 正文

Sphider + SCWS,打造完美PHP中文搜索引擎

PHP中文网
发布: 2016-06-06 19:59:25
原创
1748人浏览过

今日需要为几个网站做个全文搜索引擎,找了几个php开源项目,先试了一下sphinx ,可惜是基于数据库的,相当于数据库搜索的扩展。sphider还不错,不过中文的分词不行,基本只能靠空格和符号进行分词。想用luence的话只能用java和.net了,没有php版的,因此只好尝试自己修改sphider的分词了。还好找到了scws这个不错的中文分词系统,只需要把他的功能加入到sphider里面就可以了。

先按照他们的安装文档部署好Sphider和SCWS,这里使用的SCWS-1.1.6,需要部署好PHP扩展,注意Linux下要修改词库的权限,否则分词会把所有汉字单独分开。Sphider这里使用的丁廷臣简体中文完美汉化版带蜘蛛搜索引擎。

两者部署无误后,修改Sphider,找到admin文件夹下的spider文件,首先在开始加入代码初始化分词程序

$cws = scws_new();  
$cws->set_charset('gbk');  
$cws->set_rule('/usr/local/scws/etc/rules.ini'); //注意路径  
$cws->set_dict('/usr/local/scws/etc/dict.xdb');  
$cws->set_ignore(true);
登录后复制

注意这里使用的gbk,如果你的网页用的utf8编码,要把这里以及词典和规则文件的位置更改一下

 

立即学习PHP免费学习笔记(深入)”;

在index_url函数中,把原有的英文分词替换掉,在$wordarray = unique_array(explode(" ", $data['content']));前面加上

Angel工作室企业网站管理系统1.2
Angel工作室企业网站管理系统1.2

Angel工作室企业网站管理系统全DIV+CSS模板,中英文显示,防注入sql关键字过滤,多浏览器适应,完美兼容IE6-IE8,火狐,谷歌等符合标准的浏览器,模板样式集中在一个CSS样式中,内容与样式完全分离,方便网站设计人员开发模板与管理。系统较为安全,以设计防注入,敏感字符屏蔽。新闻,产品,单页独立关键字设计,提高搜索引擎收录。内置IIS测试,双击打启动预览网站    Angel工作室企业网站

Angel工作室企业网站管理系统1.2 0
查看详情 Angel工作室企业网站管理系统1.2
$cws->send_text($data['content']);
$list = $cws->get_tops(1000, $xattr);
settype($list, 'array');
$wordarray=array();
$i=0;
// segment
foreach ($list as $tmp)
{		
    $wordarray[$i][1]=$tmp['word'];
    $wordarray[$i][2]=$tmp['times'];
    $i++;
}
登录后复制

删除

$wordarray = unique_array(explode(" ", $data['content']));
登录后复制

$wordarray = calc_weights ($wordarray, $title, $host, $path, $data['keywords']);
登录后复制

两个语句,因为Sphider原有的英文分词这里就完全没必要用了,这里可以自行对$wordarray进行限制和优化,这里我写的很简单。

修改完成后,爬虫就能正常对中文进行分词了,效果还不错,注意如果出现乱码注意网页或者辞典编码是utf8还是gb2312。

相关标签:
PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号