首页 > php教程 > php手册 > 正文

【代码】PHP 分析函数similar

php中文网
发布: 2016-06-06 19:44:36
原创
1735人浏览过

PHP 有个计算两个字符串相度的函数similar_text(),可以得出一个百分比来表示两个字符串的相程度。效果如下: 1similar_text('aaaa', 'aaaa', $percent);2var_dump($percent);3//float(100)4similar_text('aaaa', 'aaaabbbb', $percent);5var_dump($percent)

PHP有个计算两个字符串相似度的函数similar_text(),可以得出一个百分比来表示两个字符串的相似程度。效果如下:


1
similar_text('aaaa', 'aaaa', $percent);
2
var_dump($percent);
3
//float(100)
4
similar_text('aaaa', 'aaaabbbb', $percent);
5
var_dump($percent);
6
//float(66.666666666667)
7
similar_text('abcdef', 'aabcdefg', $percent);
8
var_dump($percent);
9
//float(85.714285714286)
登录后复制


利用这个函数,可以用来做模糊搜索的功能,或者其他需要模糊匹配的功能。最近我在验证码识别研究中的特征匹配一步上涉及到了这个函数。


但这个函数具体使用了怎样的算法呢?我研究了他的底层实现,总结为三步:


(1)找出两个字符串中相同部分最长的一段;
(2)再用同样的方法在剩下的两段中分别找出相同部分最长的一段,以此类推,直到没有任何相同部分;
(3)相似度 = 所有相同部分的长度之和 * 2 / 两个字符串的长度之和;


我研究的源代码版本是PHP 5.4.6,相关的代码位于文件php-5.4.6/ext/standard/string.c的第2951~3031行。以下是我加过注释后源代码。

01
//找出两个字符串中相同部分最长的一段
02
static void php_similar_str(const char *txt1, int len1, const char *txt2, int len2, int *pos1, int *pos2, int *max)
03
{
04
    char *p, *q;
05
    char *end1 = (char *) txt1 + len1;
06
    char *end2 = (char *) txt2 + len2;
07
    int l;
08
 
09
    *max = 0;
10
    //以第一个字符串为基准开始遍历
11
    for (p = (char *) txt1; p < end1; p++) {
12
        //遍历第二个字符串
13
        for (q = (char *) txt2; q < end2; q++) {
14
            //发现有字符相同,继续循环找,l为相同部分的长度
15
            for (l = 0; (p + l < end1) && (q + l < end2) && (p[l] == q[l]); l++);
16
            //冒泡方法找出最长的一个l,并记住相同部分的开始位置
17
            if (l > *max) {
18
                *max = l;
19
                *pos1 = p - txt1;
20
                *pos2 = q - txt2;
21
            }
22
        }
23
    }
24
}
25
 
26
//计算两个字符串的相同部分的总长度
27
static int php_similar_char(const char *txt1, int len1, const char *txt2, int len2)
28
{
29
    int sum;
30
    int pos1, pos2, max;
31
 
32
    //找出两个字符串相同部分最长的一段
33
    php_similar_str(txt1, len1, txt2, len2, &pos1, &pos2, &max);
34
    //这里是对sum的初始赋值,也是对max值的判断
35
    //如果max为零,表示两个字符串没有任何相同的字符,也就会跳出if
36
    if ((sum = max)) {
37
        //对前半段递归,相同段长度累加
38
        if (pos1 && pos2) {
39
            sum += php_similar_char(txt1, pos1,
40
                                    txt2, pos2);
41
        }
42
        //对后半段递归,相同段长度累加
43
        if ((pos1 + max < len1) && (pos2 + max < len2)) {
44
            sum += php_similar_char(txt1 + pos1 + max, len1 - pos1 - max,
45
                                    txt2 + pos2 + max, len2 - pos2 - max);
46
        }
47
    }
48
 
49
    return sum;
50
}
51
 
52
//PHP函数定义
53
PHP_FUNCTION(similar_text)
54
{
55
    char *t1, *t2;
56
    zval **percent = NULL;
57
    int ac = ZEND_NUM_ARGS();
58
    int sim;
59
    int t1_len, t2_len;
60
 
61
    //检查参数合法性
62
    if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "ss|Z", &t1, &t1_len, &t2, &t2_len, &percent) == FAILURE) {
63
        return;
64
    }
65
 
66
    //如果有第三个参数
67
    if (ac > 2) {
68
        convert_to_double_ex(percent);
69
    }
70
 
71
    //如果两个字符串长度都为0,返回0
72
    if (t1_len + t2_len == 0) {
73
        if (ac > 2) {
74
            Z_DVAL_PP(percent) = 0;
75
        }
76
 
77
        RETURN_LONG(0);
78
    }
79
 
80
    //调用上面的函数,计算两个字符串的相似度
81
    sim = php_similar_char(t1, t1_len, t2, t2_len);
82
 
83
    //可以看到percent的计算公式
84
    if (ac > 2) {
85
        Z_DVAL_PP(percent) = sim * 200.0 / (t1_len + t2_len);
86
    }
87
 
88
    RETURN_LONG(sim);
89
}
登录后复制


另外,php还提供了另外一个计算字符串相似度的函数levenshtein(),通过计算两个字符串的编辑距离来表示字符串相似度,这也是一种很常见的算法。levenshtein()的性能相比similar_text()要好一些,因为通过前面的代码分析可以看到,similar_text()的复杂度是o(n^3),n表示最长字符串的长度,而levenshtein()的复杂度为o(m*n),m与n分别为两个字符串的长度。


以上是本文关于PHP 分析函数similar_text()的原理,希望本文对广大php开发者有所帮助,感谢阅读本文。更多有关php技术问题欢迎加群探讨:304224365 ,验证码:csl,不写验证不予通过。

AI Surge Cloud
AI Surge Cloud

低代码数据分析平台,帮助企业快速交付深度数据

AI Surge Cloud 84
查看详情 AI Surge Cloud
相关标签:
php
PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号