0

0

昨日微博看见有人出了一道题

php中文网

php中文网

发布时间:2016-06-13 11:11:38

|

946人浏览过

|

来源于php中文网

原创

昨天微博看见有人出了一道题
在100万个用户名中,尽可能找出机器自动创建的用户名。
其实就是反spam比较简单的一种。

有些人说拿每个用户名取google或baidu搜索下看看有没有上网痕迹。先不说这个靠不靠谱,出题人明显是想从算法角度去解决此问题,而非社会工程学,所以那些就算了。

我开始想了个对100万个用户名先进行分词,然后统计每个词在这100万个用户名中出现的次数,也就是统计词频。然后按照词频进行倒排序,取top n。接下来就在那100万个用户名中找出包含top n中出现的词。这些很可能就是机器创建的。

但后来想这么做并不科学,可能会误杀一大片正常用户名。因为在每个时间段都会出现一些热词,很多人喜欢用这些热词作为用户名的一部分。或者是某些经典词,可能会被大部分人使用。

因此我觉得除非可以人工参与进来找出一些热词。将热词从top n中排除。否则这个方法一点也不好。


想看看大家有什么想法,一起讨论下。注意,此命题说了只能针对用户名,而不能去对用户发言或注册日期之类的做处理。


------解决方案--------------------
1、从以往的注册经历上看,机器自动创建的用户名 多以用户提交的注册信息组合而成。也有前缀加顺号的2、考察前缀相同的用户名是最简洁的方式如果手边有可供利用的数据,倒是可以探究一下算法。遗憾的是没有
------解决方案--------------------
这个我也关注下哈哈,虽然初学不太懂。
------解决方案--------------------
引用:
1、从以往的注册经历上看,机器自动创建的用户名 多以用户提交的注册信息组合而成。也有前缀加顺号的2、考察前缀相同的用户名是最简洁的方式如果手边有可供利用的数据,倒是可以探究一下算法。遗憾的是没有

就拿csdn的用户库来试。。。手上还有100M+的那个库。。。。

目前觉得靠谱点的就是 某些字符 + 数字,并且数字是顺着一直下去的。

------解决方案--------------------
如果我是机器,我就不用简字,英文,我用日文韩文马来文,你能有那么大的数据库辨伪?
所以防护王道还是验证码。
------解决方案--------------------
这个用算法无解...

ci169
ci1699
ci16999
ci169999
ci1699999

就像上面这几个CSDN账号哪个是机器注册能算出来嘛。
------解决方案--------------------
为什么hot的被认为机器的????
------解决方案--------------------
有意思的题目,有没有什么免费LAMP空间?上传一份,大家来攻破一下。
'tom'.substr(str_shuffle("abcdefghijklmnopqrstuvwxyz"), 0, 4);

------解决方案--------------------
使用 贝叶斯分类 应该只正路,只是如何组织原始数据是个问题
在有众多不确定因素的前提下就贸然提及算法有点不妥
建议你先使用 weka(一个java的数据挖掘软件)做一下探测
------解决方案--------------------
人注册的用户名肯定是有一定的逻辑的,这样才方便记忆,而机器自动注册的不用;
我觉得可以用破解密码的方法,用字典做筛子筛一下先。
题目只是说尽可能找出。

其实即便是错乱字母排序出来的用户名,也无法确定就是机器注册的,
除非有用户登录行为或者注册间隔等辅助信息,,不然,我真觉得这个找法没啥意义。

相关专题

更多
Word 字间距调整方法汇总
Word 字间距调整方法汇总

本专题整合了Word字间距调整方法,阅读下面的文章了解更详细操作。

2

2025.12.24

任务管理器教程
任务管理器教程

本专题整合了任务管理器相关教程,阅读下面的文章了解更多详细操作。

2

2025.12.24

AppleID格式
AppleID格式

本专题整合了AppleID相关内容,阅读专题下面的文章了解更多详细教程。

0

2025.12.24

csgo视频观看入口合集
csgo视频观看入口合集

本专题整合了csgo观看入口合集,阅读下面的文章了知道更多入口地址。

29

2025.12.24

yandex外贸入口合集
yandex外贸入口合集

本专题汇总了yandex外贸入口地址,阅读下面的文章了解更多内容。

58

2025.12.24

添加脚注通用方法
添加脚注通用方法

本专题整合了添加脚注方法合集,阅读专题下面的文章了解更多内容。

1

2025.12.24

重启电脑教程汇总
重启电脑教程汇总

本专题整合了重启电脑操作教程,阅读下面的文章了解更多详细教程。

3

2025.12.24

纸张尺寸汇总
纸张尺寸汇总

本专题整合了纸张尺寸相关内容,阅读专题下面的文章了解更多内容。

5

2025.12.24

Java Spring Boot 微服务实战
Java Spring Boot 微服务实战

本专题深入讲解 Java Spring Boot 在微服务架构中的应用,内容涵盖服务注册与发现、REST API开发、配置中心、负载均衡、熔断与限流、日志与监控。通过实际项目案例(如电商订单系统),帮助开发者掌握 从单体应用迁移到高可用微服务系统的完整流程与实战能力。

1

2025.12.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
前端HTML5+CSS3(女神版)
前端HTML5+CSS3(女神版)

共199课时 | 26.4万人学习

CI用户指南2.1.0
CI用户指南2.1.0

共0课时 | 0人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号