0

0

微博热门的排序算法

php中文网

php中文网

发布时间:2016-06-06 20:40:33

|

2933人浏览过

|

来源于php中文网

原创

我有一张微博表,表里记录了点赞、转发、评论的数值,现在想优化热门的排序算法。

Q:热门数值的保存:以前我是在微博表中有一个字段 _hot 表示热度,每隔 60 分钟 UPDATE 这个字段,这样排序的时候就直接按照_hot字段排序就可以获得。这样能在一定程度上实现时间衰减。
更新的算法也可以和大家分享:

UPDATE microblog as v SET _hot = LOG10((_zan*2+_com*5+ _tran*3))+(unix_timestamp(v._createtime)-unix_timestamp(\'2008-12-01 00:00:00\'))/100000;

问题也很明显:
每隔 60s 就对于一张 4W+ 记录的表的每条记录做复杂的计算,对CPU的消耗太大。

A:我自己想实现的解决办法是将数据 SELECT 出来,将计算放在代码里面,然后再 UPDATE 回去。

不知道有没有更好的方式?如果用我的方式怎么实现呢?

回复内容:

我有一张微博表,表里记录了点赞、转发、评论的数值,现在想优化热门的排序算法。

Q:热门数值的保存:以前我是在微博表中有一个字段 _hot 表示热度,每隔 60 分钟 UPDATE 这个字段,这样排序的时候就直接按照_hot字段排序就可以获得。这样能在一定程度上实现时间衰减。
更新的算法也可以和大家分享:

UPDATE microblog as v SET _hot = LOG10((_zan*2+_com*5+ _tran*3))+(unix_timestamp(v._createtime)-unix_timestamp(\'2008-12-01 00:00:00\'))/100000;

问题也很明显:
每隔 60s 就对于一张 4W+ 记录的表的每条记录做复杂的计算,对CPU的消耗太大。

A:我自己想实现的解决办法是将数据 SELECT 出来,将计算放在代码里面,然后再 UPDATE 回去。

不知道有没有更好的方式?如果用我的方式怎么实现呢?

結論:

把密集的運算稀釋掉,充分用好閒置性能。

廢話:

首先,你的算法本身就可以優化。完全可以轉而計算 x*10^y 其中 x = _zan2+_com*5+ _tran*3,y = unix_timestamp(v._createtime)/100000

當然,我覺得 100000 應該改成 604800 (也就是 7 * 24 * 60 * 60) ,或者把 10 改成 2,考慮「半衰期」更方便。

那麼假設你接受了我的建議,使用 x*2^y 表示。等等這個式子不眼熟嘛,這不就是浮點數的形式嘛。。。當然還需要調整好 x 的區間。 這時只要另 x 屬於 [1, 10) 即可(實際操作時,只需要取前幾位,然後將位數加上去即可)。多餘/不夠的部分加/減到 y 裏去。

於是乎,浮點數怎麼比大小,你就怎麼排序。壓根就不需要計算 x*2^y 到底是多少。

首先正負的問題就不用考慮了,然後是指數的二進位表示法更大的其浮點數值更大,也就是 y 更大的。

Symanto Text Insights
Symanto Text Insights

基于心理语言学分析的数据分析和用户洞察

下载

y 一樣再比較 x。(注意這裏的 x y 已經不是一開始的了)。

當然,又因爲,原本的 y 足夠大時,x 對其影響可忽略,所以,早於一定時間的微博根本不用考慮。

於是乎,你唯一必須知道的,就是 x 和 y。y 不合條件根本不考慮 x。y 符合條件再把 x 的位數(在二進制表示下)加上去。比較 y,y 相等才精確計算 x 並比較 x。(也就是說,一開始,對 x 的計算只用精確到它有多少位。。。根本不需知道精確值)。

所以現在必須知道的只剩下 y,以及一部分 x 的位數,以及個別 x 的精確值。

那麼怎樣快速計算 x 的位數?先睡一覺再告訴你。

算了,其實完全沒必要考慮 x 位數的速算,因爲計算 x 已經很簡單很簡單了。。。你只需要在用戶點讚、評論、轉發的時候,更新一下 x 就行了。哎,順便更新一下 y 也不錯嘛。。。其實根本不用儲存 x 嘛,只需要儲存一個 y + (x 的位數) 就行了。用到 x 的精確值可能性很低,到時候再說吧。。。

等等,其實以上一大堆全都可以刪掉了。

你只要在 _hot 可能更新的時候,更新一下就好了。把密集的運算稀釋掉,充分用好閒置性能。雖然浪費,但是卻避開了鋒芒。

所以不如延遲更新一下?每到距離上一次更新超過 60s,就再更新一次。或者,乾脆把計算 _hot 的任務交給客戶端 js,來個分佈式計算?爲保險起見,在上榜前再計算一次榜上有名的。

前一段时间记得有一个讨论热门算法的帖子,如果数据量非常大的话,直接进行排序等操作是不合适的,

可以考虑建一个表保存热门数据,每次从主表中获取数据时,更新主表访问数量,同时将获取的数据和热门数据表中最小值进行比较,小于则不做操作,大于则对热门表进行插入排序

相关专题

更多
Word 字间距调整方法汇总
Word 字间距调整方法汇总

本专题整合了Word字间距调整方法,阅读下面的文章了解更详细操作。

2

2025.12.24

任务管理器教程
任务管理器教程

本专题整合了任务管理器相关教程,阅读下面的文章了解更多详细操作。

2

2025.12.24

AppleID格式
AppleID格式

本专题整合了AppleID相关内容,阅读专题下面的文章了解更多详细教程。

0

2025.12.24

csgo视频观看入口合集
csgo视频观看入口合集

本专题整合了csgo观看入口合集,阅读下面的文章了知道更多入口地址。

29

2025.12.24

yandex外贸入口合集
yandex外贸入口合集

本专题汇总了yandex外贸入口地址,阅读下面的文章了解更多内容。

58

2025.12.24

添加脚注通用方法
添加脚注通用方法

本专题整合了添加脚注方法合集,阅读专题下面的文章了解更多内容。

1

2025.12.24

重启电脑教程汇总
重启电脑教程汇总

本专题整合了重启电脑操作教程,阅读下面的文章了解更多详细教程。

3

2025.12.24

纸张尺寸汇总
纸张尺寸汇总

本专题整合了纸张尺寸相关内容,阅读专题下面的文章了解更多内容。

5

2025.12.24

Java Spring Boot 微服务实战
Java Spring Boot 微服务实战

本专题深入讲解 Java Spring Boot 在微服务架构中的应用,内容涵盖服务注册与发现、REST API开发、配置中心、负载均衡、熔断与限流、日志与监控。通过实际项目案例(如电商订单系统),帮助开发者掌握 从单体应用迁移到高可用微服务系统的完整流程与实战能力。

1

2025.12.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 7.7万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 6.9万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号