如何用Python实现简单的推荐系统？协同过滤基础实现

看不見的法師

发布时间：2025-06-30 20:29:01

688人浏览过

来源于php中文网

原创

推荐系统是根据用户过去喜好预测其未来可能喜欢的内容，python实现推荐系统的协同过滤方法分为基于用户的协同过滤（user-based cf）和基于物品的协同过滤（item-based cf）。1. 基于用户的协同过滤通过计算用户相似度（如余弦相似度），根据相似用户的评分预测目标用户对未评分物品的评分，并生成推荐；2. 基于物品的协同过滤则通过计算物品相似度，根据目标用户对相似物品的评分进行预测并生成推荐。此外，冷启动问题可通过基于内容的推荐或引导活跃用户反馈解决，评估指标包括准确率、召回率、f1值、ndcg和rmse，优化方法包含正则化、复杂相似度度量、多算法结合及矩阵分解等。

如何用Python实现简单的推荐系统？协同过滤基础实现

推荐系统，简单来说，就是根据用户过去的喜好，预测他未来可能喜欢的东西。Python实现推荐系统，协同过滤是入门，也是个不错的起点。

解决方案

协同过滤的核心思想是：如果用户A和用户B对某些物品的喜好相似，那么他们对其他物品的喜好也可能相似。或者说，如果物品A和物品B被很多用户同时喜欢，那么它们可能也很相似。协同过滤主要分为两种：基于用户的协同过滤（User-Based CF）和基于物品的协同过滤（Item-Based CF）。

1. 基于用户的协同过滤（User-Based CF）：

立即学习“Python免费学习笔记（深入）”；

这种方法找到与目标用户兴趣相似的用户群体，然后将这些用户喜欢的东西推荐给目标用户。

数据准备： 首先，你需要用户-物品评分矩阵。这个矩阵的行代表用户，列代表物品，矩阵中的值代表用户对物品的评分。如果用户没有对某个物品评分，则该值为空或0。

import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 示例数据：用户-物品评分矩阵
ratings = np.array([
    [5, 3, 0, 1],
    [4, 0, 0, 1],
    [1, 1, 0, 5],
    [1, 0, 0, 4],
    [0, 1, 5, 4],
])

# 用户ID
user_ids = ['User1', 'User2', 'User3', 'User4', 'User5']
# 物品ID
item_ids = ['Item1', 'Item2', 'Item3', 'Item4']

计算用户相似度： 常用的相似度计算方法有余弦相似度、皮尔逊相关系数等。这里使用余弦相似度。

# 计算用户之间的余弦相似度
user_similarity = cosine_similarity(ratings)
print("用户相似度矩阵：")
print(user_similarity)

预测评分： 根据相似用户的评分，预测目标用户对未评分物品的评分。

def predict_user_based(user_id, item_id, ratings, user_similarity):
    user_index = user_ids.index(user_id)
    item_index = item_ids.index(item_id)

    # 找到与目标用户相似的其他用户
    similar_users = user_similarity[user_index]

    # 排除目标用户自身
    similar_users[user_index] = 0

    # 获取相似用户的评分
    user_ratings = ratings[:, item_index]

    # 计算加权平均评分
    numerator = np.sum(similar_users * user_ratings)
    denominator = np.sum(np.abs(similar_users))

    if denominator == 0:
        return 0  # 避免除以零

    predicted_rating = numerator / denominator
    return predicted_rating

# 预测User1对Item3的评分
predicted_rating = predict_user_based('User1', 'Item3', ratings, user_similarity)
print(f"预测User1对Item3的评分: {predicted_rating}")

生成推荐： 选择预测评分最高的几个物品推荐给目标用户。

2. 基于物品的协同过滤（Item-Based CF）：

Javashop

Javashop是基于 Java技术构建的开源网店系统，其特色是组件机制和模板引擎让扩展变得简单，可有第三方组件可供选择，降低二次开发成本。同时 Javashop推出 “ 第三方开发者合作共赢计划 ”，依托计时软件有效计算开发费用，期望在实现双赢的基础上走出我们国人自己开源模式，详见：Javashop第三方开发者合作共赢计划Javashop v3.0 升级日志：一、机制1. 完善组件机制，更易

下载

这种方法找到与目标用户已喜欢的物品相似的物品，然后推荐给目标用户。

数据准备： 同样需要用户-物品评分矩阵。

计算物品相似度： 计算物品之间的相似度，可以使用余弦相似度或其他相似度度量。

# 计算物品之间的余弦相似度
item_similarity = cosine_similarity(ratings.T)
print("物品相似度矩阵：")
print(item_similarity)

预测评分： 根据目标用户对相似物品的评分，预测目标用户对未评分物品的评分。

def predict_item_based(user_id, item_id, ratings, item_similarity):
    user_index = user_ids.index(user_id)
    item_index = item_ids.index(item_id)

    # 获取用户对所有物品的评分
    user_ratings = ratings[user_index, :]

    # 找到与目标物品相似的其他物品
    similar_items = item_similarity[item_index]

    # 排除目标物品自身
    similar_items[item_index] = 0

    # 计算加权平均评分
    numerator = np.sum(similar_items * user_ratings)
    denominator = np.sum(np.abs(similar_items))

    if denominator == 0:
        return 0  # 避免除以零

    predicted_rating = numerator / denominator
    return predicted_rating

# 预测User1对Item3的评分
predicted_rating = predict_item_based('User1', 'Item3', ratings, item_similarity)
print(f"预测User1对Item3的评分: {predicted_rating}")

生成推荐： 选择预测评分最高的几个物品推荐给目标用户。

代码示例： 上面已经包含了代码示例，可以复制粘贴直接运行。

如何处理冷启动问题？

冷启动是指新用户或新物品没有足够的数据来准确预测其偏好。对于新用户，可以采用基于内容的推荐，根据用户的注册信息或行为，推荐与其属性相似的物品。对于新物品，可以推荐给一些活跃用户，收集他们的反馈，然后再进行推荐。

如何评估推荐系统的效果？

评估推荐系统效果的指标有很多，常见的有：

准确率（Precision）： 推荐的物品中有多少是用户真正喜欢的。
召回率（Recall）： 用户真正喜欢的物品有多少被推荐了。
F1 值： 准确率和召回率的调和平均值。
NDCG（Normalized Discounted Cumulative Gain）： 考虑推荐物品的排序，越靠前的物品越重要。
RMSE（Root Mean Squared Error）： 预测评分与实际评分之间的均方根误差。

如何优化协同过滤算法？

协同过滤算法有很多优化方法，例如：

增加正则化： 防止过拟合，提高模型的泛化能力。
使用更复杂的相似度度量： 例如，考虑用户评分的时间衰减。
结合其他推荐算法： 例如，将协同过滤与基于内容的推荐结合起来。
使用矩阵分解： 例如，SVD（奇异值分解）或 ALS（交替最小二乘法），可以降低数据维度，提高计算效率。

Python 测试中如何隔离外部依赖？

Python API 接口如何做权限控制？

Python 常见数据结构误用总结

Python lambda 为什么是表达式而不是语句？

如何检测当前代码是否运行在 Jupyter Notebook 环境里

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

759

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

639

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

762

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1265

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

549

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

709

2023.08.11