如何使用Python构建深度推荐系统_协同过滤算法解析【指导】-Python教程-PHP中文网

如何使用Python构建深度推荐系统_协同过滤算法解析【指导】

舞姬之光

发布： 2025-12-22 23:54:09

原创

594人浏览过

深度推荐系统核心是融合协同过滤思想与神经网络优势，如用Embedding替代隐向量、MLP建模高阶交互；NeuMF通过GMF（内积）与MLP（非线性）双分支联合预测偏好得分。

如何使用python构建深度推荐系统_协同过滤算法解析【指导】

用Python构建基于协同过滤的深度推荐系统，核心不是堆砌深度模型，而是把协同过滤的思想和神经网络的优势结合起来——比如用Embedding层替代传统矩阵分解中的用户/物品隐向量，再用多层感知机（MLP）建模高阶交互。下面从原理到代码，分步讲清楚关键点。

协同过滤的本质：用户-物品交互建模

协同过滤不依赖物品内容或用户画像，只看历史行为（如评分、点击、购买）。它分为两类：

基于用户的CF：找相似用户，推荐他们喜欢但你没接触过的物品；
基于物品的CF：找相似物品，把你互动过的物品的“邻居”推荐给你。

实际工程中，基于物品的CF更稳定、可离线预计算、适合冷启动缓解；而深度方法（如NeuMF、LightGCN）通常聚焦在预测用户对物品的偏好得分，本质仍是用户-物品二元关系建模。

用PyTorch实现带Embedding的协同过滤（NeuMF简化版）

NeuMF（Neural Matrix Factorization）是经典起点：它把传统MF的内积 + MLP的非线性拟合融合起来。以下是最简可用结构：

立即学习“Python免费学习笔记（深入）”；

通义灵码

阿里云出品的一款基于通义大模型的智能编码辅助工具，提供代码智能生成、研发智能问答能力

304

查看详情

<font size="2">import torch
import torch.nn as nn
<p>class NeuMF(nn.Module):
def <strong>init</strong>(self, num_users, num_items, embed_dim=64):
super().<strong>init</strong>()</p><h1>GMF分支：普通MF，用内积建模线性交互</h1><pre class='brush:python;toolbar:false;'>    self.user_gmf = nn.Embedding(num_users, embed_dim)
    self.item_gmf = nn.Embedding(num_items, embed_dim)

    # MLP分支：用全连接学习高阶特征交互
    self.user_mlp = nn.Embedding(num_users, embed_dim)
    self.item_mlp = nn.Embedding(num_items, embed_dim)
    self.mlp_layers = nn.Sequential(
        nn.Linear(embed_dim * 2, 128),
        nn.ReLU(),
        nn.Linear(128, 64),
        nn.ReLU(),
        nn.Linear(64, 32)
    )

    # 合并输出
    self.output_layer = nn.Linear(32 + embed_dim, 1)  # GMF(64) + MLP(32)

def forward(self, user_idx, item_idx):
    # GMF部分
    gmf_user = self.user_gmf(user_idx)
    gmf_item = self.item_gmf(item_idx)
    gmf_out = gmf_user * gmf_item  # 元素级相乘

    # MLP部分
    mlp_user = self.user_mlp(user_idx)
    mlp_item = self.item_mlp(item_idx)
    mlp_in = torch.cat([mlp_user, mlp_item], dim=1)
    mlp_out = self.mlp_layers(mlp_in)

    # 拼接并输出预测得分
    concat = torch.cat([gmf_out, mlp_out], dim=1)
    return torch.sigmoid(self.output_layer(concat)).squeeze()</font>

登录后复制

注意：输入user_idx/item_idx必须是整数索引（0~N-1），不是原始ID，需提前做LabelEncoder或map转换；训练时用BCELoss（隐式反馈）或MSELoss（显式评分）。