推荐算法学习笔记2.1:基于深度学习的推荐算法-基于共线矩阵的深度推荐算法-NeuralCF模型

NeuralCF模型

NeuralCF模型将矩阵分解和逻辑回归思想进行结合，利用神经网络分别学习用户和物品的隐向量表示（Embedding），然后将矩阵分解中的内积互操作替换成神经网络计算，从而更好地从特征中学习到有用的信息。

原论文(https://arxiv.org/pdf/1708.05031)中还提出使用不同的隐向量表示和互操作可以提高模型的拟合能力，从而提高表现。混合模型如下图所示：

在这里插入图片描述

值得注意的是，该模型将推荐问题转化成CTR分类问题，所以使用了交叉熵损失函数作为模型的训练函数。

总结：

NeuralCF模型利用深度学习的拟合能力，更好地学习隐向量表示，并且通过定义多种互操作解决了原特征分解方法欠拟合的问题。但也带来了过拟合和数据需求、训练复杂度等问题。
NeuralCF模型也没有使用用户和物品的属性特征，存在信息浪费的问题。

附录：
附1：交叉熵损失函数推导

对于一个M分类问题，考虑到随机变量 $Y$ 表示采样样本 $\mathbf{x}_i$ 属于某一类，如采样到 $\mathbf{y}_i=[0,0,\dots,1(jth),\dots,0]$ , 其中 $\mathbf{y}_i[j]=1$ 表示样本 $\mathbf{x}_i$ 属于 $j$ 类别。假设事件：样本 $\mathbf{x}_i$ 属于任意类别服从泊松分布，则采样到 $\mathbf{y}_i=[0,0,\dots,1(jth),\dots,0]$ 的概率为：

$p_j\prod_{k=1,2,\dots,M;k\ne j}{(1-p_k)}$

对于所有的样本 $\mathbf{x}_i$ ，我们想通过神经网络估计样本 $\mathbf{x}_i$ 属于任意类别 $j$ 的概率 $\mathbf{p}_i[j]$ ，即网络的输出为向量 $\mathbf{p}_i=f(\mathbf{x}_i;\boldsymbol{\theta})$ , 从而最大化采样到标签 $\mathbf{y}_i$ 的概率，即

$\max_{\boldsymbol{\theta}}\sum_{i=1,\dots,N}\prod_{k=1,2,\dots,M}{(1-\mathbf{p}_i[k])^{1-\mathbf{y}_i[k]}\mathbf{p}_i[k]^{\mathbf{y}_i[k]}}$

通过负对数操作，将该目标函数转为最小化目标并避开乘项，

$\min_{\boldsymbol{\theta}}\quad-\sum_{i=1,\dots,N}\sum_{k=1,2,\dots,M}{(1-\mathbf{y}_i[k])log{(1-\mathbf{p}_i[k])}+\mathbf{y}_i[k]log(\mathbf{p}_i[k])}$

上面公式中，认为 $\mathbf{x}_i$ 属于各个类别的事件是独立，这不太符合多分类的含义，于是我们进一步引入softmax函数，从而让其他类别应该是某一类别的负类，

$softmax(\mathbf{p})=[\frac{exp(\mathbf{p}[0])}{\sum_{j=1,\dots,M}exp(\mathbf{p}[j])},\dots,\frac{exp(\mathbf{p}[M])}{\sum_{j=1,\dots,M}exp(\mathbf{p}[j])}]$

此时，我们可以将损失函数改为仅考虑样本为某一类别的正类（不考虑其为负类）的概率,对于某一样本 $\mathbf{x}_i$ ,其交叉熵损失函数如下所示，

$\min_{\boldsymbol{\theta}}\quad-\sum_{k=1,2,\dots,M}{\mathbf{y}_i[k]log(softmax(\mathbf{p}_i[k]))}$

当标签 $\mathbf{y}_i=[0,0,\dots,1(jth),\dots,0]$ 时，该损失函数对参数 $\boldsymbol{\theta}$ 的梯度为,

$-\frac{\partial log}{\partial softmax(\mathbf{p}_i[k])}\frac{\partial softmax}{\partial \mathbf{p}_i[k]}\frac{\partial \mathbf{p}_i[k]}{\partial \boldsymbol \theta} \\=-\frac{1}{softmax(\mathbf{p}_i[k])}\frac{\partial softmax}{\partial \mathbf{p}_i[k]}\frac{\partial \mathbf{p}_i[k]}{\partial \boldsymbol \theta}\\$

当 $j = k$ 时，

$-\frac{1}{softmax(\mathbf{p}_i[k])}\frac{\partial softmax}{\partial \mathbf{p}_i[k]}\frac{\partial \mathbf{p}_i[k]}{\partial \boldsymbol \theta}\\=-\frac{1}{softmax(\mathbf{p}_i[k])}(softmax(\mathbf{p}_i[k])-softmax(\mathbf{p}_i[k])^2)\frac{\partial \mathbf{p}_i[k]}{\partial \boldsymbol \theta}\\=(softmax(\mathbf{p}_i[k])-1)\frac{\partial \mathbf{p}_i[k]}{\partial \boldsymbol \theta}$

否则，

$-\frac{1}{softmax(\mathbf{p}_i[k])}\frac{\partial softmax}{\partial \mathbf{p}_i[k]}\frac{\partial \mathbf{p}_i[k]}{\partial \boldsymbol \theta}\\=-\frac{1}{softmax(\mathbf{p}_i[k])}(-softmax(\mathbf{p}_i[k])^2)\frac{\partial \mathbf{p}_i[k]}{\partial \boldsymbol \theta}\\=softmax(\mathbf{p}_i[k])\frac{\partial \mathbf{p}_i[k]}{\partial \boldsymbol \theta}$