2009-02-24

我在NetflixPrize的进展



NetflixPrize是一个collaborative filtering的比赛,目的在于设计出更好的推荐系统。我上周用它的数据集测试了我的算法,因为参数时间还短,目前结果不是很理想。下面将我的方法和一些已知的结果公布一下。

目前我使用的是SVD的方法,用这个方法,是因为这个方法比较快,需要的内存不大(3G)左右。至于kNN的方法,我的计算相似度矩阵的算法还比较耗时(有人说这个步骤可以很快),所以我先尝试了SVD的方法。

我目前的模型用的是最简单的svd模型:
r(u,i) = mean + b(u) + b(i) + <p(u), q(i)>
用梯度下降法优化。
6fa8f2de

在训练时,可以probe数据集里面的数据是包含在train里的,我们计算推广误差的时候,需要在train-probe的数据集上训练。但是在计算quiz的时候,还是要在整个train上做训练,否则精度相差还是很大的。

2009/02/24 d = 250,学习速率0.0055,正则化参数0.002,RMSE = 0.904

2009/02/25
今天用一种新的方法计算item-based算法中的相关系数,只需要3个小时(包含读取文件的时间)。

详细进展和介绍在 http://xlnetflixprize.blogspot.com/

1 条评论:

  1. What's Going down i am new to this, I stumbled upon this I have discovered It absolutely helpful and it has helped me out loads. I am hoping to contribute & assist other users like its helped me. Great job.

    Also visit my webpage; payday loans

    回复删除