向量 Vector 的空间: 对TopK和预测RMSE的看法

2009-08-04

对TopK和预测RMSE的看法

很多人都困惑与TopK和RMSE的评测的区别，我感觉其实这两种评测方法解决的是不同的两个问题。

在设计实际的推荐系统时，我们不可能计算一个用户对所以电影的评分，然后排序，找出topK。在BellKor的论文中，他用TopK评测预测问题时，是随机选出1000个电影，然后评分排序，得出TopK。

实际的系统中，我们需要用binary data首先找出一个候选集，这个过程其实是TopK的过程（这个过程其实不需要评分，只需要关系0-1矩阵），然后我们计算用户对候选集中电影的评分，然后对候选集用评分排序。所以说，topk和netflix其实不是一个问题，而是推荐系统中两个不同的问题，所以用不同的评测方法也是应该的。

在Netflix中，我不需要做TopK，因为候选集已经给定了，就是quiz。在实际系统中，我们需要先做TopK，然后用评分对TopK中的K个候选物品评分排序。

举个简单的例子。 topk是找到用户最可能看的电影，他的排名是根据用户看电影的可能性排名的，而rating是在用户可能看的电影中找出用户喜欢的电影，因为有的时候用户也会对不喜欢的电影评分。所以这两者结合的结果就是，找出用户最可能看，且看了之后会喜欢的电影。

向量 Vector 的空间

2009-08-04

对TopK和预测RMSE的看法

没有评论:

发表评论

我的简介

FeedBurner FeedCount

关注者

xlvector 的共享

我的Twitter

Twitter Updates

我的研究兴趣

博客归档

我的母校

标签

友情链接