向量 Vector 的空间: my solutions of github contest

2009-08-17

my solutions of github contest - item based KNN

文栋以前让我写一些具体的算法问题，所以从今天起，我详细介绍一下我在Github中用到的所有算法，我用中文写。

我的Github Contest解决方案 : item-based KNN

item-based KNN是top-K推荐问题中用的最广泛的一个方法，他的相关论文有

Item-based collaborative filtering recommendation algorithms
Item-based top-n recommendation algorithms
Amazon. com recommendations: Item-to-item collaborative filtering

在github contest里面，我首先使用了item-based KNN，不过具体的实现细节和前面几篇论文不太一样，主要有下面几点

1) 如果两个工程被同一个用户watch过，那这个用户肯定给这两个工程贡献一定的相似度。在传统的相似度计算中，不同的用户贡献相似度的能力是相同的，不过我们考虑两个用户，一个看了100个工程，一个只看过两个工程，那么看过2个工程的用户贡献的相似度应该要高于看过100个工程的用户。（这个效应被称为inverse
user frequence，是和信息检索中的idf相对应的）

2) 推荐过程，对于一个用户，我们找出他曾经watch过的所有工程，然后对每个工程找出和他相似的工程，从而找出这个用户没有watch过得，但是和他watch过的工程最相似的工程。比如一个工程j，一个用户u，那么u对j的喜欢程度定义为

p(u,j) = sum_{i in N(u)} w(i,j)

这里的w(i.j)就是i和j两个工程的相似度，N(u)是u
watch过的所有工程。因为w(i,j)是线性相关系数，在我的实现中，我对w(i,j)进行了平方，这样的目的主要是削弱小相似度的影响，因为w(i,j)是大于0小于1的

向量 Vector 的空间

2009-08-17

my solutions of github contest - item based KNN

没有评论:

发表评论

我的简介

FeedBurner FeedCount

关注者

xlvector 的共享

我的Twitter

Twitter Updates

我的研究兴趣

博客归档

我的母校

标签

友情链接