向量 Vector 的空间: PageRank算法的几个主要问题

2009-01-12

PageRank算法的几个主要问题

PageRank是一种基于链接的网页排名算法，他的主要思想是，一个网页如果被很多其他网页链向，他就有比较高的排名，同时一个网页如果被排名高的网页指向，他也会有比较高的排名。这个是PageRank的一个经典解释。
不过这个算法还是有很多问题。

我们举一个例子，比如下图。黄色的网页被很多蓝色的网页指向，但是这些蓝色的网页只被少数的橙色的网页指向。也就是说，如果没有这些橙色的网页，黄色的和蓝色的网页就和整个互联网不联通了。在这个例子中，黄色的网页会获得比较高的PageRank，但实际上，黄色的网页不应该有这么高的排名，因为他和整个互联网的联系是松散的。他的排名其实是被蓝色的网页提高上去的。

这是一个典型的link farm，也就是链接工厂的结构。黄色的网页叫target page,就是我们要提高rank的网页，而蓝色的网页是boost page，也就是用来提高rank的网页。

PageRank的最大问题，就是对链接工厂无能为力。但这是为什么呢？我们可以用pagerank的另一个解释来说明这个问题。很多研究表明，一个页面的pagerank是这样获得的：

我们知道，对一种网页，有很多从其他网页到他的路径。比如对网页x，有一条从y到x的路径，那么y就通过这条路径把自己的pagerank注入到x，路径越长，注入的rank就越多。那么，一个网页如果有很多比较短的到他的路径，这个网页就会有比较高的rank。但是，这里面有一个问题，那就是这些路径可能都是交叉的。比如上面的图中，所有到黄色顶点的路径都会在橙色顶点相交。而同时，link farm是一个稠密图，他里面的短路径是很多的。这就解释了pagerank为什么解决不了链接工厂的问题。

那么对于越多的SEO网站，我们有什么手段来发现他们呢？下面这个方法比较著名：

我们忽略那些特别短的路径，因为spam会从link farm中获得很多短路径，如果我们忽略掉特别短的路径对pagerank的影响，可以解决这个问题。

对于web graph中的一个网页v，我们把到他的距离为h的顶点数记为S(v,h)。
那么对于任何一个顶点v，S(v,h)关于h的分布是用来对v排名的一个重要手段，现在有很多这方面的研究。

没有评论:

发表评论

我的研究兴趣

2009 协同过滤：SVD分解
2009 协同过滤 collaborative filtering
2008 网络的采样 Graph Sampling
2008 网络的特征值分析 Graph Spectral
2008 网络中的随机游走 Random Walk
2008 网络中的相似性度量 Node Similarity
2008 网络中的排名 Graph Ranking
2008 网络中匹配 Graph Matching
2008 复杂网络
2007 汉语分词
2007 文本分类聚类
2007 文本中潜语义关系的挖掘
2007 搜索引擎系统
2006 运动检测
2006 人脸检测
2006 3D渐进网格和网格简化

向量 Vector 的空间

2009-01-12

PageRank算法的几个主要问题

没有评论:

发表评论

我的简介

FeedBurner FeedCount

关注者

xlvector 的共享

我的Twitter

Twitter Updates

我的研究兴趣

博客归档

我的母校

标签

友情链接