2009-09-17

Google Reader的数据收集

我的直觉告诉我,Google Reader的共享和Like功能对个性化的文章推荐将产生很大的影响。最近我在爬google reader的数据,主要是通过如下的feed链接:

http://www.google.com/reader/public/atom/user/06601636036055060713/state/com.google/broadcast

这里首先要特别感谢一下kuber,他向我提供了这个链接。

这个链接中给出了用户06601636036055060713所share的文章,同时对每篇文章给出了like它的用户id。所以我们只要从这个链接出发,就可以通过广度优先搜索将整个Google Reader的数据抓下来(不过不能太过分,不然会被封的),每天要更新,获得最新的文章share情况。

目前我的爬虫正在奋勇的爬,我主要是研究目的,所以我准备收集10w用户和100w文章的数据就足够了。这个数据集可以说内容非常丰富,包含了时间和内容信息,相信在他的基础上可以做出不少工作。

P.S. 非常希望google reader能提供用户follow的数据,这样对研究社会网络和推荐系统的结合很有意义

最后推荐一下kuber利用google reader数据做的一个推荐系统 http://www.feedzshare.com/

6 条评论:

  1. 1.收集到足够全的google reader user id后,可参考kangye的http://is.gd/3o0qt;
    2.Like操作是没有时间信息的,而且也没有纳入pubsubhubbub的通知范畴,不知道GR的开发者是怎么考虑的。

    回复删除
  2. 如果我们的爬虫不停的爬的话,还是可以估计出时间信息的

    回复删除
  3. 不要过高地估计你的爬虫效率,原因如下:
    1:如你所预计,10万GR用户的SharedItems需要遍历;
    2:GoogleReaderSharedItem Feed如果并发抓取,非常容易遭遇连续地connection reset,或403禁止访问,当然可分布式爬虫抓取;
    3:如果以pubsubhubbub方式订阅更新,那么like操作是不会通知你的。like操作是以文章为基础的,所以只盯shareditems,是无法收集足够全的like行为的。
    4:和一般的feed不一样,每一个shareditem feed动辄上百KB甚至上MB,传输和解析都是需要时间的。

    回复删除
  4. 此评论已被作者删除。

    回复删除
  5. 推荐:如何遍历Google Reader中文用户,如何计算用户分享活跃度 http://is.gd/3rbcn
    话说这个遍历过程还是够慢的。

    回复删除
  6. 我已经看到过你的blog了,谢谢

    回复删除