http://www.google.com/reader/public/atom/user/06601636036055060713/state/com.google/broadcast
这里首先要特别感谢一下kuber,他向我提供了这个链接。
这个链接中给出了用户06601636036055060713所share的文章,同时对每篇文章给出了like它的用户id。所以我们只要从这个链接出发,就可以通过广度优先搜索将整个Google Reader的数据抓下来(不过不能太过分,不然会被封的),每天要更新,获得最新的文章share情况。
目前我的爬虫正在奋勇的爬,我主要是研究目的,所以我准备收集10w用户和100w文章的数据就足够了。这个数据集可以说内容非常丰富,包含了时间和内容信息,相信在他的基础上可以做出不少工作。
P.S. 非常希望google reader能提供用户follow的数据,这样对研究社会网络和推荐系统的结合很有意义
最后推荐一下kuber利用google reader数据做的一个推荐系统 http://www.feedzshare.com/
1.收集到足够全的google reader user id后,可参考kangye的http://is.gd/3o0qt;
回复删除2.Like操作是没有时间信息的,而且也没有纳入pubsubhubbub的通知范畴,不知道GR的开发者是怎么考虑的。
如果我们的爬虫不停的爬的话,还是可以估计出时间信息的
回复删除不要过高地估计你的爬虫效率,原因如下:
回复删除1:如你所预计,10万GR用户的SharedItems需要遍历;
2:GoogleReaderSharedItem Feed如果并发抓取,非常容易遭遇连续地connection reset,或403禁止访问,当然可分布式爬虫抓取;
3:如果以pubsubhubbub方式订阅更新,那么like操作是不会通知你的。like操作是以文章为基础的,所以只盯shareditems,是无法收集足够全的like行为的。
4:和一般的feed不一样,每一个shareditem feed动辄上百KB甚至上MB,传输和解析都是需要时间的。
此评论已被作者删除。
回复删除推荐:如何遍历Google Reader中文用户,如何计算用户分享活跃度 http://is.gd/3rbcn
回复删除话说这个遍历过程还是够慢的。
我已经看到过你的blog了,谢谢
回复删除