2007-04-22

python 爬虫

我把上次写得python的爬虫写得更快了。使用了多线程,可以同时爬5个网站。同时用了配置文件,在配置爬虫的时候只需要修改配置文件就可以了。
下面是配置文件的样子,现在1个小时可以爬10000个网页,和C++的爬虫相比还是很慢,但是对于小的搜索引擎是足够了,嘿嘿。



我现在将berkeley db加入到系统中,基本上已经是一个小型的引擎了。
python与berkeleyDB的接口是bsddb,关于它的讨论可以从Google上获得。

2 条评论:

  1. 你的爬虫用python写的,可以给看看么 cgk100@163.com 如果可以,那就谢谢你发给我一份看看

    回复删除
  2. 朋友你好,不知这里留言还能否联系到你。我接触了一段时间的python,目前用python的主要作用也是爬网页。所以不知能否分享一下你的这个python程序,感激不尽!

    回复删除