显示标签为“互联网”的博文。显示所有博文
显示标签为“互联网”的博文。显示所有博文

2007-04-22

python 爬虫

我把上次写得python的爬虫写得更快了。使用了多线程,可以同时爬5个网站。同时用了配置文件,在配置爬虫的时候只需要修改配置文件就可以了。
下面是配置文件的样子,现在1个小时可以爬10000个网页,和C++的爬虫相比还是很慢,但是对于小的搜索引擎是足够了,嘿嘿。



我现在将berkeley db加入到系统中,基本上已经是一个小型的引擎了。
python与berkeleyDB的接口是bsddb,关于它的讨论可以从Google上获得。

2007-01-29

互联网创业什么要注意什么?

转载自 http://www.douban.com/group/topic/1410869

2006年是youtube被收购,结果中国出来200多个tube。现在一些还在做吧,出来了一个flickr,结果中国也出来一堆xlickr。相信其中一些能够做好,但不是每一家公司。
  
互联网创业的诱惑在于:是个人就可以开始做,危险在于:竞争太强,因为谁都可以做,残酷在于:市场上只有第一,也许有第二,基本上没有第三第四。所以,在互联网上创业,需要注意几点:
  1. 注意大个子,如果微软或Google想做这件事情,那你要认真考虑还做不做;
  2. 注意自己的局部优势,要是在自己的一亩三分地还没有优势,那就要考虑自己对准的市场是不是太大?
  3. 注意自己的市场,是不是没有成长潜力,要是是一个萎缩中的市场,你当然要考虑了;
  4. 注意自己产品的可用性和价值,没有这个,什么都不用说了;
  5. 注意自己的竞争策略,为什么自己能够在竞争中存在下去?什么?没有竞争?那再想想看自己的妙主意真得有市场吗?为什么全世界都没有想到,答案很可能是:那根本不是好主意。