向量 Vector 的空间
保福寺研究僧
显示标签为“
数据库
”的博文。
显示所有博文
显示标签为“
数据库
”的博文。
显示所有博文
2007-04-22
python 爬虫
我把上次写得python的爬虫写得更快了。使用了多线程,可以同时爬5个网站。同时用了配置文件,在配置爬虫的时候只需要修改配置文件就可以了。
下面是配置文件的样子,现在1个小时可以爬10000个网页,和C++的爬虫相比还是很慢,但是对于小的搜索引擎是足够了,嘿嘿。
我现在将berkeley db加入到系统中,基本上已经是一个小型的引擎了。
python与berkeleyDB的接口是bsddb,关于它的讨论可以从Google上获得。
2007-04-17
简单数据库设计
最近准备做一个简单的数据库,我们知道数据库的最基本的作用是查找,就是给一个key,返回一个value。其实就是相当于C++中的map
。但是由于数据库的存储量巨大,不可能把所有的数据放到内存中,所以我们要做一个基于文件的map
。
我用C++定义了这个数据格式。目前已经写出了第一个板本,速度还行。只是目前需要将索引表完全放在内存中,这样耗费的内存还比较大,这一点需要改进。我感觉STL的map比较耗费内存。所以准备写一个不怎么耗内存的map,嘿嘿。
较旧的博文
主页
查看移动版本
订阅:
博文 (Atom)
我的简介
xlvector
中关村, 北京, China
查看我的完整个人资料
FeedBurner FeedCount
关注者
xlvector 的共享
我的Twitter
Twitter Updates
follow me on Twitter
我的研究兴趣
2009 协同过滤:SVD分解
2009 协同过滤 collaborative filtering
2008 网络的采样 Graph Sampling
2008 网络的特征值分析 Graph Spectral
2008 网络中的随机游走 Random Walk
2008 网络中的相似性度量 Node Similarity
2008 网络中的排名 Graph Ranking
2008 网络中匹配 Graph Matching
2008 复杂网络
2007 汉语分词
2007 文本分类聚类
2007 文本中潜语义关系的挖掘
2007 搜索引擎系统
2006 运动检测
2006 人脸检测
2006 3D渐进网格和网格简化
博客归档
▼
2024
(2)
▼
三月
(1)
Collaboration request
►
一月
(1)
►
2022
(6)
►
十二月
(1)
►
七月
(1)
►
五月
(1)
►
四月
(1)
►
三月
(1)
►
二月
(1)
►
2021
(18)
►
十月
(1)
►
九月
(2)
►
七月
(2)
►
六月
(1)
►
五月
(1)
►
四月
(2)
►
三月
(3)
►
二月
(2)
►
一月
(4)
►
2020
(22)
►
十二月
(5)
►
十一月
(3)
►
十月
(3)
►
九月
(3)
►
八月
(6)
►
七月
(2)
►
2018
(1)
►
七月
(1)
►
2016
(1)
►
四月
(1)
►
2015
(4)
►
八月
(1)
►
六月
(1)
►
五月
(1)
►
一月
(1)
►
2014
(27)
►
八月
(2)
►
七月
(4)
►
六月
(2)
►
五月
(3)
►
四月
(4)
►
三月
(6)
►
二月
(2)
►
一月
(4)
►
2013
(40)
►
十二月
(1)
►
十月
(2)
►
八月
(1)
►
七月
(15)
►
六月
(6)
►
五月
(3)
►
四月
(3)
►
三月
(9)
►
2012
(1)
►
十一月
(1)
►
2009
(59)
►
九月
(14)
►
八月
(16)
►
七月
(6)
►
五月
(1)
►
四月
(6)
►
三月
(4)
►
二月
(5)
►
一月
(7)
►
2008
(20)
►
十二月
(3)
►
十一月
(1)
►
十月
(7)
►
九月
(2)
►
八月
(1)
►
五月
(3)
►
四月
(1)
►
二月
(1)
►
一月
(1)
►
2007
(56)
►
十月
(2)
►
九月
(7)
►
八月
(1)
►
六月
(5)
►
五月
(9)
►
四月
(6)
►
三月
(6)
►
二月
(3)
►
一月
(17)
►
2006
(30)
►
十二月
(14)
►
十月
(9)
►
九月
(1)
►
八月
(6)
我的母校
中国科学技术大学
中科院自动化所
标签
graph
推荐系统
cindoo
html
netflixprize
recommendation system
search
collaborative filtering
废话
汉字
C++
javascript
互联网
可视化
数据库
日志系统
模式识别
社会网络
编码
WWW2007
book
cluster
crawler
dom
github
googlereader
pagerank
python
recommend
search,web
创业
单件
图书
图像
文本表示
时间
矩阵
解析
论文
设计模式
输入法
过滤
友情链接
响马大日报
孔庆东
Jane的小小小小屋
三联生活周刊
当年明月的blog
河蟹娱乐
掘图志
时代杂志中文版
ReadWriteWeb
科学松鼠会
方舟子的blog
麦田蚂蚁