2007-04-25

图的可视化

我准备把那个Graph可视化的软件做的更强大一点,下面是一个动画:

耐心的等一下...

2007-04-22

python 爬虫

我把上次写得python的爬虫写得更快了。使用了多线程,可以同时爬5个网站。同时用了配置文件,在配置爬虫的时候只需要修改配置文件就可以了。
下面是配置文件的样子,现在1个小时可以爬10000个网页,和C++的爬虫相比还是很慢,但是对于小的搜索引擎是足够了,嘿嘿。



我现在将berkeley db加入到系统中,基本上已经是一个小型的引擎了。
python与berkeleyDB的接口是bsddb,关于它的讨论可以从Google上获得。

2007-04-17

简单数据库设计

最近准备做一个简单的数据库,我们知道数据库的最基本的作用是查找,就是给一个key,返回一个value。其实就是相当于C++中的map。但是由于数据库的存储量巨大,不可能把所有的数据放到内存中,所以我们要做一个基于文件的map

我用C++定义了这个数据格式。目前已经写出了第一个板本,速度还行。只是目前需要将索引表完全放在内存中,这样耗费的内存还比较大,这一点需要改进。我感觉STL的map比较耗费内存。所以准备写一个不怎么耗内存的map,嘿嘿。

2007-04-13

拼音输入法

最近在做一个拼音输入法,其实是个作业,不过我想把它做的完美一点,嘿嘿。
我做了一个联想的算法,主要用的是3元语法模型,效果还行,下面是一些结果,嘿嘿!

[input] : aersitongbenchangbisaidadebucuo
a er si tong ben chang bi sai da de bu cuo
阿 尔 斯 通 体 长 比 赛 大 的 不 错
[input] : aersitongbengchangbisaidadebucu
o
a er si tong beng chang bi sai da de bu cuo
阿 尔 斯 通 平 常 比 赛 大 的 不 错
[input] : wofaxianyigeguilv
wo fa xian yi ge gui lv
我 发 现 一 个 规 律
[input] : aiyinsitan
ai yin si tan
爱 因 斯 坦
[input] : niudunshiyingguozhumingdewulixuejia
niu dun shi ying guo zhu ming de wu li xue jia
牛 不 是 英 国 注 明 的 物 理 学 家
[input] : niudun
niu dun
牛 顿
[input] : haohaoxuexi
hao hao xue xi
好 好 学 习
[input] : tiantianxiangshang
tian tian xiang shang
天 天 向 上
[input] : maozhuxishiwomendelinxiu
mao zhu xi shi wo men de lin xiu
毛 主 席 是 我 们 的 林 秀
[input] : maozhuxishiwomendelingxiu
mao zhu xi shi wo men de ling xiu
毛 主 席 是 我 们 的 领 袖
[input] : gaigekaifangyilaiwomenqudelechangzudejinbu
gai ge kai fang yi lai wo men qu de le chang zu de jin bu
改 革 开 放 以 来 我 们 取 得 了 长 足 的 进 步
[input] : haolabiekule
hao la bie ku le
好 落 别 哭 了
[input] : guowuyuanzongliwenjiabaojintiandidaribenkaishiduiribendeyouhaofangwen
guo wu yuan zong li wen jia bao jin tian di da ri ben kai shi dui ri ben de you hao fang wen
国 务 院 总 理 温 家 宝 今 天 的 大 日 本 开 始 对 日 本 的 友 好 访 问
[input] : weishenbu
wei shen bu
为 什 不
[input] : weishengbu
wei sheng bu
卫 生 部
[input] : weishengbufayanrenjintianshuowomenguojiajiangtuijinquanmiandeyiliaogaige
wei sheng bu fa yan ren jin tian shuo wo men guo jia jiang tui jin quan mian de yi liao gai ge
卫 生 不 发 言 人 今 天 说 我 们 国 家 将 推 进 全 面 的 医 疗 改 革
[input] : jintiandekaoyanshitibijiaojiandan
jin tian de kao yan shi ti bi jiao jian dan
今 天 的 考 验 是 提 比 较 简 单

2007-04-10

图像检索

最近作了一个大作业,图像检索。主要是基于简单的颜色和纹理特征的。下面是一些效果图,做得和粗糙,嘿嘿。

2007-04-07

社会网络

我们通过一定的技术,获取了大量的实体之间的关系。给出几个种子词语,我们可以生成一张图,显示他们的关系。下面贴出一些图给大家看看:

种子 :诸葛亮 李世民 李白

种子:毛泽东 爱因斯坦

种子:毛泽东 胡志明 金日成 卡斯特罗