2007-05-18

HTML 解析

这个问题烦了我们很久了,目标就是将HTML解析成DOM,这方面的C++开源代码几乎没有,只有借用firsfox的解释器。但是firefox的规模太大,用起来很不方便。

对这个问题我不爽了很久了,我决定不再不爽下去了,我准备花点时间把它彻底解析了。HTML解析的最大难度,在于HTML标准的高度不规范,它的解释器需要写的高度容错。这个很有挑战。

2007-05-16

HTML Tree : HtmlParser

最近在研究HTML解析,这方面的C++的库太少了,只发现了一个HTML_Tree。正在研究中,这个库将HTML文档解析成一棵树。

这个月买了几本书

  1. 模式分析的核方法
  2. C++并行与分布式编程
  3. 西方哲学史
  4. 裸猿
  5. 文明与野蛮
  6. 三国志

嘿嘿嘿,准备补习一下社科方面的知识,嘿嘿嘿。

2007-05-14

基于链接的排名欺诈发现

SIGKDD 2006 : Site level noise removal for search engine

这篇文章介绍了在网站级别上的欺诈网站的发现,通过去除欺诈的链接,避免通过pagerank算法提高排名。文章分析了链接欺诈的方式:
  1. 建立两个网站,然后在这两个网站之间建立大量的链接,这样就可以同时提升两个网站的排名。如果两个网站之间的链接超过一定的数量,删去两个网站间的所有链接。
  2. 指向一个网站的大多数链接来自另一个网站。
  3. 指向一个网站的链接大多来自于一个相互联系紧密的网站集合。

2007-05-08

Graph Cluster(图的聚类)




基于图的可视化的那个软件,完成的图的顶点的聚类,这是一个图的基本的算法。

2007-05-06

放假归来

嘿嘿,五一长假快结束了,我也从家里回到北京了,嘿嘿

2007-04-25

图的可视化

我准备把那个Graph可视化的软件做的更强大一点,下面是一个动画:

耐心的等一下...

2007-04-22

python 爬虫

我把上次写得python的爬虫写得更快了。使用了多线程,可以同时爬5个网站。同时用了配置文件,在配置爬虫的时候只需要修改配置文件就可以了。
下面是配置文件的样子,现在1个小时可以爬10000个网页,和C++的爬虫相比还是很慢,但是对于小的搜索引擎是足够了,嘿嘿。



我现在将berkeley db加入到系统中,基本上已经是一个小型的引擎了。
python与berkeleyDB的接口是bsddb,关于它的讨论可以从Google上获得。

2007-04-17

简单数据库设计

最近准备做一个简单的数据库,我们知道数据库的最基本的作用是查找,就是给一个key,返回一个value。其实就是相当于C++中的map。但是由于数据库的存储量巨大,不可能把所有的数据放到内存中,所以我们要做一个基于文件的map

我用C++定义了这个数据格式。目前已经写出了第一个板本,速度还行。只是目前需要将索引表完全放在内存中,这样耗费的内存还比较大,这一点需要改进。我感觉STL的map比较耗费内存。所以准备写一个不怎么耗内存的map,嘿嘿。

2007-04-13

拼音输入法

最近在做一个拼音输入法,其实是个作业,不过我想把它做的完美一点,嘿嘿。
我做了一个联想的算法,主要用的是3元语法模型,效果还行,下面是一些结果,嘿嘿!

[input] : aersitongbenchangbisaidadebucuo
a er si tong ben chang bi sai da de bu cuo
阿 尔 斯 通 体 长 比 赛 大 的 不 错
[input] : aersitongbengchangbisaidadebucu
o
a er si tong beng chang bi sai da de bu cuo
阿 尔 斯 通 平 常 比 赛 大 的 不 错
[input] : wofaxianyigeguilv
wo fa xian yi ge gui lv
我 发 现 一 个 规 律
[input] : aiyinsitan
ai yin si tan
爱 因 斯 坦
[input] : niudunshiyingguozhumingdewulixuejia
niu dun shi ying guo zhu ming de wu li xue jia
牛 不 是 英 国 注 明 的 物 理 学 家
[input] : niudun
niu dun
牛 顿
[input] : haohaoxuexi
hao hao xue xi
好 好 学 习
[input] : tiantianxiangshang
tian tian xiang shang
天 天 向 上
[input] : maozhuxishiwomendelinxiu
mao zhu xi shi wo men de lin xiu
毛 主 席 是 我 们 的 林 秀
[input] : maozhuxishiwomendelingxiu
mao zhu xi shi wo men de ling xiu
毛 主 席 是 我 们 的 领 袖
[input] : gaigekaifangyilaiwomenqudelechangzudejinbu
gai ge kai fang yi lai wo men qu de le chang zu de jin bu
改 革 开 放 以 来 我 们 取 得 了 长 足 的 进 步
[input] : haolabiekule
hao la bie ku le
好 落 别 哭 了
[input] : guowuyuanzongliwenjiabaojintiandidaribenkaishiduiribendeyouhaofangwen
guo wu yuan zong li wen jia bao jin tian di da ri ben kai shi dui ri ben de you hao fang wen
国 务 院 总 理 温 家 宝 今 天 的 大 日 本 开 始 对 日 本 的 友 好 访 问
[input] : weishenbu
wei shen bu
为 什 不
[input] : weishengbu
wei sheng bu
卫 生 部
[input] : weishengbufayanrenjintianshuowomenguojiajiangtuijinquanmiandeyiliaogaige
wei sheng bu fa yan ren jin tian shuo wo men guo jia jiang tui jin quan mian de yi liao gai ge
卫 生 不 发 言 人 今 天 说 我 们 国 家 将 推 进 全 面 的 医 疗 改 革
[input] : jintiandekaoyanshitibijiaojiandan
jin tian de kao yan shi ti bi jiao jian dan
今 天 的 考 验 是 提 比 较 简 单

2007-04-10

图像检索

最近作了一个大作业,图像检索。主要是基于简单的颜色和纹理特征的。下面是一些效果图,做得和粗糙,嘿嘿。

2007-04-07

社会网络

我们通过一定的技术,获取了大量的实体之间的关系。给出几个种子词语,我们可以生成一张图,显示他们的关系。下面贴出一些图给大家看看:

种子 :诸葛亮 李世民 李白

种子:毛泽东 爱因斯坦

种子:毛泽东 胡志明 金日成 卡斯特罗