2007-05-21

HTML Parser 结果

这里贴出HTML Parser的结果。将一个HTML文档转化为树结构。为了表示树结构,我用了缩进的表示方法,一个节点的子节点比它缩进更多。

2007-05-20

HTML Parser : CSS Parser

现在已经可以将HTML解析成DOM,现在的任务是视觉上的,就是解析CSS,从而获得每一段文本的位置和字体,颜色等信息。这一步也不是很困难。

其实我认为HTML Parser中最困难的是Javascript的解析,这个难度和写一个编译器差不多了,我感觉我可能搞不定。可以找找这方面的开放源代码。

其实,如果把HTML,CSS,JavaScript都解析了,也就离做一个浏览器差不多了,嘿嘿

2007-05-18

HTML Parser 0.0

I have finish the simple html parser, in this parser, I convert html document to a Tree. Like Javascript, I design following functions in my C++ HTML Parser Library:
  1. getElementById
  2. innerHTML

已经初步完成了HTML Parser, 可以将HTML文档解析成一棵树。为了使用方便,我参照了JavaScript DOM的设计方法,给出了以下函数:

  1. 为了获得文档中的某个节点,可以用 getElementByID
  2. 为了获得某个节点的html代码,可以用 innerHTML

HTML Parser的编写还在继续中,现在主要是测试大量的文档,因为HTML Parser的最大困难是容错。

HTML 解析

这个问题烦了我们很久了,目标就是将HTML解析成DOM,这方面的C++开源代码几乎没有,只有借用firsfox的解释器。但是firefox的规模太大,用起来很不方便。

对这个问题我不爽了很久了,我决定不再不爽下去了,我准备花点时间把它彻底解析了。HTML解析的最大难度,在于HTML标准的高度不规范,它的解释器需要写的高度容错。这个很有挑战。

2007-05-16

HTML Tree : HtmlParser

最近在研究HTML解析,这方面的C++的库太少了,只发现了一个HTML_Tree。正在研究中,这个库将HTML文档解析成一棵树。

这个月买了几本书

  1. 模式分析的核方法
  2. C++并行与分布式编程
  3. 西方哲学史
  4. 裸猿
  5. 文明与野蛮
  6. 三国志

嘿嘿嘿,准备补习一下社科方面的知识,嘿嘿嘿。

2007-05-14

基于链接的排名欺诈发现

SIGKDD 2006 : Site level noise removal for search engine

这篇文章介绍了在网站级别上的欺诈网站的发现,通过去除欺诈的链接,避免通过pagerank算法提高排名。文章分析了链接欺诈的方式:
  1. 建立两个网站,然后在这两个网站之间建立大量的链接,这样就可以同时提升两个网站的排名。如果两个网站之间的链接超过一定的数量,删去两个网站间的所有链接。
  2. 指向一个网站的大多数链接来自另一个网站。
  3. 指向一个网站的链接大多来自于一个相互联系紧密的网站集合。

2007-05-08

Graph Cluster(图的聚类)




基于图的可视化的那个软件,完成的图的顶点的聚类,这是一个图的基本的算法。

2007-05-06

放假归来

嘿嘿,五一长假快结束了,我也从家里回到北京了,嘿嘿