这里贴出HTML Parser的结果。将一个HTML文档转化为树结构。为了表示树结构,我用了缩进的表示方法,一个节点的子节点比它缩进更多。
2007-05-21
2007-05-20
HTML Parser : CSS Parser
现在已经可以将HTML解析成DOM,现在的任务是视觉上的,就是解析CSS,从而获得每一段文本的位置和字体,颜色等信息。这一步也不是很困难。
其实我认为HTML Parser中最困难的是Javascript的解析,这个难度和写一个编译器差不多了,我感觉我可能搞不定。可以找找这方面的开放源代码。
其实,如果把HTML,CSS,JavaScript都解析了,也就离做一个浏览器差不多了,嘿嘿
其实我认为HTML Parser中最困难的是Javascript的解析,这个难度和写一个编译器差不多了,我感觉我可能搞不定。可以找找这方面的开放源代码。
其实,如果把HTML,CSS,JavaScript都解析了,也就离做一个浏览器差不多了,嘿嘿
2007-05-18
HTML Parser 0.0
I have finish the simple html parser, in this parser, I convert html document to a Tree. Like Javascript, I design following functions in my C++ HTML Parser Library:
- getElementById
- innerHTML
已经初步完成了HTML Parser, 可以将HTML文档解析成一棵树。为了使用方便,我参照了JavaScript DOM的设计方法,给出了以下函数:
- 为了获得文档中的某个节点,可以用 getElementByID
- 为了获得某个节点的html代码,可以用 innerHTML
HTML Parser的编写还在继续中,现在主要是测试大量的文档,因为HTML Parser的最大困难是容错。
2007-05-16
2007-05-14
基于链接的排名欺诈发现
SIGKDD 2006 : Site level noise removal for search engine
这篇文章介绍了在网站级别上的欺诈网站的发现,通过去除欺诈的链接,避免通过pagerank算法提高排名。文章分析了链接欺诈的方式:
这篇文章介绍了在网站级别上的欺诈网站的发现,通过去除欺诈的链接,避免通过pagerank算法提高排名。文章分析了链接欺诈的方式:
- 建立两个网站,然后在这两个网站之间建立大量的链接,这样就可以同时提升两个网站的排名。如果两个网站之间的链接超过一定的数量,删去两个网站间的所有链接。
- 指向一个网站的大多数链接来自另一个网站。
- 指向一个网站的链接大多来自于一个相互联系紧密的网站集合。