2007-01-28

文档的图表示

在信息检索和搜索中,对文本的处理是至关重要的.在文本处理中,文本的表示是第一步.传统的文本表示方法是将文本表示成关键词集合,也就是一个一维向量.这一表示有很多的优点.但是他在文本处理中,过多的损失的文本的信息,所以目前有一种文本的图表示方法.

这一表示方法不仅考虑图中的关键词,而且考虑关键词之间的关系.也就是将文本表示成一个关键词的图(Graph),在图表示中,主要的就是图的顶点和边。

顶点 :关键词
边 :2个顶点之间有一条边,那么这两个顶点的关键词,在文本中的距离小于N。

也就是说两个关键词之间的联系取决于两个词在图中的距离。这个距离定义为词在分词序列中的距离。

没有评论:

发表评论