利用上下文提高文本聚类的效果

被引:8
作者
丘志宏 [1 ]
宫雷光 [2 ]
机构
[1] 汕头大学计算机系
[2] IBM华生研究中心
关键词
计算机应用; 中文信息处理; 文本聚类; 上下文; 词语权重; 本体论词典;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
传统文本聚类的向量空间模型中,认为词的权重只和词频有关,而与词语出现的上下文无关。本文介绍了如何借助按词语之间关系组织的本体论词典对文章进行上下文分析,得到文章中词语之间意义上的相互关系,进而用相关词语的词频以及关系的权重量化地给出一个词语受到上下文的支持程度,所以在衡量词语权重时不仅考虑其词频,而且考虑上下文的支持情况。文章还介绍了如何用自动构建的方法得到本文所需的词典,使得在本体论词典资源还不太丰富的汉语中也能应用上面的方法。实验数据表明,本文的方法能有效的消除噪音,提高文本聚类的效果。
引用
收藏
页码:109 / 115
页数:7
相关论文
共 4 条
  • [1] 文档聚类综述
    刘远超
    王晓龙
    徐志明
    关毅
    [J]. 中文信息学报, 2006, (03) : 55 - 62
  • [2] 词语间依存关系的定量识别
    王建会
    王雷
    胡运发
    [J]. 中文信息学报, 2005, (04) : 31 - 38
  • [3] Latent Semantic Indexing: A Probabilistic Analysis[J] . Christos H. Papadimitriou,Prabhakar Raghavan,Hisao Tamaki,Santosh Vempala.Journal of Computer and System Sciences . 2000 (2)
  • [4] CYC, WordNet, and EDR[J] . Doug Lenat,George Miller,Toshio Yokoi.Communications of the ACM . 1995 (11)