基于词汇吸引与排斥模型的共现词提取

被引:8
作者
郭锋
李绍滋
周昌乐
林颖
李胜睿
机构
[1] 厦门大学计算机与信息工程学院
[2] 厦门大学计算机与信息工程学院 福建厦门
[3] 福建厦门
关键词
计算机应用; 中文信息处理; 共现词; 词汇吸引与排斥模型; 共现距离;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
共现词提取在信息挖掘和自然语言处理中有着十分重要的地位。而传统的共现词提取方法仅仅局限在单一的一种统计量上 ,其结果十分不精确 ,需要人工再进行整理。本文提出了一种基于词汇吸引与排斥模型的共现词提取算法 ,并通过将多种常用统计量进行组合 ,改进了算法的效果。在开放测试环境下 ,所提取的共现词其用户感兴趣度为 6 0 87%。将该算法应用于基于Web的共现词检索系统 ,在速度和共现词的提取精度上均取得了比较好的效果
引用
收藏
页码:16 / 22
页数:7
相关论文
共 5 条
[1]   基于向量空间模型的词共现研究及其在文本分类中的应用 [J].
吴光远 ;
何丕廉 ;
曹桂宏 ;
聂颂 .
计算机应用, 2003, (S1) :138-140+145
[2]   基于字串内部结合紧密度的汉语自动抽词实验研究 [J].
罗盛芬 ;
孙茂松 .
中文信息学报, 2003, (03) :9-14
[3]   文本挖掘及其关键技术与方法 [J].
王丽坤 ;
王宏 ;
陆玉昌 .
计算机科学, 2002, (12) :12-19
[4]   基于语料库的语言建模 [J].
许伟 ;
苑春法 ;
黄昌宁 .
清华大学学报(自然科学版), 1997, (03) :72-76
[5]  
A New Method for Construction Field Association Terms Using Co-occurrence Words and Declinable Words Information .2 El-Sayed Atlam. Proceedings of 2002 IEEE International Conference on Systems, Man and Cybernetics[C],Volume 4 , Pages: 5, Oct . 2002