基于词汇同现模型的关键词自动提取方法研究

被引:4
作者
肖红
许少华
机构
[1] 大庆石油学院计算机与信息技术学院
基金
黑龙江省自然科学基金;
关键词
关键词自动提取; 同现关系; 互信息; TF×IDF;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
关键词提取是中文信息处理的一个关键环节。提出一种关键词自动提取的有效方法,首先对普通词典进行了扩充,在普通词典的基础上结合大量的训练样本对词典进行训练得到一个带有TF×IDF值和互信息的优化词典。然后在此词典上按段落进行切词,对切词结果集根据词频、权重、同现关系和互信息排序后筛选出候选关键词。最后根据候选词的上位词和下位词进行词汇合并,设定一个阀值,取出其中的n个词作为文章的关键词。通过小数据测试样本集的抽取实验结果表明,文中方法在一定程度上能够提高关键词提取的正确率,得到了较为满意的效果.
引用
收藏
页码:38 / 41
页数:4
相关论文
共 4 条
[1]   具有三级索引词库结构的中文分词方法研究 [J].
肖红 ;
许少华 ;
李欣 .
计算机应用研究, 2006, (08) :49-51
[2]   基于PAT TREE统计语言模型与关键词自动提取 [J].
杨文峰 ;
李星 .
计算机工程与应用, 2001, (15) :17-19+35
[3]  
海量数据集上基于特征组合的关键词自动抽取[J]. 张庆国,薛德军,张振海,张君玉.情报学报. 2006 (05)
[4]  
PAT-tree-based Keyword Extraction for Chinese In-formation Retrieval .2 Chien L F. Proceedings of the20th Annual Inter-national ACMSIGIR Conference on Research and Development in Information Retrieval(SIGIR1997) . 1997