TF-IDF与规则相结合的中文关键词自动抽取研究

被引:36
作者
牛萍
黄德根
机构
[1] 大连理工大学计算机学院
关键词
抽取; 未登录词识别; 候选词抽取; TF-IDF;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未登录词,且不依赖于语料库规模和领域.并且,在传统的TF-IDF基础上,结合位置特征和长度特征的情况下,考虑兼类词的不同词性问题,提出改进的TF-IDF计算公式,进行关键词抽取.通过比较实验,证明了候选词对关键词抽取的影响,与TF-IDF进行比较实验,改进的TF-IDF的准确率提高了5%左右.
引用
收藏
页码:711 / 715
页数:5
相关论文
共 9 条
[1]   一种改进的朴素贝叶斯关键词提取算法研究 [J].
王锦波 ;
王莲芝 ;
高万林 ;
喻健 .
计算机应用与软件, 2014, 31 (02) :174-176+181
[2]   基于微博内容的新词发现方法 [J].
霍帅 ;
张敏 ;
刘奕群 ;
马少平 .
模式识别与人工智能, 2014, 27 (02) :141-145
[3]   基于TF统计和语法分析的关键词提取算法 [J].
战学刚 ;
吴强 .
计算机应用与软件, 2014, 31 (01) :47-49+92
[4]   基于TFIDF和词语关联度的中文关键词提取方法 [J].
张建娥 .
情报科学, 2012, 30 (10) :1542-1544+1555
[5]   基于上下文信息和碎片的交叉领域汉语自动分词(英文) [J].
黄德根 ;
佟德琴 .
中国通信, 2012, 9 (03) :49-57
[6]   信息过滤中基于统计与规则的关键词抽取研究 [J].
黄先珍 ;
杨玉珍 ;
刘培玉 .
计算机工程, 2012, 38 (02) :57-59
[7]   基于词内部模式的新词识别 [J].
林自芳 ;
蒋秀凤 .
计算机与现代化, 2010, (11) :162-164+167
[8]   基于机器学习的科技文摘关键词自动提取方法 [J].
刘佳宾 ;
陈超 ;
邵正荣 ;
吉翔华 .
计算机工程与应用, 2007, (14) :170-172
[9]  
An Extended Keyword Extraction Method[J] . Bao Hong,Deng Zhen.Physics Procedia . 2012