学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
TF-IDF与规则相结合的中文关键词自动抽取研究
被引:36
作者
:
论文数:
引用数:
h-index:
机构:
牛萍
黄德根
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机学院
黄德根
机构
:
[1]
大连理工大学计算机学院
来源
:
小型微型计算机系统
|
2016年
/ 37卷
/ 04期
关键词
:
抽取;
未登录词识别;
候选词抽取;
TF-IDF;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未登录词,且不依赖于语料库规模和领域.并且,在传统的TF-IDF基础上,结合位置特征和长度特征的情况下,考虑兼类词的不同词性问题,提出改进的TF-IDF计算公式,进行关键词抽取.通过比较实验,证明了候选词对关键词抽取的影响,与TF-IDF进行比较实验,改进的TF-IDF的准确率提高了5%左右.
引用
收藏
页码:711 / 715
页数:5
相关论文
共 9 条
[1]
一种改进的朴素贝叶斯关键词提取算法研究
[J].
论文数:
引用数:
h-index:
机构:
王锦波
;
论文数:
引用数:
h-index:
机构:
王莲芝
;
论文数:
引用数:
h-index:
机构:
高万林
;
论文数:
引用数:
h-index:
机构:
喻健
.
计算机应用与软件,
2014,
31
(02)
:174
-176+181
[2]
基于微博内容的新词发现方法
[J].
霍帅
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室
霍帅
;
张敏
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室
张敏
;
刘奕群
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室
刘奕群
;
马少平
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室
马少平
.
模式识别与人工智能,
2014,
27
(02)
:141
-145
[3]
基于TF统计和语法分析的关键词提取算法
[J].
战学刚
论文数:
0
引用数:
0
h-index:
0
机构:
辽宁科技大学软件学院
战学刚
;
论文数:
引用数:
h-index:
机构:
吴强
.
计算机应用与软件,
2014,
31
(01)
:47
-49+92
[4]
基于TFIDF和词语关联度的中文关键词提取方法
[J].
论文数:
引用数:
h-index:
机构:
张建娥
.
情报科学,
2012,
30
(10)
:1542
-1544+1555
[5]
基于上下文信息和碎片的交叉领域汉语自动分词(英文)
[J].
黄德根
论文数:
0
引用数:
0
h-index:
0
机构:
DalianUniversityofTechnology
黄德根
;
佟德琴
论文数:
0
引用数:
0
h-index:
0
机构:
DalianUniversityofTechnology
佟德琴
.
中国通信,
2012,
9
(03)
:49
-57
[6]
信息过滤中基于统计与规则的关键词抽取研究
[J].
论文数:
引用数:
h-index:
机构:
黄先珍
;
论文数:
引用数:
h-index:
机构:
杨玉珍
;
论文数:
引用数:
h-index:
机构:
刘培玉
.
计算机工程,
2012,
38
(02)
:57
-59
[7]
基于词内部模式的新词识别
[J].
论文数:
引用数:
h-index:
机构:
林自芳
;
论文数:
引用数:
h-index:
机构:
蒋秀凤
.
计算机与现代化,
2010,
(11)
:162
-164+167
[8]
基于机器学习的科技文摘关键词自动提取方法
[J].
刘佳宾
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学电子工程与信息科学系
刘佳宾
;
陈超
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学电子工程与信息科学系
陈超
;
邵正荣
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学电子工程与信息科学系
邵正荣
;
论文数:
引用数:
h-index:
机构:
吉翔华
.
计算机工程与应用,
2007,
(14)
:170
-172
[9]
An Extended Keyword Extraction Method[J] . Bao Hong,Deng Zhen.Physics Procedia . 2012
←
1
→
共 9 条
[1]
一种改进的朴素贝叶斯关键词提取算法研究
[J].
论文数:
引用数:
h-index:
机构:
王锦波
;
论文数:
引用数:
h-index:
机构:
王莲芝
;
论文数:
引用数:
h-index:
机构:
高万林
;
论文数:
引用数:
h-index:
机构:
喻健
.
计算机应用与软件,
2014,
31
(02)
:174
-176+181
[2]
基于微博内容的新词发现方法
[J].
霍帅
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室
霍帅
;
张敏
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室
张敏
;
刘奕群
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室
刘奕群
;
马少平
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室
马少平
.
模式识别与人工智能,
2014,
27
(02)
:141
-145
[3]
基于TF统计和语法分析的关键词提取算法
[J].
战学刚
论文数:
0
引用数:
0
h-index:
0
机构:
辽宁科技大学软件学院
战学刚
;
论文数:
引用数:
h-index:
机构:
吴强
.
计算机应用与软件,
2014,
31
(01)
:47
-49+92
[4]
基于TFIDF和词语关联度的中文关键词提取方法
[J].
论文数:
引用数:
h-index:
机构:
张建娥
.
情报科学,
2012,
30
(10)
:1542
-1544+1555
[5]
基于上下文信息和碎片的交叉领域汉语自动分词(英文)
[J].
黄德根
论文数:
0
引用数:
0
h-index:
0
机构:
DalianUniversityofTechnology
黄德根
;
佟德琴
论文数:
0
引用数:
0
h-index:
0
机构:
DalianUniversityofTechnology
佟德琴
.
中国通信,
2012,
9
(03)
:49
-57
[6]
信息过滤中基于统计与规则的关键词抽取研究
[J].
论文数:
引用数:
h-index:
机构:
黄先珍
;
论文数:
引用数:
h-index:
机构:
杨玉珍
;
论文数:
引用数:
h-index:
机构:
刘培玉
.
计算机工程,
2012,
38
(02)
:57
-59
[7]
基于词内部模式的新词识别
[J].
论文数:
引用数:
h-index:
机构:
林自芳
;
论文数:
引用数:
h-index:
机构:
蒋秀凤
.
计算机与现代化,
2010,
(11)
:162
-164+167
[8]
基于机器学习的科技文摘关键词自动提取方法
[J].
刘佳宾
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学电子工程与信息科学系
刘佳宾
;
陈超
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学电子工程与信息科学系
陈超
;
邵正荣
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学电子工程与信息科学系
邵正荣
;
论文数:
引用数:
h-index:
机构:
吉翔华
.
计算机工程与应用,
2007,
(14)
:170
-172
[9]
An Extended Keyword Extraction Method[J] . Bao Hong,Deng Zhen.Physics Procedia . 2012
←
1
→