学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
结合语义扩展度和词汇链的关键词提取算法
被引:49
作者
:
论文数:
引用数:
h-index:
机构:
刘端阳
论文数:
引用数:
h-index:
机构:
王良芳
机构
:
[1]
浙江工业大学计算机科学与技术学院
来源
:
计算机科学
|
2013年
/ 40卷
/ 12期
关键词
:
同义词词林;
语义扩展度;
词汇链;
关键词提取;
语义分析;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
针对影响关键词提取质量的一词多义现象、同义词现象以及文章主题准确全面表达的难点,提出了一种基于语义的关键词提取算法KESELC,利用《同义词词林》语义词典和统计信息计算语义相似度和相关度,进而得出语义扩展度及其计算方法,将语义扩展度和词汇链方法相结合,对文本分别作预处理、多义词词义消歧、同义词合并、词汇链构建、有效特征选取及对权重综合计算的处理,提取出的关键词不仅避免了同义词冗余表达,而且较准确全面地覆盖文本的主题。通过实验对比分析,验证了基于KESELC的方法比基于TFIDF的方法以及基于词汇链的方法具有较优的提取效果,具有一定的实际应用价值。
引用
收藏
页码:264 / 269+291 +291
页数:7
相关论文
共 7 条
[1]
一种中文微博新闻话题检测的方法
[J].
郑斐然
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
郑斐然
;
苗夺谦
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
苗夺谦
;
张志飞
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
张志飞
;
高灿
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
高灿
.
计算机科学,
2012,
39
(01)
:138
-141
[2]
MXDR:一种基于关键字的XML多文档分布式检索方法
[J].
论文数:
引用数:
h-index:
机构:
李霞
;
论文数:
引用数:
h-index:
机构:
李战怀
;
论文数:
引用数:
h-index:
机构:
张利军
;
论文数:
引用数:
h-index:
机构:
陈群
;
论文数:
引用数:
h-index:
机构:
李宁
.
计算机科学,
2011,
38
(10)
:152
-156
[3]
基于同义词词林的词语相似度计算方法
[J].
论文数:
引用数:
h-index:
机构:
田久乐
;
论文数:
引用数:
h-index:
机构:
赵蔚
.
吉林大学学报(信息科学版),
2010,
28
(06)
:602
-608
[4]
基于语义的关键词提取算法
[J].
论文数:
引用数:
h-index:
机构:
方俊
;
论文数:
引用数:
h-index:
机构:
郭雷
;
论文数:
引用数:
h-index:
机构:
王晓东
.
计算机科学,
2008,
(06)
:148
-151
[5]
基于机器学习的文本分类技术研究进展
[J].
苏金树
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
苏金树
;
张博锋
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
张博锋
;
论文数:
引用数:
h-index:
机构:
徐昕
.
软件学报,
2006,
(09)
:1848
-1859
[6]
结合语义相似度与相关度的概念扩展.[J].聂卉;龙朝晖;.情报学报.2007, 05
[7]
同义词词林.[M].梅家驹等编;.上海辞书出版社.1996,
←
1
→
共 7 条
[1]
一种中文微博新闻话题检测的方法
[J].
郑斐然
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
郑斐然
;
苗夺谦
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
苗夺谦
;
张志飞
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
张志飞
;
高灿
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
高灿
.
计算机科学,
2012,
39
(01)
:138
-141
[2]
MXDR:一种基于关键字的XML多文档分布式检索方法
[J].
论文数:
引用数:
h-index:
机构:
李霞
;
论文数:
引用数:
h-index:
机构:
李战怀
;
论文数:
引用数:
h-index:
机构:
张利军
;
论文数:
引用数:
h-index:
机构:
陈群
;
论文数:
引用数:
h-index:
机构:
李宁
.
计算机科学,
2011,
38
(10)
:152
-156
[3]
基于同义词词林的词语相似度计算方法
[J].
论文数:
引用数:
h-index:
机构:
田久乐
;
论文数:
引用数:
h-index:
机构:
赵蔚
.
吉林大学学报(信息科学版),
2010,
28
(06)
:602
-608
[4]
基于语义的关键词提取算法
[J].
论文数:
引用数:
h-index:
机构:
方俊
;
论文数:
引用数:
h-index:
机构:
郭雷
;
论文数:
引用数:
h-index:
机构:
王晓东
.
计算机科学,
2008,
(06)
:148
-151
[5]
基于机器学习的文本分类技术研究进展
[J].
苏金树
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
苏金树
;
张博锋
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
张博锋
;
论文数:
引用数:
h-index:
机构:
徐昕
.
软件学报,
2006,
(09)
:1848
-1859
[6]
结合语义相似度与相关度的概念扩展.[J].聂卉;龙朝晖;.情报学报.2007, 05
[7]
同义词词林.[M].梅家驹等编;.上海辞书出版社.1996,
←
1
→