学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
快速的领域文档关键词自动提取算法
被引:12
作者
:
论文数:
引用数:
h-index:
机构:
杨春明
论文数:
引用数:
h-index:
机构:
韩永国
机构
:
[1]
西南科技大学计算机科学与技术学院
来源
:
计算机工程与设计
|
2011年
/ 32卷
/ 06期
关键词
:
关键词提取;
中文分词;
领域词典;
启发式知识;
时间复杂度;
D O I
:
10.16208/j.issn1000-7024.2011.06.059
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
针对现有关键词提取算法需要大量训练数据及时间、常用词分词困难、互联网文档噪音等问题,提出了一种基于TF-IWF的领域文档关键词快速提取算法。该算法使用简单统计并考虑词长、位置、词性等启发性知识计算词权重,并通过文档净化、领域词典分词等方法提高了关键词提取的速度及准确度。对523篇学生心理健康领域文档的实验结果表明,该算法提取的文档关键词质量优于TF-IDF方法,且能在时间内完成。
引用
收藏
页码:2142 / 2145
页数:4
相关论文
共 11 条
[1]
基于词汇链的中文新闻网页关键词抽取方法
胡学钢
论文数:
0
引用数:
0
h-index:
0
机构:
合肥工业大学计算机与信息学院
合肥工业大学计算机与信息学院
胡学钢
论文数:
引用数:
h-index:
机构:
李星华
论文数:
引用数:
h-index:
机构:
谢飞
论文数:
引用数:
h-index:
机构:
吴信东
[J].
模式识别与人工智能,
2010,
23
(01)
: 45
-
51
[2]
TFIDF算法研究综述
施聪莺
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学教育技术系
施聪莺
论文数:
引用数:
h-index:
机构:
徐朝军
论文数:
引用数:
h-index:
机构:
杨晓江
[J].
计算机应用,
2009,
29(S1)
(S1)
: 167
-
170+180
[3]
基于模糊处理的中文文本关键词提取算法
论文数:
引用数:
h-index:
机构:
张红鹰
[J].
现代图书情报技术,
2009,
(05)
: 39
-
43
[4]
基于分类标注语料库的关键词标引知识自动获取
刘华
论文数:
0
引用数:
0
h-index:
0
机构:
暨南大学华文学院
刘华
[J].
图书情报工作,
2007,
(07)
: 41
-
43
[5]
基于机器学习的科技文摘关键词自动提取方法
刘佳宾
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学电子工程与信息科学系
刘佳宾
陈超
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学电子工程与信息科学系
陈超
邵正荣
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学电子工程与信息科学系
邵正荣
论文数:
引用数:
h-index:
机构:
吉翔华
[J].
计算机工程与应用,
2007,
(14)
: 170
-
172
[6]
基于文本分类中特征提取的领域词语聚类
刘华
论文数:
0
引用数:
0
h-index:
0
机构:
暨南大学华文学院
刘华
[J].
语言文字应用,
2007,
(01)
: 139
-
144
[7]
基于文本分类TFIDF方法的改进与应用
张玉芳
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院
重庆大学计算机学院
张玉芳
论文数:
引用数:
h-index:
机构:
彭时名
论文数:
引用数:
h-index:
机构:
吕佳
[J].
计算机工程,
2006,
(19)
: 76
-
78
[8]
关键词自动标引的最大熵模型应用研究
论文数:
引用数:
h-index:
机构:
李素建
王厚峰
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
王厚峰
俞士汶
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
俞士汶
辛乘胜
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
辛乘胜
[J].
计算机学报,
2004,
(09)
: 1192
-
1197
[9]
海量数据集上基于特征组合的关键词自动抽取[J]. 张庆国,薛德军,张振海,张君玉.情报学报. 2006 (05)
[10]
自动标引通用评价模型研究[J]. 章成志,周冬敏.情报学报. 2009 (01)
←
1
2
→
共 11 条
[1]
基于词汇链的中文新闻网页关键词抽取方法
胡学钢
论文数:
0
引用数:
0
h-index:
0
机构:
合肥工业大学计算机与信息学院
合肥工业大学计算机与信息学院
胡学钢
论文数:
引用数:
h-index:
机构:
李星华
论文数:
引用数:
h-index:
机构:
谢飞
论文数:
引用数:
h-index:
机构:
吴信东
[J].
模式识别与人工智能,
2010,
23
(01)
: 45
-
51
[2]
TFIDF算法研究综述
施聪莺
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学教育技术系
施聪莺
论文数:
引用数:
h-index:
机构:
徐朝军
论文数:
引用数:
h-index:
机构:
杨晓江
[J].
计算机应用,
2009,
29(S1)
(S1)
: 167
-
170+180
[3]
基于模糊处理的中文文本关键词提取算法
论文数:
引用数:
h-index:
机构:
张红鹰
[J].
现代图书情报技术,
2009,
(05)
: 39
-
43
[4]
基于分类标注语料库的关键词标引知识自动获取
刘华
论文数:
0
引用数:
0
h-index:
0
机构:
暨南大学华文学院
刘华
[J].
图书情报工作,
2007,
(07)
: 41
-
43
[5]
基于机器学习的科技文摘关键词自动提取方法
刘佳宾
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学电子工程与信息科学系
刘佳宾
陈超
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学电子工程与信息科学系
陈超
邵正荣
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学电子工程与信息科学系
邵正荣
论文数:
引用数:
h-index:
机构:
吉翔华
[J].
计算机工程与应用,
2007,
(14)
: 170
-
172
[6]
基于文本分类中特征提取的领域词语聚类
刘华
论文数:
0
引用数:
0
h-index:
0
机构:
暨南大学华文学院
刘华
[J].
语言文字应用,
2007,
(01)
: 139
-
144
[7]
基于文本分类TFIDF方法的改进与应用
张玉芳
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院
重庆大学计算机学院
张玉芳
论文数:
引用数:
h-index:
机构:
彭时名
论文数:
引用数:
h-index:
机构:
吕佳
[J].
计算机工程,
2006,
(19)
: 76
-
78
[8]
关键词自动标引的最大熵模型应用研究
论文数:
引用数:
h-index:
机构:
李素建
王厚峰
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
王厚峰
俞士汶
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
俞士汶
辛乘胜
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
辛乘胜
[J].
计算机学报,
2004,
(09)
: 1192
-
1197
[9]
海量数据集上基于特征组合的关键词自动抽取[J]. 张庆国,薛德军,张振海,张君玉.情报学报. 2006 (05)
[10]
自动标引通用评价模型研究[J]. 章成志,周冬敏.情报学报. 2009 (01)
←
1
2
→