快速的领域文档关键词自动提取算法

被引:12
作者
杨春明
韩永国
机构
[1] 西南科技大学计算机科学与技术学院
关键词
关键词提取; 中文分词; 领域词典; 启发式知识; 时间复杂度;
D O I
10.16208/j.issn1000-7024.2011.06.059
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对现有关键词提取算法需要大量训练数据及时间、常用词分词困难、互联网文档噪音等问题,提出了一种基于TF-IWF的领域文档关键词快速提取算法。该算法使用简单统计并考虑词长、位置、词性等启发性知识计算词权重,并通过文档净化、领域词典分词等方法提高了关键词提取的速度及准确度。对523篇学生心理健康领域文档的实验结果表明,该算法提取的文档关键词质量优于TF-IDF方法,且能在时间内完成。
引用
收藏
页码:2142 / 2145
页数:4
相关论文
共 11 条