一种改进的TFIDF网页关键词提取方法

被引:30
作者
李静月
李培峰
朱巧明
机构
[1] 苏州大学计算机科学与技术学院
关键词
文本结构; 关键词抽取; TFIDF;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
传统TFIDF关键词提取方法虽然实现起来简单,时间复杂度低,但是效果并不理想,难以获得对文本内容起到关键性作用的特征。提出了一种在考虑中文文本结构特征和中文词语词性特征的基础上,借助扩展的同义词词林,利用改进的TFIDF公式来提取的方法。实验结果表明:该方法明显优于传统方法,能够抽取到令人满意的结果。
引用
收藏
页码:25 / 27
页数:3
相关论文
共 4 条
[1]   一种基于TFIDF方法的中文关键词抽取算法 [J].
徐文海 ;
温有奎 .
情报理论与实践, 2008, (02) :298-302
[2]   一种基于复杂网络特征的中文文档关键词抽取算法 [J].
赵鹏 ;
蔡庆生 ;
王清毅 ;
耿焕同 .
模式识别与人工智能, 2007, 20 (06) :827-831
[4]   关键词自动标引的最大熵模型应用研究 [J].
李素建 ;
王厚峰 ;
俞士汶 ;
辛乘胜 .
计算机学报, 2004, (09) :1192-1197