改进的关键词抽取方法研究

被引:3
作者
邓箴
包宏
机构
[1] 北京科技大学信息工程学院
关键词
抽取; 语言学特征; 特征拟合; 多元文法; 支持向量机;
D O I
10.16208/j.issn1000-7024.2009.20.013
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在关键词抽取方法研究中,提出了多步骤的,针对任意领域的文本关键词抽取方法。该方法采用多元文法进行候选关键词抽取,提出了基于语言学特征的扩展tf/idf关键词的加权计算方法,以及能够抽取未登录词的关键词的方法和对关键词抽取进行优化的策略。首次提出了用支持向量机对最后的抽取结果进行优化。实验结果表明,该方法与单纯的tf/idf算法相比,具有更高的查准率和查全率。
引用
收藏
页码:4677 / 4680+4769 +4769
页数:5
相关论文
共 4 条