基于机器学习的科技文摘关键词自动提取方法

被引:11
作者
刘佳宾
陈超
邵正荣
吉翔华
机构
[1] 中国科学技术大学电子工程与信息科学系
关键词
信息自动抽取; 决策树; 词性分析; ngrams方法;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习]; TP391.1 [文字信息处理];
学科分类号
摘要
提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用ngrams方法和词性相结合的方法,在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。实验结果表明该方法能够适应各个领域的论文关键词提取,并且可以得到很好的效果。
引用
收藏
页码:170 / 172
页数:3
相关论文
empty
未找到相关数据