基于机器学习的科技文摘关键词自动提取方法

被引：11

作者：

刘佳宾

陈超

邵正荣

吉翔华

机构：

[1] 中国科学技术大学电子工程与信息科学系

来源：

计算机工程与应用 | 2007年 / 14期

关键词：

信息自动抽取; 决策树; 词性分析; ngrams方法;

D O I：

暂无

中图分类号：

TP181 [自动推理、机器学习]; TP391.1 [文字信息处理];

学科分类号：

摘要：

提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要（Abstract）进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用ngrams方法和词性相结合的方法,在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。实验结果表明该方法能够适应各个领域的论文关键词提取,并且可以得到很好的效果。

引用

页码：170 / 172

页数：3