利用小样本量机器学习实现学术文摘结构的自动识别

被引:9
作者
白光祖 [1 ,2 ]
何远标 [3 ,2 ]
马建霞 [1 ]
刘建华 [3 ,2 ]
邹益民 [4 ]
机构
[1] 中国科学院兰州文献情报中心
[2] 中国科学院大学
[3] 中国科学院文献情报中心
[4] 浙江师范大学经济与管理学院
关键词
学术文摘; 结构识别; 机器学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP181 [自动推理、机器学习];
学科分类号
摘要
【目的】通过在小样本量下基于机器学习算法实现文摘语句的自动分类,以此实现学术文摘结构的自动识别。【方法】设计多种学术文摘的文本表示特征,利用自然语言处理技术实现特征的自动提取,以此指导朴素贝叶斯、支持向量机模型进行训练,并利用训练模型自动识别文摘结构。【结果】实验证明该方法较之于同类方法能够在较少训练语料下实现较好的识别准确率。【局限】由于文摘中"方法"类别语句缺乏固定的类别特征词与核心动词,导致算法对该类别语句识别准确率较低。【结论】所提方法是一种小样本量情况下行之有效的学术文摘结构自动识别方法。
引用
收藏
页码:34 / 40
页数:7
相关论文
共 5 条
[1]   用高水平学术规范保障论文学术质量 [J].
张晓林 ;
彭希珺 .
现代图书情报技术, 2014, (01) :1-3
[2]   基于支持向量机的越语新闻文本分类方法 [J].
潘华山 ;
严馨 ;
余正涛 ;
郭剑毅 .
山西大学学报(自然科学版), 2013, 36 (04) :505-509
[3]   利用Medline文摘数据库研究文本分类 [J].
霍东云 ;
聂峰光 ;
郭力 .
计算机与应用化学, 2007, (09) :1281-1284
[4]  
机器学习导论[M]. 机械工业出版社 , (土) 阿培丁 (Alpaydin, 2009
[5]  
Stanford CoreNLP .2 The Stanford Natural Language Processing Group. http://nlp.stanford.edu/software/corenlp.shtml . 2014