基于机器学习的自动文摘研究综述

被引:15
作者
曹洋
成颖
裴雷
机构
[1] 南京大学信息管理学院
关键词
自动文摘; 机器学习; NB; HMM; CRF;
D O I
10.13266/j.issn.0252-3116.2014.18.018
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
探讨基于机器学习的自动文摘研究中的特征选取、算法选择、模型训练、文摘提取和模型评测等主要过程;重点分析3种主要的机器学习算法:朴素贝叶斯、隐马尔科夫和条件随机场,阐释3种算法的基本思想,在对相关研究进行系统梳理的基础上,给出作者的思考;对3种机器学习算法在训练方法、协同训练与主动学习、类别平衡以及词汇分布等方面存在的共性问题进行深入讨论并提出未来的主要研究方向。
引用
收藏
页码:122 / 130
页数:9
相关论文
共 22 条
[1]   基于隐主题马尔科夫模型的多特征自动文摘 [J].
刘江鸣 ;
徐金安 ;
张玉洁 .
北京大学学报(自然科学版), 2014, 50 (01) :187-193
[2]   网络公共信息资源利用效率影响因素实证分析 [J].
孙建军 .
图书情报工作 , 2012, (10) :35-40
[3]   文本摘要问题中的句子抽取方法研究 [J].
张龙凯 ;
王厚峰 .
中文信息学报, 2012, (02) :97-101
[4]   基于博客的链接分类体系设计 [J].
孙建军 ;
屈良 .
情报科学 , 2012, (03) :321-326+346
[5]   加权入链数:对链接分析中绝对入链数的修正 [J].
孙建军 ;
屈良 .
情报科学 , 2012, (02) :161-165+172
[6]   一种基于LDA的CRF自动文摘方法 [J].
吴晓锋 ;
宗成庆 .
中文信息学报 , 2009, (06) :39-45
[7]   基于条件随机场的中文自动文摘系统 [J].
邓箴 ;
包宏 .
西安石油大学学报(自然科学版), 2009, (01) :96-99+102+114
[8]   自动文摘综述 [J].
郭燕慧 ;
钟义信 ;
马志勇 ;
姚均勇 .
情报学报, 2002, (05) :582-591
[9]   A hybrid machine learning model for multi-document summarization [J].
Fattah, Mohamed Abdel .
APPLIED INTELLIGENCE, 2014, 40 (04) :592-600
[10]   Text summarization using Wikipedia [J].
Sankarasubramaniam, Yogesh ;
Ramanathan, Krishnan ;
Ghosh, Subhankar .
INFORMATION PROCESSING & MANAGEMENT, 2014, 50 (03) :443-461