基于半CRF模型的百科全书文本段落划分

被引:2
作者
许勇 [1 ]
宋柔 [2 ]
机构
[1] 北京工业大学计算机学院
[2] 北京语言大学计算机系
关键词
自然语言处理; 机器学习; 隐马尔科夫模型; 文本段落划分; 半条件随机域模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
介绍了基于半条件随机域(semi-Markov conditional random fields,简称semi-CRFs)模型的百科全书文本段落划分方法.为了克服单纯的HMM模型和CRF模型的段落类型重复问题,以经过整理的HMM模型状态的后验分布为基本依据,使用了基于词汇语义本体知识库的段落开始特征以及针对特定段落类型的提示性特征来进一步适应目标文本的特点.实验结果表明,该划分方法可以综合利用各种不同类型的信息,比较适合百科全书文本的段落结构,可以取得比单纯的HMM模型和CRF模型更好的性能.
引用
收藏
页码:204 / 210
页数:7
相关论文
共 1 条
  • [1] FEI S,FERNANDO P.Shallow parsing with conditional random fields[K].Proceedings of HLT-NAACL,2003