基于CRF的百科全书文本段落划分

被引:13
作者
许勇 [1 ]
宋柔 [2 ]
机构
[1] 北京工业大学计算机科学学院
[2] 北京语言大学计算机科学系
关键词
文本段落划分; 条件随机域模型; 隐马尔科夫模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
CRF模型是标注、切分序列数据的较新的概率模型,在信息抽取等文本处理领域广受关注。该文介绍了CRF方法,并将其应用到百科全书文本段落的划分上,利用CRF的特征表述机制加入了文本单元序列中的长距离约束,取得了比传统的隐马尔科夫方法更好的结果。
引用
收藏
页码:16 / 18
页数:3
相关论文
empty
未找到相关数据