基于自适应隐马尔可夫模型的石油领域文档分词

被引:11
作者
宫法明
朱朋海
机构
[1] 中国石油大学(华东)计算机与通信工程学院
关键词
中文分词; 隐马尔可夫模型; 组合词; 石油;
D O I
暂无
中图分类号
O211.62 [马尔可夫过程]; TP391.1 [文字信息处理];
学科分类号
摘要
中文分词技术是把没有分割标志的汉字串转换为符合语言应用特点的词串的过程,是构建石油领域本体的第一步。石油领域的文档有其独有的特点,分词更加困难,目前仍然没有有效的分词算法。通过引入术语集,在隐马尔可夫分词模型的基础上,提出了一种基于自适应隐马尔可夫模型的分词算法。该算法以自适应隐马尔可夫模型为基础,结合领域词典和互信息,以语义约束和词义约束校准分词,实现对石油领域专业术语和组合词的精确识别。通过与中科院的NLPIR汉语分词系统进行对比,证明了所提算法进行分词时的准确率和召回率有显著提高。
引用
收藏
页码:97 / 100
页数:4
相关论文
共 6 条