基于自适应隐马尔可夫模型的石油领域文档分词

被引：11

作者：

宫法明

朱朋海

机构：

[1] 中国石油大学(华东)计算机与通信工程学院

来源：

计算机科学 | 2018年 / 45(S1)卷 / S1期

关键词：

中文分词; 隐马尔可夫模型; 组合词; 石油;

D O I：

暂无

中图分类号：

O211.62 [马尔可夫过程]; TP391.1 [文字信息处理];

学科分类号：

摘要：

中文分词技术是把没有分割标志的汉字串转换为符合语言应用特点的词串的过程,是构建石油领域本体的第一步。石油领域的文档有其独有的特点,分词更加困难,目前仍然没有有效的分词算法。通过引入术语集,在隐马尔可夫分词模型的基础上,提出了一种基于自适应隐马尔可夫模型的分词算法。该算法以自适应隐马尔可夫模型为基础,结合领域词典和互信息,以语义约束和词义约束校准分词,实现对石油领域专业术语和组合词的精确识别。通过与中科院的NLPIR汉语分词系统进行对比,证明了所提算法进行分词时的准确率和召回率有显著提高。

引用

页码：97 / 100

页数：4

共 6 条

[1] 基于表示学习的中文分词算法探索
来斯惟
徐立恒
陈玉博
刘康
赵军
[J]. 中文信息学报, 2013, 27 (05) : 8 - 14
[2] 词典与统计相结合的中文分词算法研究
李宏波
[J]. 武汉理工大学学报(信息与管理工程版), 2010, 32 (06) : 907 - 909+913
[3] 基于最大间隔马尔可夫网模型的汉语分词方法
李月伦
常宝宝
[J]. 中文信息学报, 2010, (01) : 8 - 14
[4] 基于统计和语义信息的中文分词算法研究[D]. 李良洁.青岛科技大学. 2015
[5] 基于本体的中文分词算法的研究与实现[D]. 刁毓.曲阜师范大学. 2012
[6] Testing the limits of statistical learning for word segmentation
Johnson, Elizabeth K.
Tyler, Michael D.
[J]. DEVELOPMENTAL SCIENCE, 2010, 13 (02) : 339 - 345

← 1 →