学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于自适应隐马尔可夫模型的石油领域文档分词
被引:11
作者
:
宫法明
论文数:
0
引用数:
0
h-index:
0
机构:
中国石油大学(华东)计算机与通信工程学院
宫法明
朱朋海
论文数:
0
引用数:
0
h-index:
0
机构:
中国石油大学(华东)计算机与通信工程学院
朱朋海
机构
:
[1]
中国石油大学(华东)计算机与通信工程学院
来源
:
计算机科学
|
2018年
/ 45(S1)卷
/ S1期
关键词
:
中文分词;
隐马尔可夫模型;
组合词;
石油;
D O I
:
暂无
中图分类号
:
O211.62 [马尔可夫过程];
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
中文分词技术是把没有分割标志的汉字串转换为符合语言应用特点的词串的过程,是构建石油领域本体的第一步。石油领域的文档有其独有的特点,分词更加困难,目前仍然没有有效的分词算法。通过引入术语集,在隐马尔可夫分词模型的基础上,提出了一种基于自适应隐马尔可夫模型的分词算法。该算法以自适应隐马尔可夫模型为基础,结合领域词典和互信息,以语义约束和词义约束校准分词,实现对石油领域专业术语和组合词的精确识别。通过与中科院的NLPIR汉语分词系统进行对比,证明了所提算法进行分词时的准确率和召回率有显著提高。
引用
收藏
页码:97 / 100
页数:4
相关论文
共 6 条
[1]
基于表示学习的中文分词算法探索
论文数:
引用数:
h-index:
机构:
来斯惟
论文数:
引用数:
h-index:
机构:
徐立恒
陈玉博
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院自动化研究所模式识别国家重点实验室
陈玉博
刘康
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院自动化研究所模式识别国家重点实验室
刘康
论文数:
引用数:
h-index:
机构:
赵军
[J].
中文信息学报,
2013,
27
(05)
: 8
-
14
[2]
词典与统计相结合的中文分词算法研究
李宏波
论文数:
0
引用数:
0
h-index:
0
机构:
武汉理工大学计算机科学与技术学院
李宏波
[J].
武汉理工大学学报(信息与管理工程版),
2010,
32
(06)
: 907
-
909+913
[3]
基于最大间隔马尔可夫网模型的汉语分词方法
论文数:
引用数:
h-index:
机构:
李月伦
常宝宝
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
常宝宝
[J].
中文信息学报,
2010,
(01)
: 8
-
14
[4]
基于统计和语义信息的中文分词算法研究[D]. 李良洁.青岛科技大学. 2015
[5]
基于本体的中文分词算法的研究与实现[D]. 刁毓.曲阜师范大学. 2012
[6]
Testing the limits of statistical learning for word segmentation
Johnson, Elizabeth K.
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Toronto, Dept Psychol, Toronto, ON M5S 1A1, Canada
Univ Toronto, Dept Psychol, Toronto, ON M5S 1A1, Canada
Johnson, Elizabeth K.
Tyler, Michael D.
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Western Sydney, Sch Psychol, Penrith, NSW 1797, Australia
Univ Western Sydney, MARCS Auditory Labs, Penrith, NSW 1797, Australia
Univ Toronto, Dept Psychol, Toronto, ON M5S 1A1, Canada
Tyler, Michael D.
[J].
DEVELOPMENTAL SCIENCE,
2010,
13
(02)
: 339
-
345
←
1
→
共 6 条
[1]
基于表示学习的中文分词算法探索
论文数:
引用数:
h-index:
机构:
来斯惟
论文数:
引用数:
h-index:
机构:
徐立恒
陈玉博
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院自动化研究所模式识别国家重点实验室
陈玉博
刘康
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院自动化研究所模式识别国家重点实验室
刘康
论文数:
引用数:
h-index:
机构:
赵军
[J].
中文信息学报,
2013,
27
(05)
: 8
-
14
[2]
词典与统计相结合的中文分词算法研究
李宏波
论文数:
0
引用数:
0
h-index:
0
机构:
武汉理工大学计算机科学与技术学院
李宏波
[J].
武汉理工大学学报(信息与管理工程版),
2010,
32
(06)
: 907
-
909+913
[3]
基于最大间隔马尔可夫网模型的汉语分词方法
论文数:
引用数:
h-index:
机构:
李月伦
常宝宝
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
常宝宝
[J].
中文信息学报,
2010,
(01)
: 8
-
14
[4]
基于统计和语义信息的中文分词算法研究[D]. 李良洁.青岛科技大学. 2015
[5]
基于本体的中文分词算法的研究与实现[D]. 刁毓.曲阜师范大学. 2012
[6]
Testing the limits of statistical learning for word segmentation
Johnson, Elizabeth K.
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Toronto, Dept Psychol, Toronto, ON M5S 1A1, Canada
Univ Toronto, Dept Psychol, Toronto, ON M5S 1A1, Canada
Johnson, Elizabeth K.
Tyler, Michael D.
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Western Sydney, Sch Psychol, Penrith, NSW 1797, Australia
Univ Western Sydney, MARCS Auditory Labs, Penrith, NSW 1797, Australia
Univ Toronto, Dept Psychol, Toronto, ON M5S 1A1, Canada
Tyler, Michael D.
[J].
DEVELOPMENTAL SCIENCE,
2010,
13
(02)
: 339
-
345
←
1
→