共 20 条
基于N-gram的双向匹配中文分词方法
被引:12
作者:
凤丽洲
[1
]
杨贵军
[1
]
徐雪
[2
]
徐玉慧
[3
]
机构:
[1] 天津财经大学统计学院
[2] 天津商业大学理学院
[3] 中国联合网络通信有限公司青岛分公司
来源:
基金:
天津市自然科学基金;
关键词:
N-gram模型;
分词歧义;
评测指标;
双向匹配;
D O I:
10.13860/j.cnki.sltj.20200512-002
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法。充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法,解决最大匹配分词中长词歧义切分问题,并基于N-gram语言模型,实现最优分词序列的选择。此外,为弥补准确率P这一评价指标受词条长度影响较大而不稳健的问题,在刻画分词方法性能时引入正确切分词条总字数这一因素,提出一个新的测评指标P_n,有效规避了词条长度对分词准确率评价的影响。最后在SIGHAN组织的国际中文自然语言处理竞赛的两个语料上进行实验表明,相较于传统N-gram中文分词方法,本文方法在保证分词效率的前提下,有效地提高了准确率P、召回率R、P_n和F1值。
引用
收藏
页码:633 / 643
页数:11
相关论文