基于N-gram的双向匹配中文分词方法

被引：12

作者：

凤丽洲 ^{[1
]}

杨贵军 ^{[1
]}

徐雪 ^{[2
]}

徐玉慧 ^{[3
]}

机构：

[1] 天津财经大学统计学院

[2] 天津商业大学理学院

[3] 中国联合网络通信有限公司青岛分公司

来源：

数理统计与管理 | 2020年 / 39卷 / 04期

基金：

天津市自然科学基金;

关键词：

N-gram模型; 分词歧义; 评测指标; 双向匹配;

D O I：

10.13860/j.cnki.sltj.20200512-002

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法。充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法,解决最大匹配分词中长词歧义切分问题,并基于N-gram语言模型,实现最优分词序列的选择。此外,为弥补准确率P这一评价指标受词条长度影响较大而不稳健的问题,在刻画分词方法性能时引入正确切分词条总字数这一因素,提出一个新的测评指标P_n,有效规避了词条长度对分词准确率评价的影响。最后在SIGHAN组织的国际中文自然语言处理竞赛的两个语料上进行实验表明,相较于传统N-gram中文分词方法,本文方法在保证分词效率的前提下,有效地提高了准确率P、召回率R、P_n和F1值。

引用

页码：633 / 643

页数：11

共 20 条

[1] 融合手工特征与双向LSTM结构的中文分词方法研究
徐伟
车万翔
刘挺
[J]. 智能计算机与应用, 2019, 9 (01) : 169 - 172+177
[2] 基于定长序列的双向LSTM分词优化方法
郭正斌
张仰森
[J]. 郑州大学学报(理学版), 2018, 50 (02) : 97 - 101
[3] 函数型数据聚类分析研究综述与展望
王德青
朱建平
刘晓葳
何凌云
[J]. 数理统计与管理, 2018, 37 (01) : 51 - 63
[4] 基于双向长短时记忆模型的中文分词方法
张洪刚
李焕
[J]. 华南理工大学学报(自然科学版), 2017, 45 (03) : 61 - 67
[5] 统计模型在中文文本挖掘中的应用
王健
张俊妮
[J]. 数理统计与管理, 2017, 36 (04) : 609 - 619
[6] 基于N-gram模型的中文分词前k优算法
李书豪
陈宇
吕淑宝
张猛治
[J]. 智能计算机与应用, 2016, 6 (06) : 31 - 35
[7] 基于主题模型的半监督网络文本情感分类研究
李扬
孔雯婧
谢邦昌
[J]. 数理统计与管理, 2016, 35 (06) : 961 - 971
[8] Zipf定律与网络信息计量学
刘胜久
李天瑞
珠杰
[J]. 中文信息学报, 2015, 29 (04) : 89 - 94
[9] Skip-ngram模型解决数据稀疏问题的研究
鲁一冰
刘驰
[J]. 自动化技术与应用, 2015, 34 (03) : 35 - 37+46
[10] 基于关键词检查属性指标的方法研究
杨宏进
[J]. 统计研究, 2013, 30 (08) : 10 - 16

← 1 2 →