规则与统计相结合的中文新词识别研究

被引：4

作者：

王琳琳

机构：

[1] 枣庄学院信息科学与工程学院

来源：

嘉兴学院学报 | 2014年 / 26卷 / 06期

关键词：

新词识别; 左右信息熵; 内部词概率; 平均互信息;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

针对目前分词方法无法识别网络中不断出现的普通新词,设计了一种新的基于规则与统计相结合的分词方法。针对新词不同的构词模式特点,利用语言学的知识把新词识别问题分类细化,将单字串模式的新词和后缀串模式的新词作为本文的主要识别对象。对于单字串模式的候选新词,在使用内部词概率模型的基础上,通过分析候选新词的内部紧密结合度以及上下文环境依赖程度等特征信息,采用平均互信息和左右邻接信息熵相结合的方法进行识别;对于后缀模式的候选新词,通过大规模语料训练得到的噪声尾词典进行噪声串的过滤得到新词.

引用

页码：124 / 130

页数：7

共 7 条

[1]

统计自然语言处理.[M].宗成庆; 编著.清华大学出版社.2007,

[2] 基于支持向量机和约束条件的新词识别研究 [J].