规则与统计相结合的中文新词识别研究

被引:4
作者
王琳琳
机构
[1] 枣庄学院信息科学与工程学院
关键词
新词识别; 左右信息熵; 内部词概率; 平均互信息;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对目前分词方法无法识别网络中不断出现的普通新词,设计了一种新的基于规则与统计相结合的分词方法。针对新词不同的构词模式特点,利用语言学的知识把新词识别问题分类细化,将单字串模式的新词和后缀串模式的新词作为本文的主要识别对象。对于单字串模式的候选新词,在使用内部词概率模型的基础上,通过分析候选新词的内部紧密结合度以及上下文环境依赖程度等特征信息,采用平均互信息和左右邻接信息熵相结合的方法进行识别;对于后缀模式的候选新词,通过大规模语料训练得到的噪声尾词典进行噪声串的过滤得到新词.
引用
收藏
页码:124 / 130
页数:7
相关论文
共 7 条
[1]  
统计自然语言处理.[M].宗成庆; 编著.清华大学出版社.2007,
[2]   基于支持向量机和约束条件的新词识别研究 [J].
徐远方 ;
李成城 .
计算机技术与发展, 2014, 24 (01) :98-101
[3]   一种新词检测方法研究 [J].
钟将 ;
耿升华 ;
董高峰 .
数字通信, 2013, 40 (02) :1-5+23
[4]   博客语料的新词发现方法 [J].
黄轩 ;
李熔烽 .
现代电子技术, 2013, 36 (02) :144-146+149
[5]   基于词内部模式的中文新词识别研究 [J].
廖祥文 ;
林自芳 ;
陈水利 .
集美大学学报(自然科学版), 2011, 16 (06) :461-466
[6]   基于词内部模式的新词识别 [J].
林自芳 ;
蒋秀凤 .
计算机与现代化, 2010, (11) :162-164+167
[7]   基于大规模语料库的新词检测 [J].
崔世起 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 .
计算机研究与发展 , 2006, (05) :927-932