学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
规则与统计相结合的中文新词识别研究
被引:4
作者
:
王琳琳
论文数:
0
引用数:
0
h-index:
0
机构:
枣庄学院信息科学与工程学院
王琳琳
机构
:
[1]
枣庄学院信息科学与工程学院
来源
:
嘉兴学院学报
|
2014年
/ 26卷
/ 06期
关键词
:
新词识别;
左右信息熵;
内部词概率;
平均互信息;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
针对目前分词方法无法识别网络中不断出现的普通新词,设计了一种新的基于规则与统计相结合的分词方法。针对新词不同的构词模式特点,利用语言学的知识把新词识别问题分类细化,将单字串模式的新词和后缀串模式的新词作为本文的主要识别对象。对于单字串模式的候选新词,在使用内部词概率模型的基础上,通过分析候选新词的内部紧密结合度以及上下文环境依赖程度等特征信息,采用平均互信息和左右邻接信息熵相结合的方法进行识别;对于后缀模式的候选新词,通过大规模语料训练得到的噪声尾词典进行噪声串的过滤得到新词.
引用
收藏
页码:124 / 130
页数:7
相关论文
共 7 条
[1]
统计自然语言处理.[M].宗成庆; 编著.清华大学出版社.2007,
[2]
基于支持向量机和约束条件的新词识别研究
[J].
徐远方
论文数:
0
引用数:
0
h-index:
0
机构:
内蒙古师范大学网络技术学院
徐远方
;
李成城
论文数:
0
引用数:
0
h-index:
0
机构:
内蒙古师范大学网络技术学院
李成城
.
计算机技术与发展,
2014,
24
(01)
:98
-101
[3]
一种新词检测方法研究
[J].
论文数:
引用数:
h-index:
机构:
钟将
;
论文数:
引用数:
h-index:
机构:
耿升华
;
论文数:
引用数:
h-index:
机构:
董高峰
.
数字通信,
2013,
40
(02)
:1
-5+23
[4]
博客语料的新词发现方法
[J].
论文数:
引用数:
h-index:
机构:
黄轩
;
李熔烽
论文数:
0
引用数:
0
h-index:
0
机构:
漳州职业技术学院经济管理系
厦门大学智能科学与技术系
李熔烽
.
现代电子技术,
2013,
36
(02)
:144
-146+149
[5]
基于词内部模式的中文新词识别研究
[J].
廖祥文
论文数:
0
引用数:
0
h-index:
0
机构:
福州大学数学与计算机科学学院
福州大学数学与计算机科学学院
廖祥文
;
论文数:
引用数:
h-index:
机构:
林自芳
;
论文数:
引用数:
h-index:
机构:
陈水利
.
集美大学学报(自然科学版),
2011,
16
(06)
:461
-466
[6]
基于词内部模式的新词识别
[J].
论文数:
引用数:
h-index:
机构:
林自芳
;
论文数:
引用数:
h-index:
机构:
蒋秀凤
.
计算机与现代化,
2010,
(11)
:162
-164+167
[7]
基于大规模语料库的新词检测
[J].
崔世起
论文数:
0
引用数:
0
h-index:
0
机构:
不详
不详
崔世起
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
不详
不详
刘群
;
论文数:
引用数:
h-index:
机构:
孟遥
;
论文数:
引用数:
h-index:
机构:
于浩
;
论文数:
引用数:
h-index:
机构:
西野文人
.
计算机研究与发展 ,
2006,
(05)
:927
-932
←
1
→
共 7 条
[1]
统计自然语言处理.[M].宗成庆; 编著.清华大学出版社.2007,
[2]
基于支持向量机和约束条件的新词识别研究
[J].
徐远方
论文数:
0
引用数:
0
h-index:
0
机构:
内蒙古师范大学网络技术学院
徐远方
;
李成城
论文数:
0
引用数:
0
h-index:
0
机构:
内蒙古师范大学网络技术学院
李成城
.
计算机技术与发展,
2014,
24
(01)
:98
-101
[3]
一种新词检测方法研究
[J].
论文数:
引用数:
h-index:
机构:
钟将
;
论文数:
引用数:
h-index:
机构:
耿升华
;
论文数:
引用数:
h-index:
机构:
董高峰
.
数字通信,
2013,
40
(02)
:1
-5+23
[4]
博客语料的新词发现方法
[J].
论文数:
引用数:
h-index:
机构:
黄轩
;
李熔烽
论文数:
0
引用数:
0
h-index:
0
机构:
漳州职业技术学院经济管理系
厦门大学智能科学与技术系
李熔烽
.
现代电子技术,
2013,
36
(02)
:144
-146+149
[5]
基于词内部模式的中文新词识别研究
[J].
廖祥文
论文数:
0
引用数:
0
h-index:
0
机构:
福州大学数学与计算机科学学院
福州大学数学与计算机科学学院
廖祥文
;
论文数:
引用数:
h-index:
机构:
林自芳
;
论文数:
引用数:
h-index:
机构:
陈水利
.
集美大学学报(自然科学版),
2011,
16
(06)
:461
-466
[6]
基于词内部模式的新词识别
[J].
论文数:
引用数:
h-index:
机构:
林自芳
;
论文数:
引用数:
h-index:
机构:
蒋秀凤
.
计算机与现代化,
2010,
(11)
:162
-164+167
[7]
基于大规模语料库的新词检测
[J].
崔世起
论文数:
0
引用数:
0
h-index:
0
机构:
不详
不详
崔世起
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
不详
不详
刘群
;
论文数:
引用数:
h-index:
机构:
孟遥
;
论文数:
引用数:
h-index:
机构:
于浩
;
论文数:
引用数:
h-index:
机构:
西野文人
.
计算机研究与发展 ,
2006,
(05)
:927
-932
←
1
→