学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于无监督学习的专业领域分词歧义消解方法
被引:14
作者
:
论文数:
引用数:
h-index:
机构:
修驰
[
1
]
论文数:
引用数:
h-index:
机构:
宋柔
[
1
,
2
]
机构
:
[1]
北京工业大学计算机学院
[2]
北京语言大学信息科学学院
来源
:
计算机应用
|
2013年
/ 33卷
/ 03期
关键词
:
专业领域分词;
分词歧义;
字符串频次;
互信息;
边界熵;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。
引用
收藏
页码:780 / 783
页数:4
相关论文
共 6 条
[1]
基于“固结词串”实例的中文分词研究
[J].
论文数:
引用数:
h-index:
机构:
修驰
;
论文数:
引用数:
h-index:
机构:
宋柔
.
中文信息学报,
2012,
(03)
:59
-64
[2]
基于多特征的自适应新词识别
[J].
论文数:
引用数:
h-index:
机构:
罗智勇
;
论文数:
引用数:
h-index:
机构:
宋柔
.
北京工业大学学报,
2007,
(07)
:718
-725
[3]
现代汉语通用分词系统中歧义切分的实用技术
[J].
论文数:
引用数:
h-index:
机构:
罗智勇
;
论文数:
引用数:
h-index:
机构:
宋柔
.
计算机研究与发展,
2006,
(06)
:1122
-1128
[4]
基于层叠隐马模型的汉语词法分析
[J].
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,北京大学计算语言学研究所北京,北京,中国科学院研究生院北京,北京,北京
刘群
;
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,北京大学计算语言学研究所北京,北京,中国科学院研究生院北京,北京,北京
张华平
;
俞鸿魁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,北京大学计算语言学研究所北京,北京,中国科学院研究生院北京,北京,北京
俞鸿魁
;
程学旗
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,北京大学计算语言学研究所北京,北京,中国科学院研究生院北京,北京,北京
程学旗
.
计算机研究与发展,
2004,
(08)
:1421
-1429
[5]
基于无指导学习策略的无词表条件下的汉语自动分词
[J].
论文数:
引用数:
h-index:
机构:
孙茂松
;
肖明
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室,清华大学智能技术与系统国家重点实验室,香港城市大学语言资讯科学研究中心北京,北京,香港
肖明
;
邹嘉彦
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室,清华大学智能技术与系统国家重点实验室,香港城市大学语言资讯科学研究中心北京,北京,香港
邹嘉彦
.
计算机学报,
2004,
(06)
:736
-742
[6]
书面汉语自动分词专家系统设计原理
[J].
何克抗
论文数:
0
引用数:
0
h-index:
0
机构:
北京师范大学现代教育技术研究所
何克抗
;
论文数:
引用数:
h-index:
机构:
徐辉
;
论文数:
引用数:
h-index:
机构:
孙波
.
中文信息学报,
1991,
(02)
:1
-14+28
←
1
→
共 6 条
[1]
基于“固结词串”实例的中文分词研究
[J].
论文数:
引用数:
h-index:
机构:
修驰
;
论文数:
引用数:
h-index:
机构:
宋柔
.
中文信息学报,
2012,
(03)
:59
-64
[2]
基于多特征的自适应新词识别
[J].
论文数:
引用数:
h-index:
机构:
罗智勇
;
论文数:
引用数:
h-index:
机构:
宋柔
.
北京工业大学学报,
2007,
(07)
:718
-725
[3]
现代汉语通用分词系统中歧义切分的实用技术
[J].
论文数:
引用数:
h-index:
机构:
罗智勇
;
论文数:
引用数:
h-index:
机构:
宋柔
.
计算机研究与发展,
2006,
(06)
:1122
-1128
[4]
基于层叠隐马模型的汉语词法分析
[J].
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,北京大学计算语言学研究所北京,北京,中国科学院研究生院北京,北京,北京
刘群
;
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,北京大学计算语言学研究所北京,北京,中国科学院研究生院北京,北京,北京
张华平
;
俞鸿魁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,北京大学计算语言学研究所北京,北京,中国科学院研究生院北京,北京,北京
俞鸿魁
;
程学旗
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,北京大学计算语言学研究所北京,北京,中国科学院研究生院北京,北京,北京
程学旗
.
计算机研究与发展,
2004,
(08)
:1421
-1429
[5]
基于无指导学习策略的无词表条件下的汉语自动分词
[J].
论文数:
引用数:
h-index:
机构:
孙茂松
;
肖明
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室,清华大学智能技术与系统国家重点实验室,香港城市大学语言资讯科学研究中心北京,北京,香港
肖明
;
邹嘉彦
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室,清华大学智能技术与系统国家重点实验室,香港城市大学语言资讯科学研究中心北京,北京,香港
邹嘉彦
.
计算机学报,
2004,
(06)
:736
-742
[6]
书面汉语自动分词专家系统设计原理
[J].
何克抗
论文数:
0
引用数:
0
h-index:
0
机构:
北京师范大学现代教育技术研究所
何克抗
;
论文数:
引用数:
h-index:
机构:
徐辉
;
论文数:
引用数:
h-index:
机构:
孙波
.
中文信息学报,
1991,
(02)
:1
-14+28
←
1
→