学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于“固结词串”实例的中文分词研究
被引:10
作者
:
论文数:
引用数:
h-index:
机构:
修驰
[
1
]
论文数:
引用数:
h-index:
机构:
宋柔
[
1
,
2
]
机构
:
[1]
北京工业大学计算机学院
[2]
北京语言大学语言信息处理研究所
来源
:
中文信息学报
|
2012年
/ 03期
关键词
:
中文分词;
CRF;
固结词串;
分词歧义;
机器学习;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于"固结词串"实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。
引用
收藏
页码:59 / 64
页数:6
相关论文
共 5 条
[1]
基于二元语法的N-最大概率中文粗分模型
[J].
论文数:
引用数:
h-index:
机构:
吴春颖
;
论文数:
引用数:
h-index:
机构:
王士同
.
计算机应用,
2007,
(12)
:2902
-2905
[2]
中文分词十年回顾
[J].
论文数:
引用数:
h-index:
机构:
黄昌宁
;
赵海
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学
微软亚洲研究院
赵海
.
中文信息学报,
2007,
(03)
:8
-19
[3]
现代汉语通用分词系统中歧义切分的实用技术
[J].
论文数:
引用数:
h-index:
机构:
罗智勇
;
论文数:
引用数:
h-index:
机构:
宋柔
.
计算机研究与发展,
2006,
(06)
:1122
-1128
[4]
一种改进的MM分词方法的算法设计
[J].
论文数:
引用数:
h-index:
机构:
骆正清
;
论文数:
引用数:
h-index:
机构:
陈增武
;
论文数:
引用数:
h-index:
机构:
胡上序
.
中文信息学报,
1996,
(03)
:30
-36
[5]
Chinese Word Segmentation as Character Tagging Nianwen Xue; Computational Linguistics and Chinese Language Processing 2003,
←
1
→
共 5 条
[1]
基于二元语法的N-最大概率中文粗分模型
[J].
论文数:
引用数:
h-index:
机构:
吴春颖
;
论文数:
引用数:
h-index:
机构:
王士同
.
计算机应用,
2007,
(12)
:2902
-2905
[2]
中文分词十年回顾
[J].
论文数:
引用数:
h-index:
机构:
黄昌宁
;
赵海
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学
微软亚洲研究院
赵海
.
中文信息学报,
2007,
(03)
:8
-19
[3]
现代汉语通用分词系统中歧义切分的实用技术
[J].
论文数:
引用数:
h-index:
机构:
罗智勇
;
论文数:
引用数:
h-index:
机构:
宋柔
.
计算机研究与发展,
2006,
(06)
:1122
-1128
[4]
一种改进的MM分词方法的算法设计
[J].
论文数:
引用数:
h-index:
机构:
骆正清
;
论文数:
引用数:
h-index:
机构:
陈增武
;
论文数:
引用数:
h-index:
机构:
胡上序
.
中文信息学报,
1996,
(03)
:30
-36
[5]
Chinese Word Segmentation as Character Tagging Nianwen Xue; Computational Linguistics and Chinese Language Processing 2003,
←
1
→