学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
汉语语料词性标注自动校对方法的研究
被引:12
作者
:
钱揖丽
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
钱揖丽
郑家恒
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
郑家恒
机构
:
[1]
山西大学计算机科学系
[2]
山西大学计算机科学系 山西太原
[3]
山西太原
来源
:
中文信息学报
|
2004年
/ 02期
关键词
:
计算机应用;
中文信息处理;
兼类词;
汉语词性标注;
自动校对;
粗糙集;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
兼类词的词类排歧是汉语语料词性标注中的难点问题 ,它严重影响语料的词性标注质量。针对这一难点问题 ,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息 ,自动生成兼类词词性校对规则 ,并应用获取的规则实现对机器初始标注语料的自动校对 ,从而提高语料中兼类词的词性标注质量。分别对 5 0万汉语语料做封闭测试和开放测试 ,结果显示 ,校对后语料的兼类词词性标注正确率分别可提高 11 32 %和 5 97%。
引用
收藏
页码:30 / 35
页数:6
相关论文
共 3 条
[1]
知识发现.[M].史忠植著;.清华大学出版社.2002,
[2]
用数据采掘方法获取汉语词性标注规则
[J].
李晓黎
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
李晓黎
;
史忠植
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
史忠植
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
不详
.
计算机研究与发展 ,
2000,
(12)
:1409
-1414
[3]
一种短语结构规则的自动获取方法
[J].
朱靖波
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院计算机科学系
朱靖波
;
姚天顺
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院计算机科学系
姚天顺
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院计算机科学系
不详
.
计算机研究与发展 ,
1999,
(05)
:90
-96
←
1
→
共 3 条
[1]
知识发现.[M].史忠植著;.清华大学出版社.2002,
[2]
用数据采掘方法获取汉语词性标注规则
[J].
李晓黎
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
李晓黎
;
史忠植
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
史忠植
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
不详
.
计算机研究与发展 ,
2000,
(12)
:1409
-1414
[3]
一种短语结构规则的自动获取方法
[J].
朱靖波
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院计算机科学系
朱靖波
;
姚天顺
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院计算机科学系
姚天顺
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院计算机科学系
不详
.
计算机研究与发展 ,
1999,
(05)
:90
-96
←
1
→