基于k-近似的汉语词类自动判定

被引:8
作者
孙茂松
左正平
邹嘉彦
机构
[1] 清华大学智能技术与系统国家重点实验室!北京
[2] 香港城市大学语言资讯科学研究中心!香港
关键词
词类自动判定; 生词处理; 中文信息处理; 自然语言处理; 人工智能;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
摘要
生词处理在面向大规模真实文本的自然语言处理各项应用中占有重要位置 .词类自动判定就是对词类未知的生词由机器自动赋予一个合适的词类标记 .文中提出了一种基于 k-近似的词类自动判定算法 ,并在一个 1亿字汉语语料库及一个 6 0万字经过人工分词和词类标注的汉语熟语料库的支持下 ,构造了相应实验 .实验结果初步显示 ,本算法对汉语开放词类——名词、动词、形容词的词类自动判定平均正确率分别为 99.2 1%、84.73%、70 .6 7% ,基本上能够满足工程实现的需要
引用
收藏
页码:166 / 170
页数:5
相关论文
共 3 条
[1]  
模式识别[M]. 清华大学出版社 , 边肇祺等编著, 2000
[2]  
数理统计学讲义[M]. 高等教育出版社 , 陈家鼎等编著, 1993
[3]  
语法答问[M]. 商务印书馆 , 朱德熙[著], 1985