一个中文新词识别特征的研究

被引:13
作者
秦浩伟
步丰林
机构
[1] 上海交通大学计算机科学与工程系
[2] 上海交通大学计算机科学与工程系 上海
[3] 上海
关键词
中文分词; 新词识别; 支持向量机; 语素生产率;
D O I
暂无
中图分类号
TP391.4 [模式识别与装置];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
未登录词识别是汉语自动分词的难题之一。中文新词多为时间敏感词或者领域相关词汇,占据未登录词很大比例。针对新词识别问 题,首先总结了已有新词识别特征,然后引入了一个语言学特征。实验结果表明该特征可以提高新词识别率。
引用
收藏
页码:369 / 370+414 +414
页数:3
相关论文
共 1 条
[1]  
Statistically-enhanced New Word Identification in a Rule-based Chinese System .2 Wu A,Jiang Z. In proceedings of the Second Chinese-Language Processing Workshop,Hong Kong,China . 2000