基于多特征的自适应新词识别

被引:13
作者
罗智勇 [1 ]
宋柔 [2 ]
机构
[1] 北京工业大学计算机学院
[2] 北京语言大学语言信息处理研究所
关键词
自然语言处理系统; 计算语言学; 词语处理; 新词识别; 多特征; 自适应; 自动分词;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识別模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间.
引用
收藏
页码:718 / 725
页数:8
相关论文
共 3 条
[1]   基于构词法的网络新词自动识别初探 [J].
郑家恒 ;
李文花 .
山西大学学报(自然科学版), 2002, (02) :115-119
[2]   现代汉语分词系统通用接口设计与实现 [J].
娄珽 ;
宋柔 ;
李卫亮 ;
罗智勇 .
中文信息学报, 2001, (05) :1-7
[3]   计算机辅助新词新语词典的编纂 [J].
陈玉泉 ;
顾顺莲 ;
陆汝占 .
上海交通大学学报, 2000, (07) :999-1000