基于多特征的自适应新词识别

被引：13

作者：

罗智勇 ^{[1
]}

宋柔 ^{[2
]}

机构：

[1] 北京工业大学计算机学院

[2] 北京语言大学语言信息处理研究所

来源：

北京工业大学学报 | 2007年 / 07期

关键词：

自然语言处理系统; 计算语言学; 词语处理; 新词识别; 多特征; 自适应; 自动分词;

D O I：

暂无

中图分类号：

TP391.43 [];

学科分类号：

0811 ; 081101 ; 081104 ; 1405 ;

摘要：

为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识別模型．同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语．实验结果表明,该方法新词发现速度快、节省存储空间．

引用

页码：718 / 725

页数：8