基于语料库的字母词语自动提取研究

被引：11

作者：

郑泽之

张普

杨建国

机构：

[1] 太原师范学院计算机系

[2] 北京语言大学DCC博士研究室

[3] 北京语言大学DCC博士研究室山西太原北京语言大学DCC博士研究室

[4] 北京

来源：

中文信息学报 | 2005年 / 02期

关键词：

人工智能; 自然语言处理; 字母词语; 自动提取;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

目前 ,很多最新的术语和专有名词 ,首先以字母词语的形式出现在汉语中 ,并日益广泛应用。而字母词语多数是汉语自动分词中的未登录词 ,其正确识别 ,将有助于提高中文分词、信息检索、搜索引擎、机器翻译等应用软件的质量。本文在对字母词语进行先期考察的基础上 ,分析了字母词语组成情况的复杂特征和自动识别的难点 ,结合字母词语的各种统计特征和其独有的特点———字母串“锚点” ,提出了从中心往两边扩展的规则加统计辅助的字母词语自动提取的算法。并且对字母词语的双语同现问题进行了处理。算法简单 ,但有效。召回率为 10 0 % ,准确率在 80 %以上。

引用

页码：78 / 85

页数：8

共 6 条

[1] 关于汉语字母词的问题 [J].