基于语料库的字母词语自动提取研究

被引:11
作者
郑泽之
张普
杨建国
机构
[1] 太原师范学院计算机系
[2] 北京语言大学DCC博士研究室
[3] 北京语言大学DCC博士研究室 山西太原北京语言大学DCC博士研究室
[4] 北京
关键词
人工智能; 自然语言处理; 字母词语; 自动提取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
目前 ,很多最新的术语和专有名词 ,首先以字母词语的形式出现在汉语中 ,并日益广泛应用。而字母词语多数是汉语自动分词中的未登录词 ,其正确识别 ,将有助于提高中文分词、信息检索、搜索引擎、机器翻译等应用软件的质量。本文在对字母词语进行先期考察的基础上 ,分析了字母词语组成情况的复杂特征和自动识别的难点 ,结合字母词语的各种统计特征和其独有的特点———字母串“锚点” ,提出了从中心往两边扩展的规则加统计辅助的字母词语自动提取的算法。并且对字母词语的双语同现问题进行了处理。算法简单 ,但有效。召回率为 10 0 % ,准确率在 80 %以上。
引用
收藏
页码:78 / 85
页数:8
相关论文
共 6 条
[1]   关于汉语字母词的问题 [J].
刘涌泉 .
语言文字应用, 2002, (01) :85-90
[2]   基于统计方法的中文姓名识别 [J].
刘秉伟 ;
黄萱菁 ;
郭以昆 ;
吴立德 .
中文信息学报, 2000, (03) :16-24+36
[3]   基于语料库的中文姓名识别方法研究 [J].
郑家恒 ;
李鑫 ;
谭红叶 .
中文信息学报, 2000, (01) :7-12
[4]   中文姓名的自动辨识 [J].
孙茂松,黄昌宁,高海燕,方捷 .
中文信息学报, 1995, (02) :16-27
[5]  
GB/T 12200.2-1994. 汉语信息处理词汇 02部分:汉语和汉字[S]. 1994
[6]  
语言文字规范手册[M]. 语文出版社 , 本社编, 1997