计算机辅助新词新语词典的编纂

被引:2
作者
陈玉泉
顾顺莲
陆汝占
机构
[1] 上海交通大学计算机科学与工程系!上海
[2] 上海交通大学留学生教育中心!上海
关键词
汉语新现词语; 数据挖掘; 新词新语词典;
D O I
10.16183/j.cnki.jsjtu.2000.07.038
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在参照众多语言学家关于新词新语的定义及其界定的基础上 ,定义了适合计算机处理的新词新语的扩充集——新现词语 ,给出了从大规模现代汉语语料库中基于数据挖掘技术的新现词语发现 ,并利用该技术辅助新词新语词典的编纂 .新现词语发现先将非结构化数据准结构化 ,再利用数据变换函数将其转换为结构化数据 ,最后再用结构化数据挖掘技术进行数据挖掘 .利用上述方法 ,对 1 991年人民日报的部分语料 (约 4 0 0万字 )进行了初步测试 ,取得了良好的效果
引用
收藏
页码:999 / 1000
页数:2
相关论文
共 3 条
[1]   新词新语研究与辞书编纂 [J].
李建国 .
辞书研究, 1996, (03) :30-38
[2]  
整理汉语新词语的若干思考[A]. 于根元.语言文字应用研究论文集(Ⅰ)[C]. 1995
[3]  
语言学论辑[M]. - 北京语言学院出版社 , 南开大学《语言学论辑》编委会编, 1996