基于语料库和网络的新词自动识别

被引:9
作者
刘建舟
何婷婷
骆昌日
机构
[1] 华中师范大学计算机科学系
关键词
抽取多字词; 页面解析; 动态语料库;
D O I
暂无
中图分类号
TP391.12 [];
学科分类号
摘要
汉语自动分词是进行中文信息处理的基础。目前 ,困扰汉语自动分词的一个主要难题就是新词自动识别 ,尤其是非专名新词的自动识别。同时 ,新词自动识别对于汉语词典的编纂也有着极为重要的意义。文中提出了一种新的新词自动识别的方法。这个方法用到了互信息和log likelihoodratio两个参数的改进形式。主要分三个阶段完成 :先从网络上下载丰富的语料 ,构建语料库 ;然后采用统计的方法进行多字词识别 ;最后与已有的词表进行对照 ,判定新词。
引用
收藏
页码:132 / 134
页数:3
相关论文
共 4 条
[1]   计算机辅助新词新语词典的编纂 [J].
陈玉泉 ;
顾顺莲 ;
陆汝占 .
上海交通大学学报, 2000, (07) :999-1000
[2]   动态流通语料库理论的概念和方法 [J].
隋岩 .
语言文字应用, 2000, (02) :50-57
[3]   自动分词中未登录词问题的一揽子解决方案 [J].
陈小荷 .
语言文字应用, 1999, (03) :103-109
[4]   中文姓名的自动辨识 [J].
孙茂松,黄昌宁,高海燕,方捷 .
中文信息学报, 1995, (02) :16-27