基于语料库和网络的新词自动识别

被引：9

作者：

刘建舟

何婷婷

骆昌日

机构：

[1] 华中师范大学计算机科学系

来源：

计算机应用 | 2004年 / 07期

关键词：

抽取多字词; 页面解析; 动态语料库;

D O I：

暂无

中图分类号：

TP391.12 [];

学科分类号：

摘要：

汉语自动分词是进行中文信息处理的基础。目前 ,困扰汉语自动分词的一个主要难题就是新词自动识别 ,尤其是非专名新词的自动识别。同时 ,新词自动识别对于汉语词典的编纂也有着极为重要的意义。文中提出了一种新的新词自动识别的方法。这个方法用到了互信息和log likelihoodratio两个参数的改进形式。主要分三个阶段完成 :先从网络上下载丰富的语料 ,构建语料库 ;然后采用统计的方法进行多字词识别 ;最后与已有的词表进行对照 ,判定新词。

引用

页码：132 / 134

页数：3