共 4 条
基于语料库和网络的新词自动识别
被引:9
作者:
刘建舟
何婷婷
骆昌日
机构:
[1] 华中师范大学计算机科学系
来源:
关键词:
抽取多字词;
页面解析;
动态语料库;
D O I:
暂无
中图分类号:
TP391.12 [];
学科分类号:
摘要:
汉语自动分词是进行中文信息处理的基础。目前 ,困扰汉语自动分词的一个主要难题就是新词自动识别 ,尤其是非专名新词的自动识别。同时 ,新词自动识别对于汉语词典的编纂也有着极为重要的意义。文中提出了一种新的新词自动识别的方法。这个方法用到了互信息和log likelihoodratio两个参数的改进形式。主要分三个阶段完成 :先从网络上下载丰富的语料 ,构建语料库 ;然后采用统计的方法进行多字词识别 ;最后与已有的词表进行对照 ,判定新词。
引用
收藏
页码:132 / 134
页数:3
相关论文