Internet中的新词识别

被引:6
作者
李钝 [1 ]
曹元大 [2 ]
万月亮 [2 ]
机构
[1] 郑州大学信息工程学院
[2] 北京理工大学计算机科学技术学院
关键词
新词识别; 关联规则; 时间函数; 分词碎片;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
摘要
针对Internet中新词不断出现且难以被及时有效识别的问题,在分析其出现特征的基础上,利用单字之间的同现词频信息以及它们出现的时间规律确定候选新词字串.利用候选字串中各字符相邻、有序、频繁出现的特点,提出采用改进的关联规则挖掘算法进行新词的识别.实验表明,该方法不仅可以根据词串的出现规律区分出新词和常用的单字组合,改善传统方法因固定n元模式匹配而导致的僵化现象,而且解决了"长词中包含短词"的问题,提高了新词识别的准确率.
引用
收藏
页码:26 / 29
页数:4
相关论文
共 4 条
[1]   基于大规模语料库的新词检测 [J].
崔世起 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 .
计算机研究与发展 , 2006, (05) :927-932
[2]   面向Internet的中文新词语检测 [J].
邹纲 ;
刘洋 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 ;
亢世勇 .
中文信息学报, 2004, (06) :1-9
[3]   基于数量的关联规则挖掘 [J].
段云峰 ;
宋俊德 ;
李剑威 ;
舒华英 .
北京邮电大学学报, 2002, (04) :56-60
[4]  
商务印书馆辞书研究中心编写,周洪波主编.新华新词语词典[M].北京:商务印书馆,2003