学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
Internet中的新词识别
被引:6
作者
:
论文数:
引用数:
h-index:
机构:
李钝
[
1
]
曹元大
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学技术学院
郑州大学信息工程学院
曹元大
[
2
]
论文数:
引用数:
h-index:
机构:
万月亮
[
2
]
机构
:
[1]
郑州大学信息工程学院
[2]
北京理工大学计算机科学技术学院
来源
:
北京邮电大学学报
|
2008年
/ 01期
关键词
:
新词识别;
关联规则;
时间函数;
分词碎片;
D O I
:
暂无
中图分类号
:
TP391.43 [];
学科分类号
:
摘要
:
针对Internet中新词不断出现且难以被及时有效识别的问题,在分析其出现特征的基础上,利用单字之间的同现词频信息以及它们出现的时间规律确定候选新词字串.利用候选字串中各字符相邻、有序、频繁出现的特点,提出采用改进的关联规则挖掘算法进行新词的识别.实验表明,该方法不仅可以根据词串的出现规律区分出新词和常用的单字组合,改善传统方法因固定n元模式匹配而导致的僵化现象,而且解决了"长词中包含短词"的问题,提高了新词识别的准确率.
引用
收藏
页码:26 / 29
页数:4
相关论文
共 4 条
[1]
基于大规模语料库的新词检测
[J].
崔世起
论文数:
0
引用数:
0
h-index:
0
机构:
不详
不详
崔世起
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
不详
不详
刘群
;
论文数:
引用数:
h-index:
机构:
孟遥
;
论文数:
引用数:
h-index:
机构:
于浩
;
论文数:
引用数:
h-index:
机构:
西野文人
.
计算机研究与发展 ,
2006,
(05)
:927
-932
[2]
面向Internet的中文新词语检测
[J].
邹纲
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
邹纲
;
论文数:
引用数:
h-index:
机构:
刘洋
;
论文数:
引用数:
h-index:
机构:
刘群
;
孟遥
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
孟遥
;
于浩
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
于浩
;
西野文人
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
西野文人
;
亢世勇
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
亢世勇
.
中文信息学报,
2004,
(06)
:1
-9
[3]
基于数量的关联规则挖掘
[J].
段云峰
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学电子工程学院
段云峰
;
宋俊德
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学电子工程学院
宋俊德
;
李剑威
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学电子工程学院
李剑威
;
舒华英
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学电子工程学院
舒华英
.
北京邮电大学学报,
2002,
(04)
:56
-60
[4]
商务印书馆辞书研究中心编写,周洪波主编.新华新词语词典[M].北京:商务印书馆,2003
←
1
→
共 4 条
[1]
基于大规模语料库的新词检测
[J].
崔世起
论文数:
0
引用数:
0
h-index:
0
机构:
不详
不详
崔世起
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
不详
不详
刘群
;
论文数:
引用数:
h-index:
机构:
孟遥
;
论文数:
引用数:
h-index:
机构:
于浩
;
论文数:
引用数:
h-index:
机构:
西野文人
.
计算机研究与发展 ,
2006,
(05)
:927
-932
[2]
面向Internet的中文新词语检测
[J].
邹纲
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
邹纲
;
论文数:
引用数:
h-index:
机构:
刘洋
;
论文数:
引用数:
h-index:
机构:
刘群
;
孟遥
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
孟遥
;
于浩
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
于浩
;
西野文人
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
西野文人
;
亢世勇
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
亢世勇
.
中文信息学报,
2004,
(06)
:1
-9
[3]
基于数量的关联规则挖掘
[J].
段云峰
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学电子工程学院
段云峰
;
宋俊德
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学电子工程学院
宋俊德
;
李剑威
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学电子工程学院
李剑威
;
舒华英
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学电子工程学院
舒华英
.
北京邮电大学学报,
2002,
(04)
:56
-60
[4]
商务印书馆辞书研究中心编写,周洪波主编.新华新词语词典[M].北京:商务印书馆,2003
←
1
→