利用信息传播特性的中文网络新词发现方法

被引:16
作者
孙立远 [1 ,2 ]
周亚东 [3 ]
管晓宏 [1 ,3 ]
机构
[1] 清华大学智能与网络化系统研究中心
[2] 国家计算机网络应急技术处理协调中心
[3] 西安交通大学智能网络与网络安全教育部重点实验室
关键词
新词发现; 信息传播; 用户行为; 时间特性;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对已有方法识别出的网络中文新词生命周期短且很快不再为人们所用的问题,提出了一种基于信息传播特性的中文新词发现方法。该方法结合"新词传播范围广、持续时间长"的特点,从用户覆盖率、话题覆盖率和新词生命周期3个方面设计统计量;采用N-gram算法得到候选词串列表;用基于词频和词语灵活度的方法过滤垃圾词串。实验中以微博文本作为语料来源,与已有方法相比,用户特性使得新词识别的准确率提高了11%,话题特性使准确率提高了10%,时间特性使准确率提高了13%,综合用户、话题和时间的方法使准确率提高了16%。实验结果表明:该方法中的每个特性都提高了中文网络新词识别的准确率,而且同时考虑3种特性的准确率比只考虑单一特性的高。
引用
收藏
页码:59 / 64
页数:6
相关论文
共 9 条
[1]
基于词内部结合度和边界自由度的新词发现 [J].
李文坤 ;
张仰森 ;
陈若愚 .
计算机应用研究, 2015, 32 (08) :2302-2304+2342
[2]
基于微博内容的新词发现方法 [J].
霍帅 ;
张敏 ;
刘奕群 ;
马少平 .
模式识别与人工智能, 2014, 27 (02) :141-145
[3]
中文新词识别技术综述 [J].
张海军 ;
史树敏 ;
朱朝勇 ;
黄河燕 .
计算机科学, 2010, 37 (03) :6-10+16
[4]
面向Internet的中文新词语检测 [J].
邹纲 ;
刘洋 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 ;
亢世勇 .
中文信息学报, 2004, (06) :1-9
[5]
基于字串内部结合紧密度的汉语自动抽词实验研究 [J].
罗盛芬 ;
孙茂松 .
中文信息学报, 2003, (03) :9-14
[6]
微博新词发现研究 [D]. 
苏其龙 .
哈尔滨工业大学,
2013
[7]
汉语新词语发现及其词性标注方法研究 [D]. 
杨辉 .
复旦大学,
2008
[8]
Unknown Chinese word extraction based on variety of overlapping strings[J] Yunming Ye;Qingyao Wu;Yan Li;K.P. Chow;Lucas C.K. Hui;S.M. Yiu Information Processing and Management 2012,
[9]
一种中文网页新词自动获取方法 [P]. 
孙立远 ;
袁睿翕 ;
卞小丁 .
中国专利 :CN101706807B ,2010-05-12