新词识别和热词排名方法研究

被引:0
作者
耿升华
机构
[1] 重庆大学
关键词
新词识别; 互信息; 左右信息熵; 贝叶斯平均; 牛顿冷却定律;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
互联网的发展极大地方便了人们进行信息交换,但海量信息产生的同时也给自然语言处理、词典编纂等带来了挑战。如何从海量信息中挖掘出近期的热点及有用信息已经越来越重要,在这个过程中不可避免的会涉及到新词和热词的挖掘。本文主要研究的是新词识别和热点词语的抽取。 目前对于新词的定义还没有统一的说法。本文将新词定义为未登录在词典中的词,并且本文将新词分为时间词和量词、命名实体、普通新词三类。由于普通新词在新词中占的比重最大,所以本文主要的研究对象是普通新词。 本文提出了一种统计与规则结合的新词识别方法。该方法从词语紧密度和词语的自由运用度两个方面来考量词语,在统计学中表现为互信息和左右信息熵两个统计量。该方法首先对语料库进行预处理,预处理后使用后缀数组来统计重复串,然后计算重复串的互信息和左右信息熵的值,并用本文提出的Score评价函数进行词语边界确定,得到候选词组;接着使用垃圾词典来过滤噪音串,最后使用基准词典过滤得到新词。本文方法的准确率虽有所降低,但召回率有了很大的提高,其F值平均为70%,相较目前较好的方法提高了1%5%。 此外,本文还对热词的排名进行了研究。本文将基于用户投票的排名方法用于热词排名,通过贝叶斯平均和牛顿冷却定律来量化词语的热度,并通过两个值的优缺点比较,提出了将两个值取权重的方法得到了一种更合理的量化值。本文由此通过热度排行来识别出每日热词。并且本文还提出一种热词评价标准,为目前混乱的网络热词评价标准做了一个初步的统一。实验证明,这种量化方法是可行有效的。
引用
收藏
页数:64
共 23 条
[1]
基于统计语言模型的汉语浅层分析研究 [D]. 
高红 .
大连理工大学,
2007
[2]
多媒体信息自动摘要及其相关技术研究 [D]. 
郑义 .
复旦大学,
2003
[3]
辞书与数字化研究.[M].张绍麒主编;.上海辞书出版社.2005,
[4]
Meaningful term extraction and discriminative term selection in text categorization via unknown-word methodology.[J].Yu-Sheng Lai;Chung-Hsien Wu.ACM Transactions on Asian Language Information Processing (TALIP).2002, 1
[5]
New word detection algorithm for Chinese based on extraction of local context information..H. Zeng;C. Zhou;X. Shi;T. Li;C. Su;.Intelligent System and Knowledge Engineering.2008,
[6]
微观区域网络搜索热词的捕获与分析 [J].
王泰 ;
江光荣 ;
于丽霞 .
计算机工程与设计, 2012, 33 (02) :556-560
[7]
基于二元背景模型的新词发现 [J].
吴悦 ;
燕鹏举 ;
翟鲁峰 .
清华大学学报(自然科学版), 2011, 51 (09) :1317-1320
[8]
命名实体识别研究进展综述 [J].
孙镇 ;
王惠临 .
现代图书情报技术, 2010, (06) :42-47
[9]
Internet中的新词识别 [J].
李钝 ;
曹元大 ;
万月亮 .
北京邮电大学学报, 2008, (01) :26-29
[10]
一种基于大规模语料的新词识别方法 [J].
贺敏 ;
龚才春 ;
张华平 ;
程学旗 .
计算机工程与应用 , 2007, (21) :157-159