新词识别和热词排名方法研究

被引：0

作者：

耿升华

机构：

[1] 重庆大学

关键词：

新词识别; 互信息; 左右信息熵; 贝叶斯平均; 牛顿冷却定律;

D O I：

暂无

年度学位：

2013

学位类型：

硕士

导师：

钟将;

摘要：

互联网的发展极大地方便了人们进行信息交换，但海量信息产生的同时也给自然语言处理、词典编纂等带来了挑战。如何从海量信息中挖掘出近期的热点及有用信息已经越来越重要，在这个过程中不可避免的会涉及到新词和热词的挖掘。本文主要研究的是新词识别和热点词语的抽取。目前对于新词的定义还没有统一的说法。本文将新词定义为未登录在词典中的词，并且本文将新词分为时间词和量词、命名实体、普通新词三类。由于普通新词在新词中占的比重最大，所以本文主要的研究对象是普通新词。本文提出了一种统计与规则结合的新词识别方法。该方法从词语紧密度和词语的自由运用度两个方面来考量词语，在统计学中表现为互信息和左右信息熵两个统计量。该方法首先对语料库进行预处理，预处理后使用后缀数组来统计重复串，然后计算重复串的互信息和左右信息熵的值，并用本文提出的Score评价函数进行词语边界确定，得到候选词组；接着使用垃圾词典来过滤噪音串，最后使用基准词典过滤得到新词。本文方法的准确率虽有所降低，但召回率有了很大的提高，其F值平均为70%，相较目前较好的方法提高了1%5%。此外，本文还对热词的排名进行了研究。本文将基于用户投票的排名方法用于热词排名，通过贝叶斯平均和牛顿冷却定律来量化词语的热度，并通过两个值的优缺点比较，提出了将两个值取权重的方法得到了一种更合理的量化值。本文由此通过热度排行来识别出每日热词。并且本文还提出一种热词评价标准，为目前混乱的网络热词评价标准做了一个初步的统一。实验证明，这种量化方法是可行有效的。

引用

页数：64

共 23 条

[1]

基于统计语言模型的汉语浅层分析研究 [D].

高红 .

大连理工大学,

2007

[2]

多媒体信息自动摘要及其相关技术研究 [D].

郑义 .

复旦大学,

2003

[3]

辞书与数字化研究.[M].张绍麒主编;.上海辞书出版社.2005,

[4]

Meaningful term extraction and discriminative term selection in text categorization via unknown-word methodology.[J].Yu-Sheng Lai;Chung-Hsien Wu.ACM Transactions on Asian Language Information Processing (TALIP).2002, 1

[5]

New word detection algorithm for Chinese based on extraction of local context information..H. Zeng;C. Zhou;X. Shi;T. Li;C. Su;.Intelligent System and Knowledge Engineering.2008,

[6]

微观区域网络搜索热词的捕获与分析 [J].