微博新词发现研究

被引：0

作者：

苏其龙

机构：

[1] 哈尔滨工业大学

关键词：

新词发现; 统计量; 分词; 生命周期;

D O I：

暂无

年度学位：

2013

学位类型：

硕士

导师：

刘秉权;

摘要：

互联网正深刻地改变着人们的生活，学习和工作等各个方面，特别是改变了人们交流和表达的方式，新词的不断出现就是一个证明。微博作为Web2.0时代的最热门的社交网络应用，成为网络上新词创造和传播的主要平台。新词发现作为中文信息处理领域的一项基础性任务，直接影响到分词等其它中文信息处理任务的性能。虽然很多学者进行了新词发现的研究，并取得一定的成果。新词发现研究仍然存在一些问题：一是新词发现的效果不够理想，实际应用的时候常常需要人工干预；二是在微博等互联网语料上进行新词发现的研究比较少；三是缺少对新词进行分析的研究，以指导新词的应用。针对以上分析，本文进行了微博新词发现的研究，做了如下工作：第一，使用规则与统计相结合的方法进行新词发现。首先分析了五个经典统计量在抽取微博新词时的表现，指出现有方法存在的问题。在此基础上，本文提出一个基于邻接熵的新统计量——加权的相对邻接熵，实验表明新统计量具有明显的优越性。对发现的微博新词进行初步的分析，按照来源将微博新词分为七个类别，探讨了新词的形成原因。第二，将新词发现与微博分词相结合。在分词方面，针对微博文本的特点，采用一些规则辅助分词；针对微博缺少标注的训练语料的问题，本文利用KL距离选取领域外的标注语料作为训练语料；针对微博中新词较多的问题，本文将提出的新统计量作为特征加入分词模型的训练。分词后，利用分词给出的置信度，将高置信度片段和低置信度片段作为候选字符串，从中发现新词，并将发现的新词加入到词典中，作为词典特征加入分词模型的训练。通过实验验证了将新词发现与分词相结合促进了两者性能的提升。第三，对微博中新词的生命周期进行分析。首先是借助生命周期曲线从生命周期长度，新词频数和分布均匀度三个方面分析了新词的时间分布规律，大部分的新词在出现后很快就消亡了，只有少部分新词能存活下去，逐渐发展为普通词。接着我们利用频繁项集挖掘算法抽取新词的共现词语，分析新词的空间分布规律，一般新词的高支持度的共现词语比较少，代表新话题的话题词和命名实体类新词的共现词语比较多，能确切地描述出话题的主要内容。

引用

页数：68

共 19 条

[1]

基于条件随机场模型的新词发现系统研究与实现 [D].