微博新词发现研究

被引:0
作者
苏其龙
机构
[1] 哈尔滨工业大学
关键词
新词发现; 统计量; 分词; 生命周期;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
互联网正深刻地改变着人们的生活,学习和工作等各个方面,特别是改变了人们交流和表达的方式,新词的不断出现就是一个证明。微博作为Web2.0时代的最热门的社交网络应用,成为网络上新词创造和传播的主要平台。新词发现作为中文信息处理领域的一项基础性任务,直接影响到分词等其它中文信息处理任务的性能。虽然很多学者进行了新词发现的研究,并取得一定的成果。新词发现研究仍然存在一些问题:一是新词发现的效果不够理想,实际应用的时候常常需要人工干预;二是在微博等互联网语料上进行新词发现的研究比较少;三是缺少对新词进行分析的研究,以指导新词的应用。针对以上分析,本文进行了微博新词发现的研究,做了如下工作: 第一,使用规则与统计相结合的方法进行新词发现。首先分析了五个经典统计量在抽取微博新词时的表现,指出现有方法存在的问题。在此基础上,本文提出一个基于邻接熵的新统计量——加权的相对邻接熵,实验表明新统计量具有明显的优越性。对发现的微博新词进行初步的分析,按照来源将微博新词分为七个类别,探讨了新词的形成原因。 第二,将新词发现与微博分词相结合。在分词方面,针对微博文本的特点,采用一些规则辅助分词;针对微博缺少标注的训练语料的问题,本文利用KL距离选取领域外的标注语料作为训练语料;针对微博中新词较多的问题,本文将提出的新统计量作为特征加入分词模型的训练。分词后,利用分词给出的置信度,将高置信度片段和低置信度片段作为候选字符串,从中发现新词,并将发现的新词加入到词典中,作为词典特征加入分词模型的训练。通过实验验证了将新词发现与分词相结合促进了两者性能的提升。 第三,对微博中新词的生命周期进行分析。首先是借助生命周期曲线从生命周期长度,新词频数和分布均匀度三个方面分析了新词的时间分布规律,大部分的新词在出现后很快就消亡了,只有少部分新词能存活下去,逐渐发展为普通词。接着我们利用频繁项集挖掘算法抽取新词的共现词语,分析新词的空间分布规律,一般新词的高支持度的共现词语比较少,代表新话题的话题词和命名实体类新词的共现词语比较多,能确切地描述出话题的主要内容。
引用
收藏
页数:68
共 19 条
[1]
基于条件随机场模型的新词发现系统研究与实现 [D]. 
徐忆苏 .
哈尔滨工业大学,
2008
[2]
基于特定领域的中文微博热点话题挖掘系统BTopicMiner [J].
李劲 ;
张华 ;
吴浩雄 ;
向军 .
计算机应用, 2012, 32 (08) :2346-2349
[3]
中文新词识别技术综述 [J].
张海军 ;
史树敏 ;
朱朝勇 ;
黄河燕 .
计算机科学, 2010, 37 (03) :6-10+16
[4]
基于用户兴趣分析的网页生命周期建模 [J].
王勇 ;
刘奕群 ;
张敏 ;
马少平 ;
茹立云 .
中文信息学报, 2008, (02) :76-80
[5]
大规模语料的频繁模式快速发现算法 [J].
龚才春 ;
贺敏 ;
陈海强 ;
许洪波 ;
程学旗 .
通信学报, 2007, (12) :161-166
[6]
一种基于大规模语料的新词识别方法 [J].
贺敏 ;
龚才春 ;
张华平 ;
程学旗 .
计算机工程与应用 , 2007, (21) :157-159
[7]
基于多特征的自适应新词识别 [J].
罗智勇 ;
宋柔 .
北京工业大学学报, 2007, (07) :718-725
[8]
面向Internet的中文新词语检测 [J].
邹纲 ;
刘洋 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 ;
亢世勇 .
中文信息学报, 2004, (06) :1-9
[9]
基于概率统计技术和规则方法的新词发现 [J].
贾自艳 ;
史忠植 .
计算机工程, 2004, (20) :19-21+83
[10]
基于字串内部结合紧密度的汉语自动抽词实验研究 [J].
罗盛芬 ;
孙茂松 .
中文信息学报, 2003, (03) :9-14