学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
微博新词发现研究
被引:0
作者
:
苏其龙
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学
哈尔滨工业大学
苏其龙
机构
:
[1]
哈尔滨工业大学
关键词
:
新词发现;
统计量;
分词;
生命周期;
D O I
:
暂无
年度学位
:
2013
学位类型
:
硕士
导师
:
刘秉权;
摘要
:
互联网正深刻地改变着人们的生活,学习和工作等各个方面,特别是改变了人们交流和表达的方式,新词的不断出现就是一个证明。微博作为Web2.0时代的最热门的社交网络应用,成为网络上新词创造和传播的主要平台。新词发现作为中文信息处理领域的一项基础性任务,直接影响到分词等其它中文信息处理任务的性能。虽然很多学者进行了新词发现的研究,并取得一定的成果。新词发现研究仍然存在一些问题:一是新词发现的效果不够理想,实际应用的时候常常需要人工干预;二是在微博等互联网语料上进行新词发现的研究比较少;三是缺少对新词进行分析的研究,以指导新词的应用。针对以上分析,本文进行了微博新词发现的研究,做了如下工作: 第一,使用规则与统计相结合的方法进行新词发现。首先分析了五个经典统计量在抽取微博新词时的表现,指出现有方法存在的问题。在此基础上,本文提出一个基于邻接熵的新统计量——加权的相对邻接熵,实验表明新统计量具有明显的优越性。对发现的微博新词进行初步的分析,按照来源将微博新词分为七个类别,探讨了新词的形成原因。 第二,将新词发现与微博分词相结合。在分词方面,针对微博文本的特点,采用一些规则辅助分词;针对微博缺少标注的训练语料的问题,本文利用KL距离选取领域外的标注语料作为训练语料;针对微博中新词较多的问题,本文将提出的新统计量作为特征加入分词模型的训练。分词后,利用分词给出的置信度,将高置信度片段和低置信度片段作为候选字符串,从中发现新词,并将发现的新词加入到词典中,作为词典特征加入分词模型的训练。通过实验验证了将新词发现与分词相结合促进了两者性能的提升。 第三,对微博中新词的生命周期进行分析。首先是借助生命周期曲线从生命周期长度,新词频数和分布均匀度三个方面分析了新词的时间分布规律,大部分的新词在出现后很快就消亡了,只有少部分新词能存活下去,逐渐发展为普通词。接着我们利用频繁项集挖掘算法抽取新词的共现词语,分析新词的空间分布规律,一般新词的高支持度的共现词语比较少,代表新话题的话题词和命名实体类新词的共现词语比较多,能确切地描述出话题的主要内容。
引用
收藏
页数:68
共 19 条
[1]
基于条件随机场模型的新词发现系统研究与实现
[D].
徐忆苏
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学
哈尔滨工业大学
徐忆苏
.
哈尔滨工业大学,
2008
[2]
基于特定领域的中文微博热点话题挖掘系统BTopicMiner
[J].
论文数:
引用数:
h-index:
机构:
李劲
;
论文数:
引用数:
h-index:
机构:
张华
;
论文数:
引用数:
h-index:
机构:
吴浩雄
;
向军
论文数:
0
引用数:
0
h-index:
0
机构:
湖北民族学院信息工程学院
湖北民族学院信息工程学院
向军
.
计算机应用,
2012,
32
(08)
:2346
-2349
[3]
中文新词识别技术综述
[J].
论文数:
引用数:
h-index:
机构:
张海军
;
论文数:
引用数:
h-index:
机构:
史树敏
;
论文数:
引用数:
h-index:
机构:
朱朝勇
;
论文数:
引用数:
h-index:
机构:
黄河燕
.
计算机科学,
2010,
37
(03)
:6
-10+16
[4]
基于用户兴趣分析的网页生命周期建模
[J].
论文数:
引用数:
h-index:
机构:
王勇
;
论文数:
引用数:
h-index:
机构:
刘奕群
;
论文数:
引用数:
h-index:
机构:
张敏
;
论文数:
引用数:
h-index:
机构:
马少平
;
茹立云
论文数:
0
引用数:
0
h-index:
0
机构:
搜狐公司研发中心
智能技术与系统国家重点实验室清华信息科学与技术国家实验室(筹)清华大学计算机系
茹立云
.
中文信息学报,
2008,
(02)
:76
-80
[5]
大规模语料的频繁模式快速发现算法
[J].
论文数:
引用数:
h-index:
机构:
龚才春
;
论文数:
引用数:
h-index:
机构:
贺敏
;
论文数:
引用数:
h-index:
机构:
陈海强
;
论文数:
引用数:
h-index:
机构:
许洪波
;
论文数:
引用数:
h-index:
机构:
程学旗
.
通信学报,
2007,
(12)
:161
-166
[6]
一种基于大规模语料的新词识别方法
[J].
论文数:
引用数:
h-index:
机构:
贺敏
;
论文数:
引用数:
h-index:
机构:
龚才春
;
论文数:
引用数:
h-index:
机构:
张华平
;
论文数:
引用数:
h-index:
机构:
程学旗
.
计算机工程与应用 ,
2007,
(21)
:157
-159
[7]
基于多特征的自适应新词识别
[J].
论文数:
引用数:
h-index:
机构:
罗智勇
;
论文数:
引用数:
h-index:
机构:
宋柔
.
北京工业大学学报,
2007,
(07)
:718
-725
[8]
面向Internet的中文新词语检测
[J].
邹纲
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
邹纲
;
刘洋
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
刘洋
;
论文数:
引用数:
h-index:
机构:
刘群
;
论文数:
引用数:
h-index:
机构:
孟遥
;
论文数:
引用数:
h-index:
机构:
于浩
;
论文数:
引用数:
h-index:
机构:
西野文人
;
亢世勇
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
亢世勇
.
中文信息学报,
2004,
(06)
:1
-9
[9]
基于概率统计技术和规则方法的新词发现
[J].
论文数:
引用数:
h-index:
机构:
贾自艳
;
论文数:
引用数:
h-index:
机构:
史忠植
.
计算机工程,
2004,
(20)
:19
-21+83
[10]
基于字串内部结合紧密度的汉语自动抽词实验研究
[J].
罗盛芬
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室清华大学计算机科学与技术系,智能技术与系统国家重点实验室清华大学计算机科学与技术系北京,北京
罗盛芬
;
论文数:
引用数:
h-index:
机构:
孙茂松
.
中文信息学报,
2003,
(03)
:9
-14
←
1
2
→
共 19 条
[1]
基于条件随机场模型的新词发现系统研究与实现
[D].
徐忆苏
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学
哈尔滨工业大学
徐忆苏
.
哈尔滨工业大学,
2008
[2]
基于特定领域的中文微博热点话题挖掘系统BTopicMiner
[J].
论文数:
引用数:
h-index:
机构:
李劲
;
论文数:
引用数:
h-index:
机构:
张华
;
论文数:
引用数:
h-index:
机构:
吴浩雄
;
向军
论文数:
0
引用数:
0
h-index:
0
机构:
湖北民族学院信息工程学院
湖北民族学院信息工程学院
向军
.
计算机应用,
2012,
32
(08)
:2346
-2349
[3]
中文新词识别技术综述
[J].
论文数:
引用数:
h-index:
机构:
张海军
;
论文数:
引用数:
h-index:
机构:
史树敏
;
论文数:
引用数:
h-index:
机构:
朱朝勇
;
论文数:
引用数:
h-index:
机构:
黄河燕
.
计算机科学,
2010,
37
(03)
:6
-10+16
[4]
基于用户兴趣分析的网页生命周期建模
[J].
论文数:
引用数:
h-index:
机构:
王勇
;
论文数:
引用数:
h-index:
机构:
刘奕群
;
论文数:
引用数:
h-index:
机构:
张敏
;
论文数:
引用数:
h-index:
机构:
马少平
;
茹立云
论文数:
0
引用数:
0
h-index:
0
机构:
搜狐公司研发中心
智能技术与系统国家重点实验室清华信息科学与技术国家实验室(筹)清华大学计算机系
茹立云
.
中文信息学报,
2008,
(02)
:76
-80
[5]
大规模语料的频繁模式快速发现算法
[J].
论文数:
引用数:
h-index:
机构:
龚才春
;
论文数:
引用数:
h-index:
机构:
贺敏
;
论文数:
引用数:
h-index:
机构:
陈海强
;
论文数:
引用数:
h-index:
机构:
许洪波
;
论文数:
引用数:
h-index:
机构:
程学旗
.
通信学报,
2007,
(12)
:161
-166
[6]
一种基于大规模语料的新词识别方法
[J].
论文数:
引用数:
h-index:
机构:
贺敏
;
论文数:
引用数:
h-index:
机构:
龚才春
;
论文数:
引用数:
h-index:
机构:
张华平
;
论文数:
引用数:
h-index:
机构:
程学旗
.
计算机工程与应用 ,
2007,
(21)
:157
-159
[7]
基于多特征的自适应新词识别
[J].
论文数:
引用数:
h-index:
机构:
罗智勇
;
论文数:
引用数:
h-index:
机构:
宋柔
.
北京工业大学学报,
2007,
(07)
:718
-725
[8]
面向Internet的中文新词语检测
[J].
邹纲
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
邹纲
;
刘洋
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
刘洋
;
论文数:
引用数:
h-index:
机构:
刘群
;
论文数:
引用数:
h-index:
机构:
孟遥
;
论文数:
引用数:
h-index:
机构:
于浩
;
论文数:
引用数:
h-index:
机构:
西野文人
;
亢世勇
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
亢世勇
.
中文信息学报,
2004,
(06)
:1
-9
[9]
基于概率统计技术和规则方法的新词发现
[J].
论文数:
引用数:
h-index:
机构:
贾自艳
;
论文数:
引用数:
h-index:
机构:
史忠植
.
计算机工程,
2004,
(20)
:19
-21+83
[10]
基于字串内部结合紧密度的汉语自动抽词实验研究
[J].
罗盛芬
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室清华大学计算机科学与技术系,智能技术与系统国家重点实验室清华大学计算机科学与技术系北京,北京
罗盛芬
;
论文数:
引用数:
h-index:
机构:
孙茂松
.
中文信息学报,
2003,
(03)
:9
-14
←
1
2
→