规则与统计相结合的音乐领域命名实体识别

被引:0
作者
张学清
机构
[1] 电子科技大学
关键词
命名实体识别; 音乐命名实体; 隐马尔科夫模型; 训练语料标注;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
音乐是人类史上一个永恒的主题,是人们情感的寄托和外化。随着互联网的不断发展,人们接触到的音乐信息更是层出不穷,如何从浩瀚的信息中获取感兴趣的内容是亟待解决的问题。因此,人们迫切需要一些自动化工具对音乐领域的海量信息进行处理,音乐搜索、音乐个性化推荐、音乐趋势分析等研究便应运而生。而音乐命名实体(简称音乐实体)如歌手名、歌曲名等是音乐信息中最基本的元素。因此,如何从海量的音乐信息中正确识别出音乐实体是一个非常重要的研究课题,也是其它相关研究的重要基础。 音乐实体识别是命名实体识别的一个垂直组成部分。现阶段国内外在命名实体识别方面已经有大量的研究工作,尤其是在人名、地名和机构名的识别上。而在音乐实体识别方面的研究很少,涉及到中文歌曲名、专辑名识别的更少。因此,为了准确、全面地识别出音乐实体,我们需要全方位了解音乐领域中命名实体的特征,并借鉴已有的命名实体识别技术来设计一个中文音乐实体识别系统。 本文研究了中文命名实体识别方法在音乐领域相关Web信息中的应用,以便人们能够快速、准确地将分散在不同网页中的音乐实体抽取出来。本文主要在以下两个方面开展了工作: 第一,设计了一种分布式网络蜘蛛框架和提出了一种基于DOM的Web主题信息提取方法,并且改进了分词模块,为音乐命名实体的识别做了准备工作。 第二,通过对音乐实体及上下文特点的分析,提出了一种规则与统计相结合的音乐实体识别方案。其核心思想为:首先,在分词之前采用基于规则的方法来识别部分明显的音乐实体。然后,在分词之后引入隐马尔科夫模型来识别大部分音乐实体。最后,利用音乐实体库和修正规则,对识别结果进行修正。该方法兼顾了统计与规则两种方法的优点。同时,我们提出了一种新颖、实用的训练语料标注方案,这使得隐马尔科夫模型在音乐实体识别上变得实际可行。 本文在上述工作的基础上实现了音乐命名实体识别系统。通过测试发现,该系统具有较高的准确率和召回率,证明本文所提出的方案具有一定的研究意义和实用价值。
引用
收藏
页数:79
共 30 条
[1]
情感化音乐评论分析及智能检索技术研究 [D]. 
夏虎 .
电子科技大学,
2008
[2]
基于WEB挖掘的网络蜘蛛的研究与实现 [D]. 
詹晶晶 .
厦门大学,
2007
[3]
规则与统计相结合的中文命名实体识别 [D]. 
乔永波 .
山东大学,
2007
[4]
基于Web信息抽取的个性化信息服务研究与实现 [D]. 
何莉 .
华东师范大学,
2007
[5]
An algorithm that learns what's in a name [J].
Bikel, DM ;
Schwartz, R ;
Weischedel, RM .
MACHINE LEARNING, 1999, 34 (1-3) :211-231
[6]
STATISTICAL INFERENCE FOR PROBABILISTIC FUNCTIONS OF FINITE STATE MARKOV CHAINS [J].
BAUM, LE ;
PETRIE, T .
ANNALS OF MATHEMATICAL STATISTICS, 1966, 37 (06) :1554-&
[7]
知识发现.[M].史忠植著;.清华大学出版社.2002,
[8]
中文文本自动分词和标注.[M].刘开瑛著;.商务印书馆.2000,
[9]
SVM与规则相结合的中文地名自动识别 [J].
李丽双 ;
黄德根 ;
陈春荣 ;
杨元生 .
中文信息学报, 2006, (05) :51-57
[10]
基于层叠条件随机场模型的中文机构名自动识别 [J].
周俊生 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
电子学报, 2006, (05) :804-809