财经领域命名实体识别方法的研究与系统实现

被引:0
作者
吴阳
机构
[1] 哈尔滨工业大学
关键词
命名实体识别; CRF模型; Co-Training方法; Hadoop框架;
D O I
暂无
年度学位
2015
学位类型
硕士
摘要
随着大数据处理技术的不断发展,互联网金融也进入了大数据时代。面对海量的财经文章,使用自然语言处理技术对其进行解析已成为技术发展的必然趋势。而命名实体识别作为自然语言处理技术中的重要基础,为信息抽取、信息过滤、信息检索、问答系统等多种自然语言处理技术提供了重要的基础技术支持。因此,开发一个识别财经领域中的股票名称、股票代码等命名实体的系统,具有重要的现实意义和使用价值。论文通过查阅相关文献,详细论述了课题的产生背景和相关技术的发展与应用。在总结需求的基础上,对命名实体识别系统进行了深入研究,确定了解决方案和技术措施。针对命名实体识别,本系统采用了条件随机场(Conditional Random Field,CRF)模型,在模型训练过程中结合了Co-Training方法,不仅可以提高模型识别性能,还减少了因标注语料而消耗的大量人力物力。对于命名实体的识别采用的是Viterbi算法。此外,为了解决CRF模型训练和实体识别时间较长的问题,将系统架构在Hadoop框架之上,使用并行化处理的方式来缩短其运行时间。本系统在设计上可以划分为模型训练和实体识别两大模块。模型训练模块采用CRF模型,使用选取的标注语料和特征模板,基于Co-Training方法训练得到一个CRF模型。命名实体识别模块可以从财经新闻、公司年报、个股研报等财经文章中识别出股票名称、股票代码等实体信息,识别过程使用了Viterbi算法,从而将识别问题转化为了序列标注问题。最后还对模型的识别性能进行了评测、比较,验证了CRF模型的优越性及Co-Training方法训练模型的可行性与有效性。系统经过测试,已经可以实现模型训练和实体识别两大功能,满足了需求分析中提出的功能和非功能需求,达到了预期的要求。系统现已上线运行。
引用
收藏
页数:79
共 15 条
[1]
面向搜索引擎的自然语言处理关键技术研究 [D]. 
李莎莎 .
国防科学技术大学,
2011
[2]
‘Big data’; Hadoop and cloud computing in genomics.[J].Aisling O’Driscoll;Jurate Daugelaite;Roy D. Sleator.Journal of Biomedical Informatics.2013,
[3]
Learning multilingual named entity recognition from Wikipedia.[J].Joel Nothman;Nicky Ringland;Will Radford;Tara Murphy;James R. Curran.Artificial Intelligence.2013,
[4]
Sample-based software defect prediction with active and semi-supervised learning [J].
Li, Ming ;
Zhang, Hongyu ;
Wu, Rongxin ;
Zhou, Zhi-Hua .
AUTOMATED SOFTWARE ENGINEERING, 2012, 19 (02) :201-230
[5]
An algorithm that learns what's in a name [J].
Bikel, DM ;
Schwartz, R ;
Weischedel, RM .
MACHINE LEARNING, 1999, 34 (1-3) :211-231
[6]
中文分词与词性标注研究 [J].
梁喜涛 ;
顾磊 .
计算机技术与发展, 2015, 25 (02) :175-180
[7]
基于Hadoop框架的MapReduce计算模式的优化设计 [J].
孙彦超 ;
王兴芬 .
计算机科学, 2014, 41(S2) (S2) :333-336
[8]
基于隐Markov模型汉语词性自动标注的新算法 [J].
曲慧雁 ;
赵伟 ;
王东海 ;
李洁 .
东北师大学报(自然科学版), 2013, 45 (04) :66-70
[9]
[10]
基于MapReduce的中文词性标注CRF模型并行化训练研究 [J].
刘滔 ;
雷霖 ;
陈荦 ;
熊伟 .
北京大学学报(自然科学版), 2013, 49 (01) :147-152