财经领域命名实体识别方法的研究与系统实现

被引：0

作者：

吴阳

机构：

[1] 哈尔滨工业大学

关键词：

命名实体识别; CRF模型; Co-Training方法; Hadoop框架;

D O I：

暂无

年度学位：

2015

学位类型：

硕士

导师：

蔡则苏; 陶志伟;

摘要：

随着大数据处理技术的不断发展,互联网金融也进入了大数据时代。面对海量的财经文章,使用自然语言处理技术对其进行解析已成为技术发展的必然趋势。而命名实体识别作为自然语言处理技术中的重要基础,为信息抽取、信息过滤、信息检索、问答系统等多种自然语言处理技术提供了重要的基础技术支持。因此,开发一个识别财经领域中的股票名称、股票代码等命名实体的系统,具有重要的现实意义和使用价值。论文通过查阅相关文献,详细论述了课题的产生背景和相关技术的发展与应用。在总结需求的基础上,对命名实体识别系统进行了深入研究,确定了解决方案和技术措施。针对命名实体识别,本系统采用了条件随机场(Conditional Random Field,CRF)模型,在模型训练过程中结合了Co-Training方法,不仅可以提高模型识别性能,还减少了因标注语料而消耗的大量人力物力。对于命名实体的识别采用的是Viterbi算法。此外,为了解决CRF模型训练和实体识别时间较长的问题,将系统架构在Hadoop框架之上,使用并行化处理的方式来缩短其运行时间。本系统在设计上可以划分为模型训练和实体识别两大模块。模型训练模块采用CRF模型,使用选取的标注语料和特征模板,基于Co-Training方法训练得到一个CRF模型。命名实体识别模块可以从财经新闻、公司年报、个股研报等财经文章中识别出股票名称、股票代码等实体信息,识别过程使用了Viterbi算法,从而将识别问题转化为了序列标注问题。最后还对模型的识别性能进行了评测、比较,验证了CRF模型的优越性及Co-Training方法训练模型的可行性与有效性。系统经过测试,已经可以实现模型训练和实体识别两大功能,满足了需求分析中提出的功能和非功能需求,达到了预期的要求。系统现已上线运行。

引用

页数：79

共 15 条

[1]

面向搜索引擎的自然语言处理关键技术研究 [D].

李莎莎 .

国防科学技术大学,

2011

[2]

‘Big data’; Hadoop and cloud computing in genomics.[J].Aisling O’Driscoll;Jurate Daugelaite;Roy D. Sleator.Journal of Biomedical Informatics.2013,

[3]

Learning multilingual named entity recognition from Wikipedia.[J].Joel Nothman;Nicky Ringland;Will Radford;Tara Murphy;James R. Curran.Artificial Intelligence.2013,

[4]

Sample-based software defect prediction with active and semi-supervised learning [J].