词激活力模型在中文词发现中的应用研究

被引：0

作者：

张永田

机构：

[1] 北京邮电大学

关键词：

激活效应; 稀疏矩阵; 大数据处理; 词激活力; 词语发现; 分词;

D O I：

暂无

年度学位：

2013

学位类型：

硕士

导师：

郭军;

摘要：

在中文信息的自动化处理过程中,分词是一个关键步骤。而工程中常用的基于字符串匹配的分词技术,十分依赖分词词典的完备性和准确度。在互联网时代,不断有新词被创造、被使用,也不断有过时的词语被淘汰、被弃用,传统的基于人工标注的词语维护方式,越来越不能适应互联网时代高速迭代的词语维护需求。更加自动化、更加可计算的词语发现方式,对中文信息处理越来越重要。本文提出一种基于词激活力模型的词语发现方法,希望探索从文本大数据的统计信息中发现词语构成规律的方法。词激活力模型是一个统计模型,对文本中广泛存在的激活效应进行二维信息建模,对文本中字、词、实体之间的关系有很好的分析效果。本文假设文本是单字之间通过激活关系构成的序列,并以此为基础建立词激活力模型,进而对单字组词的规律进行探索。文中先对现有的词语发现研究情况作了简要介绍；然后对词激活力模型进行了比较详细的说明;之后对词激活力模型的算法流程进行了设计实现,分析和设计了该模型的大数据处理方案；随后对中文语料集进行了词语发现规律探索实验,总结了词语构成的统计规律；最后对全文做了总结,并提出对未来工作的展望。

引用

页数：58

共 11 条

[1]

Context-dependent interpretation of words: Evidence for interactive neural processes [J].

Gennari, Silvia P. ;

MacDonald, Maryellen C. ;

Postle, Bradley R. ;

Seidenberg, Mark S. .

NEUROIMAGE, 2007, 35 (03) :1278-1286

[2]

Seeing words in context: the interaction of lexical and sentence level information during reading.[J].John C.J Hoeks;Laurie A Stowe;Gina Doedens.Cognitive Brain Research.2003, 1

[3]

中文分词技术综述 [J].