词激活力模型在中文词发现中的应用研究

被引:0
作者
张永田
机构
[1] 北京邮电大学
关键词
激活效应; 稀疏矩阵; 大数据处理; 词激活力; 词语发现; 分词;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
在中文信息的自动化处理过程中,分词是一个关键步骤。而工程中常用的基于字符串匹配的分词技术,十分依赖分词词典的完备性和准确度。在互联网时代,不断有新词被创造、被使用,也不断有过时的词语被淘汰、被弃用,传统的基于人工标注的词语维护方式,越来越不能适应互联网时代高速迭代的词语维护需求。更加自动化、更加可计算的词语发现方式,对中文信息处理越来越重要。 本文提出一种基于词激活力模型的词语发现方法,希望探索从文本大数据的统计信息中发现词语构成规律的方法。词激活力模型是一个统计模型,对文本中广泛存在的激活效应进行二维信息建模,对文本中字、词、实体之间的关系有很好的分析效果。本文假设文本是单字之间通过激活关系构成的序列,并以此为基础建立词激活力模型,进而对单字组词的规律进行探索。 文中先对现有的词语发现研究情况作了简要介绍;然后对词激活力模型进行了比较详细的说明;之后对词激活力模型的算法流程进行了设计实现,分析和设计了该模型的大数据处理方案;随后对中文语料集进行了词语发现规律探索实验,总结了词语构成的统计规律;最后对全文做了总结,并提出对未来工作的展望。
引用
收藏
页数:58
共 11 条
[1]
Context-dependent interpretation of words: Evidence for interactive neural processes [J].
Gennari, Silvia P. ;
MacDonald, Maryellen C. ;
Postle, Bradley R. ;
Seidenberg, Mark S. .
NEUROIMAGE, 2007, 35 (03) :1278-1286
[2]
Seeing words in context: the interaction of lexical and sentence level information during reading.[J].John C.J Hoeks;Laurie A Stowe;Gina Doedens.Cognitive Brain Research.2003, 1
[3]
中文分词技术综述 [J].
周宏宇 ;
张政 .
安阳师范学院学报, 2010, (02) :54-56
[4]
中文新词识别技术综述 [J].
张海军 ;
史树敏 ;
朱朝勇 ;
黄河燕 .
计算机科学, 2010, 37 (03) :6-10+16
[5]
中文分词十年回顾 [J].
黄昌宁 ;
赵海 .
中文信息学报, 2007, (03) :8-19
[6]
汉语分词技术研究现状与应用展望 [J].
周文帅 ;
冯速 .
山西师范大学学报(自然科学版), 2006, (01) :25-29
[7]
汉语分词技术综述 [J].
龚汉明 ;
周长胜 .
北京机械工业学院学报, 2004, (03) :52-55+61
[8]
国内中文分词技术研究新进展 [J].
冯书晓 ;
徐新 ;
杨春梅 .
情报杂志, 2002, (11) :29-30
[9]
汉语自动分词研究评述 [J].
孙茂松 ;
邹嘉彦 .
当代语言学, 2001, (01) :22-32+77
[10]
一种改进的快速分词算法 [J].
陈桂林 ;
王永成 ;
韩客松 ;
王刚 .
计算机研究与发展, 2000, (04) :418-424