针对特定领域的中文新词发现技术研究

被引:0
作者
李明
机构
[1] 南京航空航天大学
关键词
中文分词; N-Gram方法; Apriori方法; 新词发现技术;
D O I
暂无
年度学位
2012
学位类型
硕士
导师
摘要
随着信息技术的发展,各个领域的电子文献变得日益丰富,在各个专业领域,文献数据库中的文献数量呈现出指数增长的趋势,对这些文献信息的处理难度也变得越来越大。中文有着特殊的组织结构,其信息处理对分词技术有着较高的要求,因而中文文献相对于英文文献有着较高的处理难度。如何针对中文的语法特征,找出其中存在的新的专业词汇,在信息检索中扮演着极为重要的角色。本文的研究对象是单一特定的领域,而非多个领域。此领域具有可扩充性,可以为金融领域,也可以为IT领域,根据具体需求而定。 在确定一个领域并给出这个领域的文献数据集合的前提下。本文的信息处理主要分为两个步骤进行,首先对特定领域的文献集合进行分词处理,在进行分词处理方面使用了基于统计的N-Gram方法,较为有效地找出了词典中所不存在地新词汇。 第二个步骤为新的专业词汇的抽取,这是一个根据已有专业词汇来发现未知专业词汇的过程,目的从第一步中所产生的新的词汇中抽取出新的属于目标领域的专业词汇。在这个步骤中,本文使用了Apriori方法,首先发现词汇组合中的频繁项目集合,再生成相应的关联规则以达到新的专业词汇提取的目的。这个步骤涉及噪声词过滤的问题,考虑到低频噪声词可以在使用关联规则处理的过程中过滤掉,本文所指的噪声词过滤主要是对高频噪声词的过滤,对于这些词汇,本文的解决方式是使用文献分类的方式,将一个大的领域分为多个细分领域,这样,那些同属于多个细分领域的词汇就可以被看做是非专业词汇,也就是噪声词,可以将这些词汇过滤掉。 在研究中文分词算法以及专业词汇提取算的基础上,本文设计了一个原型系统来测试算法的有效性,该系统包括文献预处理、中文分词、文档切割、高频噪声词过滤、发现频繁项目集、提取新词等模块,涵盖了本文所研究的各个环节。测试表明,本文的中文分词算法可以有效地发现新的词汇,而专业词汇提取算法也取得了良好的效果。 本文的创新之处有: (1)将N-Gram方法和Apriori方法结合在一起,并对两种方法加以改进。利用N-Gram方法结合词典方法进行中文分词,利用Apriori方法抽取出特定领域的专业词汇。两种方法的结合形成了一个完整的文本信息处理的过程,有利于实际应用。 (2)设计一个智能化的新词发现系统。将本课题所研究的算法应用于实际中去,使之不仅仅局限于在样本数据中进行新词发现,还能够对新出现的文本随时发现新词。这个功能可以应用于搜索引擎当中,随时捕获搜索结果中所出现的新的专业词汇。本课题所研究的系统只需要更换一个预设专业词典,便可以适用于不同的领域,具有良好的扩展性。
引用
收藏
页数:80
共 34 条
[1]
基于词条组合的中文文本分词方法 [J].
黄魏 ;
高兵 ;
刘异 ;
杨克巍 .
科学技术与工程, 2010, 10 (01) :85-89
[2]
基于时间序列模型的动态关联规则元规则挖掘 [J].
刘俊 ;
张忠林 ;
谢彦峰 ;
米伟 .
计算机工程, 2009, 35 (15) :94-96
[3]
基于选择倾向性的词汇获取方法 [J].
王大亮 ;
蒋宏潮 ;
涂序彦 ;
郑雪峰 ;
佟子健 .
计算机工程, 2008, (12) :169-171
[4]
利用关联规则挖掘文本主题词的方法 [J].
刘菲 ;
黄萱菁 ;
吴立德 .
计算机工程, 2008, (07) :81-83
[5]
基于字单元分析的中文辅助阅读系统 [J].
方高林 ;
于浩 ;
孟遥 ;
邹纲 .
中文信息学报, 2008, (02) :92-98
[6]
针对特定领域的新词发现和新技术发现 [J].
王文荣 ;
乔晓东 ;
朱礼军 .
现代图书情报技术, 2008, (02) :35-40
[7]
Internet中的新词识别 [J].
李钝 ;
曹元大 ;
万月亮 .
北京邮电大学学报, 2008, (01) :26-29
[8]
基于词典和词频的中文分词方法 [J].
张恒 ;
杨文昭 ;
屈景辉 ;
卢虹冰 ;
张亮 ;
赵飞 .
微计算机信息, 2008, (03) :239-240+232
[9]
句子相似度计算新方法及在问答系统中的应用 [J].
周法国 ;
杨炳儒 .
计算机工程与应用, 2008, (01) :165-167+178
[10]
信息安全中的变形关键词的识别 [J].
李钝 ;
曹元大 ;
万月亮 .
计算机工程, 2007, (21) :155-156+159