中文Web文档倾向性自动分类研究

被引:0
作者
胡蓉
机构
[1] 四川大学
关键词
中文分词; 最大匹配法(MM); 向量空间模型(VSM); 潜在语义索引(Lsl); 特征选择; 支持向量机(SVM); 决策树(DTree); C4.5; k; 最近邻分类法(kNN); 中文文本分类; 文本倾向性分类;
D O I
暂无
年度学位
2003
学位类型
硕士
导师
摘要
如何在浩若烟海而又纷繁芜杂的文本中最快捷地获取有效信息始终是信息处理的一大目标,也是一大难题。文本自动分类系统,作为信息处理的重要研究方向,旨在根据文本的内容自动判别文本类别。目前,国际上对于英文文本分类的问题研究已经比较成熟,而中文文本分类问题以中文环境和语义为特色,引入了特殊矛盾和特殊困难,成为特别的研究课题。 其中中文文本倾向性分析研究更是一个崭新的、充满挑战的研究领域。为了维护网络安全的健壮性,因此我们提出了实验型中文Web文档倾向性分类鉴别器项目。鉴于以往的鉴别基于关键词的简单匹配和人工处理,效率低下;为此本项目旨在加强中文Web文档鉴别的实时性和高效性。 在研究的过程中,我们系统考察了中文Web文档自动分类的各个环节以及具体的实现技术:从语料库的建立,中文Web文档的分词,索引的选择,权重的设计方案及分词系统SMCW的建立,到特征选择方法的研究讨论,各种分类方法的研究讨论,最后到中文Web文档倾向性分类系统(SCUSCTC SCU Smart Chinese Text Classifier)的结构提出及用Java语言开发实现该系统,并对最后的分类结果及中间分词结果进行了细致的实验和考察。系统功能特色有:1)分类方法智能准确:基于领域和语言学知识结合的方法,使文本分类的精度较以往机械匹配的方法大大提高;2)文本分类高速及时:精巧的算法设计配以高效的实现技术,使分类处理既保质又保量;3)输出格式标准通用:采用标准 通用的XML作为系统的输出格式,这不仅方便了信息的交换、再加工, 而且有利于实现与不同数据库和应用系统的进一步集成。 最后,本文和本系统的成果表现为:l)研究了现代网络情况下, 对于中文W七b文档倾向性分类的方法和技术,并提供了一个可供研究 并具有一定实用价值的原型系统;2)提供了相关的论文和开发文档, 对于以后的研究有极大的帮助:3)对在网关上利用的中文w七b文档分类 器进行了实践性的研究:4)编制了中文Web文档倾向性分类的性能要求 及相关参数的测试评定;5)实现了实时性的中文w七b文档倾向性分类, 达到了一定的速度要求和精度要求. 在以后的工作中考虑如下问题:1)数据集的标准化;2)分词系统精 度的提高,对歧义处理以及未登录词识别的能力的提高:3)进行合理 的语义分析:4)利用用户反馈信息动态更新训练集;5)定t分析分类器 不同要素对分类系统性能的影响,使用合适的模型来比较和评价分类 系统;6)自然语言理解问题,如“引用”问题;7)对于敏感词汇伪装的 识别问题。 本文组织如下:第一部分为引言,第二部分描述了文本分类解决 的问题并对其性能评估方法和阅值选取原则进行了介绍,第三部分描 述了文本的模型表示及其方法和比较,第四部分介绍了特征提取的方 法,第五部分探讨了不同的文本分类方法:Nalve Bayes、kNN、决策 树以及SVM自动分类系统的关键技术,第六部分是该系统的测试数据 和实验结果,第七部分是结束语.
引用
收藏
页数:76
共 11 条
[1]
语法讲义.[M].朱德熙[著];.商务印书馆.1982,
[2]
A comparison of prediction accuracy, complexity, and training time of thirty-three old and new classification algorithms [J].
Lim, TS ;
Loh, WY ;
Shih, YS .
MACHINE LEARNING, 2000, 40 (03) :203-228
[3]
An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90
[4]
SUPPORT-VECTOR NETWORKS [J].
CORTES, C ;
VAPNIK, V .
MACHINE LEARNING, 1995, 20 (03) :273-297
[5]
向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210
[6]
基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[7]
用Naive Bayes方法协调分类Web网页 [J].
范焱 ;
郑诚 ;
王清毅 ;
蔡庆生 ;
刘洁 .
软件学报, 2001, (09) :1386-1392
[8]
银行回单柜系统的研究与实现 [J].
戴丽娟 ;
张盈 ;
胡蓉 ;
陈玮 .
四川大学学报(自然科学版), 2001, (03) :362-365
[9]
一个基于向量空间模型的中文文本自动分类系统 [J].
朱华宇 ;
孙正兴 ;
张福炎 .
计算机工程, 2001, (02) :15-17+63
[10]
书面汉语自动分词系统—CDWS [J].
梁南元 .
中文信息学报, 1987, (02) :44-52