基于神经网络的文本挖掘在专利自动分类中的研究与应用

被引:0
作者
马芳
机构
[1] 山东理工大学
关键词
专利; 自动分类; 文本挖掘; 径向基函数神经网络;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
专利信息作为重要的技术情报源,记载了人类社会发明创造的成就和轨迹。面对海量的专利数据库,为了尽快找到所需要的专利信息,每一件专利都会按照其技术内容分配相应的国际专利分类号(IPC)。然而目前的专利分类仍然采用手工操作,显然手工分类方法效率低、费用高、分类结果一致性较差。因此,实现专利文本的自动分类有着重要的意义。 专利自动分类是指在给定的分类体系下,根据专利文本的内容(标题、摘要)自动确定专利文本所属类别的过程。由于专利信息中所包含的是大规模的、非结构化的文本信息,为了发现隐藏在其中的可用知识,本文将文本挖掘技术引入专利自动分类系统,利用径向基函数神经网络(RBFNN)算法实现专利的自动分类。在此系统中,主要包括特征向量构建和分类模型构建两部分内容。 在特征向量构建过程中,首先选用目前国内最有影响的汉语词法分析系统(ICTCLAS)对专利文本进行分词,在此基础上,本文将IPC类别描述本身信息中的词添加到现有的词典中,进一步提高了分词的准确性。然后,为了比较不同的特征选择算法对分类效果的影响,分别采用信息增益IG和互信息MI对专利文本特征进行降维处理。最后,采用经典的权重计算公式(TF×IDF)计算特征词在向量空间模型(VSM)中的权值,同时,为了体现不同文本位置信息对该文本区分度的差异,提出了一种考虑位置信息进行加权来计算特征词权重的方法(PTF×IDF算法)。 在分类模型构建过程中,采用径向基函数神经网络(RBFNN)分类方法完成专利文本的训练和分类。在分类过程中,首先通过K-均值聚类法对输入的训练样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后再利用最小平方误差法训练得到输出层连接权值,将其保存为分类模型的参数,最后对测试样本进行分类,并进行相关测试分析。实验结果表明,采用RBFNN分类器在专利文本自动分类中具有较理想的性能,测试平均F1值在70%以上。
引用
收藏
页数:77
共 21 条
[1]
信息检索技术.[M].孙建军等编著;.科学出版社.2004,
[2]
基于领域知识的专利自动分类 [J].
郭炜强 ;
戴天 ;
文贵华 .
计算机工程, 2005, (23) :52-54
[3]
专利分析法及其在企业竞争对手分析中的应用 [J].
唐炜 ;
刘细文 ;
不详 .
现代情报 , 2005, (09)
[4]
基于核向量空间模型的专利分类 [J].
丁月华 ;
文贵华 ;
郭炜强 .
华南理工大学学报(自然科学版), 2005, (08) :58-61
[5]
基于贝叶斯模型的专利分类 [J].
郭炜强 ;
文军 ;
文贵华 .
计算机工程与设计, 2005, (08) :1986-1987+1996
[6]
专利检索中的IPC和主题词识别方法研究 [J].
暴海龙 ;
李金林 .
北京理工大学学报(社会科学版), 2003, (05) :74-76
[7]
基于WWW的未登录词识别研究 [J].
韩洁 ;
周勇 ;
刘少辉 ;
史忠植 .
计算机科学, 2002, (12) :155-156
[8]
一种基于向量空间模型的多层次文本分类方法 [J].
刘少辉 ;
董明楷 ;
张海俊 ;
李蓉 ;
史忠植 .
中文信息学报, 2002, (03) :8-14+26
[9]
RBF网络基函数中心选取算法的研究 [J].
朱明星 ;
张德龙 .
安徽大学学报(自然科学版), 2000, (01) :72-78
[10]
基于改进VSM的大规模真实文档自动分类系统的研究和实现 [J].
蒋晓冬 ;
金宇晖 ;
强庆华 .
现代计算机, 1998, (03)