基于神经网络的文本挖掘在专利自动分类中的研究与应用

被引：0

作者：

马芳

机构：

[1] 山东理工大学

关键词：

专利; 自动分类; 文本挖掘; 径向基函数神经网络;

D O I：

暂无

年度学位：

2009

学位类型：

硕士

导师：

王效岳;

摘要：

专利信息作为重要的技术情报源,记载了人类社会发明创造的成就和轨迹。面对海量的专利数据库,为了尽快找到所需要的专利信息,每一件专利都会按照其技术内容分配相应的国际专利分类号（IPC）。然而目前的专利分类仍然采用手工操作,显然手工分类方法效率低、费用高、分类结果一致性较差。因此,实现专利文本的自动分类有着重要的意义。专利自动分类是指在给定的分类体系下,根据专利文本的内容（标题、摘要）自动确定专利文本所属类别的过程。由于专利信息中所包含的是大规模的、非结构化的文本信息,为了发现隐藏在其中的可用知识,本文将文本挖掘技术引入专利自动分类系统,利用径向基函数神经网络（RBFNN）算法实现专利的自动分类。在此系统中,主要包括特征向量构建和分类模型构建两部分内容。在特征向量构建过程中,首先选用目前国内最有影响的汉语词法分析系统（ICTCLAS）对专利文本进行分词,在此基础上,本文将IPC类别描述本身信息中的词添加到现有的词典中,进一步提高了分词的准确性。然后,为了比较不同的特征选择算法对分类效果的影响,分别采用信息增益IG和互信息MI对专利文本特征进行降维处理。最后,采用经典的权重计算公式（TF×IDF）计算特征词在向量空间模型（VSM）中的权值,同时,为了体现不同文本位置信息对该文本区分度的差异,提出了一种考虑位置信息进行加权来计算特征词权重的方法（PTF×IDF算法）。在分类模型构建过程中,采用径向基函数神经网络（RBFNN）分类方法完成专利文本的训练和分类。在分类过程中,首先通过K-均值聚类法对输入的训练样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后再利用最小平方误差法训练得到输出层连接权值,将其保存为分类模型的参数,最后对测试样本进行分类,并进行相关测试分析。实验结果表明,采用RBFNN分类器在专利文本自动分类中具有较理想的性能,测试平均F1值在70%以上。

引用

页数：77

共 21 条

[1]

信息检索技术.[M].孙建军等编著;.科学出版社.2004,

[2]

基于领域知识的专利自动分类 [J].