基于统计分布的中文专利自动分类方法研究

被引:5
作者
胡冰 [1 ]
张建立 [2 ]
机构
[1] 西安电子科技大学经济与管理学院
[2] 工业和信息化部电子科学技术情报研究所
关键词
统计分布; 专利自动分类; 加权因子;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
传统的基于向量空间模型的文本自动分类算法没有考虑到特征词的类间分布情况及特征词在文本内部的位置分布情况,导致该算法用于专利分类时效果不佳。提出一种基于统计分布的中文专利自动分类方法。首先,统计出特征词的类间分布信息,引入类间分散度加权因子,突出分布类别少、出现频率高的特征词的权重;其次,结合专利文本的结构特点,引入位置权重因子,突出专利的法律特性和技术特性以及组成专利各元素内容的差异性。最后通过对比实验证明,该方法能够有效提高中文专利自动分类的效果。
引用
收藏
页码:101 / 106
页数:6
相关论文
共 12 条
[1]   基于专利文件知识结构的中文专利知识单元挖掘 [J].
高继平 ;
丁堃 .
情报理论与实践, 2011, (06) :83-86
[2]   基于BP神经网络的专利自动分类方法 [J].
李生珍 ;
王建新 ;
齐建东 ;
朱礼军 .
计算机工程与设计, 2010, 31 (23) :5075-5078
[3]   文本分类特征权重改进算法 [J].
台德艺 ;
王俊 .
计算机工程, 2010, 36 (09) :197-199+202
[4]   TFIDF算法研究综述 [J].
施聪莺 ;
徐朝军 ;
杨晓江 .
计算机应用, 2009, 29(S1) (S1) :167-170+180
[5]   一种面向专利文献数据的文本自动分类方法 [J].
蒋健安 ;
陆介平 ;
倪巍伟 ;
孙志挥 .
计算机应用, 2008, (01) :159-161+167
[6]   基于IPC知识结构的专利自动分类模型 [J].
刘玉琴 ;
赖院根 ;
雷孝平 .
小型微型计算机系统, 2007, (12) :2295-2298
[7]   基于统计分布与集合论的文本分类方法 [J].
邓擘 ;
樊孝忠 ;
杨立公 .
北京理工大学学报, 2006, (07) :589-592+597
[8]   SVM-KNN组合改进算法在专利文本分类中的应用 [J].
李程雄 ;
丁月华 ;
文贵华 .
计算机工程与应用, 2006, (20) :193-195+212
[9]  
中文专利自动分类技术的研究[D]. 赵环宇.沈阳航空工业学院. 2009
[10]  
Discovering competitive intelligence by mining changes in patent trends[J] . Meng-Jung Shih,Duen-Ren Liu,Ming-Li Hsu. Expert Systems With Applications . 2009 (4)