基于统计分布的中文专利自动分类方法研究

被引:5
作者
胡冰 [1 ]
张建立 [2 ]
机构
[1] 西安电子科技大学经济与管理学院
[2] 工业和信息化部电子科学技术情报研究所
关键词
统计分布; 专利自动分类; 加权因子;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
传统的基于向量空间模型的文本自动分类算法没有考虑到特征词的类间分布情况及特征词在文本内部的位置分布情况,导致该算法用于专利分类时效果不佳。提出一种基于统计分布的中文专利自动分类方法。首先,统计出特征词的类间分布信息,引入类间分散度加权因子,突出分布类别少、出现频率高的特征词的权重;其次,结合专利文本的结构特点,引入位置权重因子,突出专利的法律特性和技术特性以及组成专利各元素内容的差异性。最后通过对比实验证明,该方法能够有效提高中文专利自动分类的效果。
引用
收藏
页码:101 / 106
页数:6
相关论文
共 12 条
[11]  
A systematic approach for identifying technology opportunities: Keyword-based morphology analysis[J] . Byungun Yoon,Yongtae Park. Technological Forecasting & Social Change . 2004 (2)
[12]  
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang. Communications of the ACM . 1975 (11)