一种面向专利文献数据的文本自动分类方法

被引:13
作者
蒋健安 [1 ]
陆介平 [2 ]
倪巍伟 [1 ]
孙志挥 [1 ]
机构
[1] 东南大学计算机科学与工程学院
[2] 江苏省镇江市科技局
关键词
文本分类; 专利文献; 国际专利分类码; K-近邻;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
中文专利文献自动分类目前尚无成熟适用的方法。分析了文本自动分类的关键技术,并结合专利数据的特点对无词典分词和权重计算进行了改进,提出了一种适用于专利数据分类的层次分类方法,给出了面向专利文献数据的文本自动分类系统的框架模型。实验表明,该系统具有较好的分类精度与效率。
引用
收藏
页码:159 / 161+167 +167
页数:4
相关论文
共 5 条
[1]   专利检索中的IPC和主题词识别方法研究 [J].
暴海龙 ;
李金林 .
北京理工大学学报(社会科学版), 2003, (05) :74-76
[2]   基于WWW的未登录词识别研究 [J].
韩洁 ;
周勇 ;
刘少辉 ;
史忠植 .
计算机科学, 2002, (12) :155-156
[3]  
实用现代汉语语法[M]. 外语教学与研究出版社 , 刘月华, 1983
[4]  
Intellectual assets management: from patents to knowledge[J] . Caterina Camus,Riccardo Brancaleon.World Patent Information . 2003 (2)
[5]   Bayesian Network Classifiers [J].
Nir Friedman ;
Dan Geiger ;
Moises Goldszmidt .
Machine Learning, 1997, 29 :131-163