一种面向专利文献数据的文本自动分类方法

被引：13

作者：

蒋健安 ^{[1
]}

陆介平 ^{[2
]}

倪巍伟 ^{[1
]}

孙志挥 ^{[1
]}

机构：

[1] 东南大学计算机科学与工程学院

[2] 江苏省镇江市科技局

来源：

关键词：

文本分类; 专利文献; 国际专利分类码; K-近邻;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

中文专利文献自动分类目前尚无成熟适用的方法。分析了文本自动分类的关键技术,并结合专利数据的特点对无词典分词和权重计算进行了改进,提出了一种适用于专利数据分类的层次分类方法,给出了面向专利文献数据的文本自动分类系统的框架模型。实验表明,该系统具有较好的分类精度与效率。

引用

页码：159 / 161+167 +167

页数：4

共 5 条

[1] 专利检索中的IPC和主题词识别方法研究 [J].

暴海龙 ;

李金林 .

[2] 基于WWW的未登录词识别研究 [J].

韩洁 ;

周勇 ;

刘少辉 ;

史忠植 .

[3]

实用现代汉语语法[M]. 外语教学与研究出版社 , 刘月华, 1983

[4]

Intellectual assets management: from patents to knowledge[J] . Caterina Camus,Riccardo Brancaleon.World Patent Information . 2003 (2)

[5] Bayesian Network Classifiers [J].

Nir Friedman ;

Dan Geiger ;

Moises Goldszmidt .

Machine Learning, 1997, 29 :131-163