基于知识库的网页自动标引和自动分类系统的设计

被引:27
作者
侯汉清
薛鹏军
机构
[1] 南京农业大学信息管理系,南京农业大学信息管理系南京,,南京,
关键词
网页; 自动标引; 自动分类; 概念语义网络; 智能信息处理;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。
引用
收藏
页码:50 / 55+64 +64
页数:7
相关论文
共 8 条
[1]  
情报语言学基础.[M].张琪玉著;.武汉大学出版社.1997,
[2]  
文摘的概念与方法.[M].[美]哈罗德·博科等 著.书目文献出版社.1991,
[3]  
基于知识库的中文网络检索工具——经济信息智能搜索引擎研究.[D].薛鹏军.南京农业大学.2001, 01
[4]   中文网页标引源主题表达能力的调查统计 [J].
丁璇 ;
侯汉清 ;
章成志 .
大学图书馆学报, 2002, (06) :70-72+91
[5]   网页自动标引方案的优选及标引性能的测评 [J].
仲云云 ;
侯汉清 ;
薛鹏军 ;
不详 .
情报科学 , 2002, (10) :1108-1110
[6]   计算机识别汉语同义词的两种算法比较和测评 [J].
朱毅华 ;
侯汉清 ;
沙印亭 .
中国图书馆学报, 2002, (04) :81-84
[7]   统计分析法自动标引的改进 [J].
赵云志 .
情报学报, 2000, (04) :333-337
[8]   对因特网上自动信息提取的研究 [J].
吕津 ;
赵明生 .
数据通信, 2000, (01) :5-8