电子政务主题词表的构建及应用研究

被引:0
作者
仲云云
机构
[1] 南京农业大学
关键词
电子政务; 叙词表; 叙词表自动构建; 词间关系; 自动标引; 信息检索;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
目前,电子政务信息的组织和检索基本上是基于关键字的全文检索形式,不能满足用户的多途径检索需求,其检全率和检准率较低。因此,电子政务主题词表对于电子政务信息的组织和检索具有十分重要的意义。而传统的词表编制的方法成本高、需要花费大量的人力、物力,研究用计算机来自动构建一部词表是十分必要的。本文参照国内已出版的《综合电子政务主题词表》,提出自动构建一部面向共青团领域的专业性电子政务词表。 国外对自动构建一部关联词表研究较多,即对词与词之间相关关系的研究,而对完全用计算机来编制一部规范的主题词表则少有研究。国内对自动构建词表的研究更加滞后,更很少真正实现用计算机来自动构建一部词表。 本文对国内外自动构建关联词表的研究进行了全面的文献调查,在系统分析关联词表词间关系特点和词表自动构建的一般方法的基础上,提出用N-gram方法进行选词、用模式匹配和词典匹配的方法来识别词汇的等同关系、用字面相似度后方一致原理来揭示词汇的等级关系、用Dice测度算法来判断词汇的相关关系,从而实现计算机对电子政务词表的自动构建。然后将自动构建词表中部分词汇的词间关系与《中国分类主题词表》、《综合电子政务主题词表》进行比较,用人工对自动构建的词表加以规范处理,并分析了自动构建词表与人工编表方法的优劣。 本文用数据分析了构建的电子政务词表的性能:所收的词量范围较宽泛、参照度和关联比较高、方便用户使用,总体性能良好。但同时也存在一定问题:入口率偏低、生成的词间关系不够准确,时有冗余甚至错误的词间关系生成,这是计算机自动构建词表所难以避免的。 最后,本文对自动构建的电子政务词表进行应用测试,设计了标引、浏览和检索系统,并对标引和检索结果进行了比较和分析。实验结果表明:该词表的词间关系基本合理,具有一定的实用性。
引用
收藏
页数:73
共 52 条
[1]
基于粗糙集理论的文本自动分类研究 [D]. 
张雪英 .
南京理工大学,
2005
[2]
面向信息检索的汉语同义词自动识别 [D]. 
陆勇 .
南京农业大学,
2005
[3]
基于语义检索的概念空间研究 [D]. 
王国琴 .
南京理工大学,
2004
[4]
智能搜索引擎中的同义词识别算法研究 [D]. 
朱毅华 .
南京农业大学,
2001
[5]
中国分类主题词表.[M].国家图书馆《中国图书馆分类法》编辑委员会编;汪东波主编;.北京图书馆出版社.2005,
[6]
信息检索理论与技术.[M].苏新宁主编;.科学技术文献出版社.2004,
[7]
张琪玉情报语言学文集.[M].张琪玉著;.北京图书馆出版社.1999,
[8]
文献分类法主题法导论.[M].马张华;侯汉清编著;.北京图书馆出版社.1999,
[9]
中国共青团工作全书.[M].赖辉亮;郝瑞庭主编;.红旗出版社.1996,
[10]
同义词词林.[M].梅家驹等编;.上海辞书出版社.1996,