基于语义的汉语文献主题词提取算法研究

被引:16
作者
唐培丽
王树明
胡明
机构
[1] 长春工业大学计算机科学与工程学院
[2] 吉林大学计算机科学与技术学院
关键词
自然语言处理; 主题词提取; 概念语义网络;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
为了适应信息时代的迅速发展,提高从汉语文献中自动提取主题词的准确率,给出一种基于语义理解的汉语文献主题词自动提取算法模型。该模型以中文文本为处理对象,结合领域背景,构建概念语义网络作为分词词典和知识库,用概念之间的联系和匹配取代传统的字面匹配,克服了仅局限于表面形式的缺陷;把自然语言处理从目前基于关键词层面提高到基于知识的层面,从而在概念层次上理解文献主题,突破了传统的关键词匹配的局限,在一定程度上解决了词汇差异问题。该方法能对自然语言进行某种程度的语义理解,利用领域知识来实现主题词的规范标引。实验表明,采用本方法对测试文档进行主题词提取的准确率可达到71.03%,与传统方法相比提高了近1.87倍。
引用
收藏
页码:535 / 540
页数:6
相关论文
共 9 条
[1]   语义Web及其描述语言 [J].
李立宇 ;
谭少华 ;
唐世渭 ;
杨冬青 ;
王腾蛟 .
计算机科学, 2003, (12) :1-5
[2]   一种基于字同现频率的汉语文本主题抽取方法 [J].
马颖华 ;
王永成 ;
苏贵洋 ;
张宇萌 .
计算机研究与发展, 2003, (06) :874-878
[3]   用语义网络语言描述知识的表示 [J].
徐天任 ;
夏幼明 ;
甘健侯 ;
徐天惠 .
云南师范大学学报(自然科学版), 2003, (03) :9-13
[4]   基于汉语分词的信息抽取技术 [J].
王鑫 ;
王丁 ;
李向宏 .
信息技术, 2003, (04) :101-104
[5]   Internet上的搜索引擎和元搜索引擎 [J].
彭洪汇 ;
林作铨 .
计算机科学, 2002, (09) :1-12+32
[6]   三个层面的中文文本主题自动提取研究 [J].
韩客松 ;
王永成 ;
沈洲 ;
吴芳芳 .
中文信息学报, 2001, (04) :20-27
[7]   基于语义网络的概念检索研究与实现 [J].
李蕾 ;
王楠 ;
钟义信 ;
郭祥昊 ;
韩鹏 ;
贾自燕 ;
高清霞 .
情报学报, 2000, (05) :525-531
[8]   文书类档案的主题标引研究 [J].
许建潮 ;
胡明 ;
时密林 .
情报学报, 1998, (04) :23-25
[9]  
语义网简明教程[M]. 高等教育出版社 , 宋炜, 2004