基于主题词表和FCA的网页语义概念树构建研究

被引:2
作者
孙亚琳 [1 ]
赵林林 [2 ]
杨小平 [1 ]
机构
[1] 中国人民大学信息学院
[2] 中国地质调查局发展研究中心信息工程室
关键词
本体; 语义概念树; 形式概念分析; 主题词表; 词语相似度;
D O I
暂无
中图分类号
TP393.092 []; TP391.1 [文字信息处理];
学科分类号
摘要
针对用户使用网站效率低和网站质量差的问题,提出了利用形式概念分析(FCA)来构建网页语义概念树的方法。该方法首先利用信息抽取、自然语言处理等技术对网页集进行文本抽取、分词,提取出描述文本语义的特征词;再以主题词表为参照,设计基于搜索引擎的词语相似度算法,将抽取的特征词全部转换成主题词表中主题词,对将抽取的语义信息转换成形式背景,利用规则、聚类等技术对形式背景进行约简。最后通过设计的建格算法构建概念格,实现概念树构建。实验结果表明,利用该方法构建的概念树可以作为网站本体模型的基础,对语义评估具有积极的意义,具有一定的应用价值和借鉴意义。
引用
收藏
页码:3308 / 3315
页数:8
相关论文
共 9 条
[1]   一种基于FCA的面向关系数据库的本体学习方法 [J].
欧阳纯萍 ;
胡长军 ;
李扬 ;
刘振宇 .
计算机科学, 2011, 38 (12) :167-171
[2]   基于本体语义的制造网格构建机理研究 [J].
张沙清 ;
刘强 ;
张平 ;
陈新 .
计算机应用研究, 2008, (08) :2289-2291+2331
[3]   基于规则归纳的信息抽取系统实现 [J].
石倩 ;
陈荣 ;
鲁明羽 .
计算机工程与应用, 2008, (21) :166-170
[4]  
Restructuring Lattice Theory:An Approach Based on Hierarchies of Concept. Wille R. Proceedings of the 7th International Conference on Formal Concept Analysis . 2009
[5]   基于领域本体的概念语义相似度计算研究 [J].
黄果 ;
周竹荣 .
计算机工程与设计, 2007, (10) :2460-2463
[6]  
基于Web信息抽取的专业知识获取方法研究[D]. 胡燕.武汉理工大学 2007
[7]  
Formal Concept Analysis:Mathematical Foundations. Ganter B,Wille R. Journal of Women s Health . 1999
[8]  
Locally adaptive dimensionality reduction for indexing large time series databases. Keogh E,Chakrabarti K,Mehrotra S,Pazzani M. ACMSIGMOD . 2001
[9]  
语义Web环境下领域本体描述及推理机制的应用研究与原型实现[D]. 张蕾.北京邮电大学 2007