有向标记根树之间的语义编辑距离

被引:11
作者
康琪
马军
机构
[1] 山东大学计算机科学与技术学院
基金
中国博士后科学基金;
关键词
树编辑距离; 文档聚类; 结构相似度; 语义相似性;
D O I
10.16451/j.cnki.issn1003-6059.2011.06.008
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
有向标记根树之间的编辑距离(TED)被广泛应用在文档的结构化相似度计算上.文中提出有向标记根树之间的语义编辑距离(TSED)的概念,并给出计算公式.组合TED和TSED形成距离测度,并应用在XML文档的结构聚类上.实验表明该距离模型在结构化聚类的准确率和召回率上明显优于单纯利用TED算法的聚类结果.该算法在时间复杂性上也等同于利用动态规划计算TED的最好算法.
引用
收藏
页码:816 / 824
页数:9
相关论文
共 5 条
[1]
New algorithm for ordered tree-to-tree correction problem [J].
Chen, WM .
JOURNAL OF ALGORITHMS-COGNITION INFORMATICS AND LOGIC, 2001, 40 (02) :135-158
[2]
ALGORITHMS FOR THE CONSTRAINED EDITING DISTANCE BETWEEN ORDERED LABELED TREES AND RELATED PROBLEMS [J].
ZHANG, KZ .
PATTERN RECOGNITION, 1995, 28 (03) :463-474
[3]
基于部分-整体匹配的文档结构相似度计算 [J].
马军 ;
陈竹敏 ;
赵嫣 ;
雷景生 .
模式识别与人工智能, 2007, 20 (05) :630-635
[4]
基于分级神经网络的Web文档模糊聚类技术 [J].
雷景生 ;
马军 ;
靳婷 .
计算机研究与发展 , 2006, (10) :1695-1699
[5]
模糊聚类计算的最佳算法 [J].
马军 ;
邵陆 .
软件学报, 2001, (04) :578-581