基于多重文本关系图中clique子团聚类的主题识别方法研究

被引:4
作者
郭红梅 [1 ]
孔贝贝 [1 ]
张智雄 [1 ,2 ]
机构
[1] 中国科学院文献情报中心
[2] 中国科学院武汉文献情报中心
关键词
clique子团; 多重文本关系; 文本主题识别;
D O I
暂无
中图分类号
G254 [文献标引与编目];
学科分类号
1205 ; 120501 ;
摘要
在网络成为最主要科学交流和信息传播渠道的今天,越来越多的机构将其研究成果以电子化形式呈现,这些电子化的文本资源中蕴涵着丰富的语义信息。面对这些海量的资源,科研人员很难在短时间内快速捕获文本中的主旨内容。如何高效准确地呈现文本资源中的核心主题,辅助科研人员对文本集中的重要关联信息进行聚焦,提高科研效率,一直是文本挖掘研究中的一个重要问题。在对现有有益研究成果借鉴的基础上,结合文本中术语和术语关系的特点,论文提出将文本中的术语和术语间的共现、句法和语义关系利用图结构进行表示,识别文本关系图中的紧密关联子团,基于所得到的紧密关联子团聚类来揭示文本子主题的整体研究思路。开展了两个方面的研究:①将文本集中的术语和术语间各种关系属性进行叠加归并,构建多重文本关系叠加模型;②基于clique子团间相似性距离和语义标识,进行聚类识别文本集中所包含的重要子主题。论文采用"migraine disorders"主题中近五年的文献构建文本集,对提出的方法开展了2个有效性实验。实验1与文本中领域专家所给出的标引词按语义类型分组结果对比,结果表明论文提出的方法与领域专家给出的标引词语义类型分组结果具有一致性;实验2与目前广泛使用的LDA方法结果进行对比,在准确率和召回率上都较LDA方法有所提高。2个实验均证明了文中方法的有效性。
引用
收藏
页码:433 / 442
页数:10
相关论文
共 14 条
[1]  
Evaluation of clusterings-metrics and visual support. Achtert E,Goldhofer S,Kriegel H P,et al. IEEE 28th International Conference on Data Engineering (ICDE) . 2012
[2]   Finding maximal homogeneous clique sets [J].
Mougel, Pierre-Nicolas ;
Rigotti, Christophe ;
Plantevit, Marc ;
Gandrillon, Olivier .
KNOWLEDGE AND INFORMATION SYSTEMS, 2014, 39 (03) :579-608
[3]  
Aggregating UMLS Semantic Types for Reducing Conceptual Complexity[J] . V.L. Patel,R. Rogers,R. Haux,Alexa T. McCray,Anita Burgun,Olivier Bodenreider. &nbspStudies in Health Technology and Informatics . 2001
[4]   Clustering based on random graph model embedding vertex features [J].
Zanghi, Hugo ;
Volant, Stevenn ;
Ambroise, Christophe .
PATTERN RECOGNITION LETTERS, 2010, 31 (09) :830-836
[5]  
A topic detection approach through hierarchical clustering on concept graph. Huang X H,Zhang X F,Ye Y M,et al. Applied Mathematics&Information Sciences . 2013
[6]  
http://semrep.nlm.nih.gov/ . 2016
[7]  
Latent Dirichlet allocation. Blei D M,Ng A Y,Jordan M I. Journal of Machine Learning Research . 2003
[8]  
Information theoretic measures for clusterings comparison: Variants, properties, normalization and correction for chance. Vinh, Nguyen Xuan,Epps, Julien,Bailey, James. Journal of Machine Learning Research . 2010
[9]  
As strong as the Weakest Link:Mining diverse cliques in weighted graphs. Bogdanov P,Baumer B,Basu P,et al. Machine Learning and Knowledge Discovery in Databases . 2013
[10]  
Meta Map. https://metamap.nlm.nih.gov/ . 2016