文本主题识别关键技术研究综述

被引:12
作者
许海云 [1 ,2 ]
董坤 [2 ,3 ]
刘春江 [2 ]
王超 [2 ,3 ]
王振蒙 [2 ,3 ]
机构
[1] 中国科学技术信息研究所
[2] 中国科学院成都文献情报中心
[3] 中国科学院大学
关键词
主题识别; 文本分析; 主题挖掘; 语义分析; 多元关系融合;
D O I
10.13833/j.cnki.is.2017.01.029
中图分类号
G254 [文献标引与编目];
学科分类号
1205 ; 120501 ;
摘要
【目的/意义】文本主题自动识别是多种情报分析,如文献分类、检索以及领域前沿识别的基础,因此对文本主题自动识别方法的研究意义显著。【方法/过程】系统调研了当前文本主题识别的关键技术,包括主题词获取方法、知识单元的关联强度计算以及面向多元关系融合的主题分析方法及实践。【结果/结论】在总结当前文本主题识别方法的不足之处的基础上,本文提出综合全面的主题词获取方法,并在抽取范围以及语法、语义层面结合运用;在主题词关联计算中,充分利用已有语义词典和领域本体,将基于语义词典相似度和知识单元共现分析结合,并考虑主题关联的多元关系融合。
引用
收藏
页码:153 / 160
页数:8
相关论文
共 45 条
[1]   利用专利文本分析识别技术主题的关键技术研究综述 [J].
许海云 ;
王振蒙 ;
胡正银 ;
王超 ;
朱礼军 .
情报理论与实践, 2016, 39 (11) :131-137
[2]   共现分析中的关键词选择与语义度量方法研究 [J].
巴志超 ;
李纲 ;
朱世伟 .
情报学报, 2016, (02) :197-207
[3]   基于图挖掘的文本主题识别方法研究综述 [J].
郭红梅 ;
张智雄 .
中国图书馆学报, 2015, 41 (06) :97-108
[4]   基于TI指标系列的情报学学科交叉主题研究 [J].
许海云 ;
郭婷 ;
岳增慧 ;
方曙 .
情报学报, 2015, 34 (10) :1067-1078
[5]   基于关系因子似然推理的语义传递模型研究 [J].
裘江南 ;
王带弟 ;
任利平 .
情报科学, 2015, 33 (09) :8-14
[6]   共词分析方法的细粒度化与语义化研究 [J].
王忠义 ;
谭旭 ;
夏立新 .
情报学报, 2014, 33 (09) :969-978
[7]   国内耦合分析方法研究现状与展望 [J].
邱均平 ;
刘国徽 .
图书情报工作, 2014, 58 (07) :131-136+144
[8]   基于专利技术功效主题词与专利引文共现的核心专利挖掘 [J].
许海云 ;
岳増慧 ;
雷炳旭 ;
方曙 .
图书情报工作, 2014, 58 (04) :59-64
[9]   科技论文关键词特征及其对共词分析的影响 [J].
胡昌平 ;
陈果 .
情报学报, 2014, (01) :23-32
[10]   文本图表示模型及其在文本挖掘中的应用 [J].
李纲 ;
毛进 .
情报学报, 2013, 32 (12) :1257-1264