基于依存句法分析的科技政策领域主题词表无监督构建

被引:12
作者
邵卫
化柏林
机构
[1] 北京大学信息管理系
关键词
科技政策; 无监督构建; 依存句法分析; 主题词表; 文本挖掘;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; D630 [国家机关工作与人事管理];
学科分类号
081203 ; 0835 ; 1204 ; 120401 ;
摘要
为了解决科技政策领域词表构建的问题,本文提出一种基于依存句法分析的科技政策文本关键词抽取算法。在此基础上,提出文本主题词指数来构建文本主题词,利用同义词识别算法及百科知识发现和确定词与词的同义关系,采用字面匹配的方法判别上下位词,最终汇合四个部分形成科技政策领域主题词表。为了适应缺乏标记的实际情况,使得文章更具有实际应用价值,本文使用了无监督方法。结果表明,此方法产生的词表具有显著的领域特征,可以解决领域未登录词切分,主题词之间关系缺乏等问题,有效地支持分词及文本分析。
引用
收藏
页码:33 / 44
页数:12
相关论文
共 17 条
[1]   中文分词技术研究综述 [J].
唐琳 ;
郭崇慧 ;
陈静锋 .
数据分析与知识发现 , 2020, (Z1) :1-17
[2]   面向高校应急决策的领域主题词表构建研究 [J].
孙立媛 ;
苏新宁 .
情报科学, 2019, 37 (04) :137-143
[3]   深度学习实体关系抽取研究综述 [J].
鄂海红 ;
张文静 ;
肖思琪 ;
程瑞 ;
胡莺夕 ;
周筱松 ;
牛佩晴 .
软件学报, 2019, 30 (06) :1793-1818
[4]   档案领域词表自动化辅助构建及知识组织应用探析 [J].
张昱 ;
于薇 .
数字图书馆论坛, 2018, (06) :67-72
[5]   面向语料的领域主题词表构建算法 [J].
安亚巍 ;
操晓春 ;
罗顺 .
计算机科学, 2018, 45(S1) (S1) :396-397+410
[6]   科技成果转化政策文本中的领域关键词汇提取研究 [J].
张越 ;
刘琦岩 ;
张玄玄 ;
望俊成 .
中国科技资源导刊, 2018, 50 (03) :68-75
[7]   网络化数字化时代主题词表自动构建技术的探索与实践 [J].
曾文 .
国家图书馆学刊, 2012, 21 (04) :78-82
[8]   面向词汇知识库自动构建的概念术语关系识别 [J].
张巍 ;
于洋 ;
游宏梁 .
现代图书情报技术, 2009, (11) :10-16
[9]   汉语科技词系统的Web服务研究与实现 [J].
史新 ;
乔晓东 ;
张志平 ;
朱礼军 .
现代图书情报技术, 2008, (12) :37-42
[10]   实体关系抽取的技术方法综述 [J].
徐健 ;
张智雄 ;
吴振新 .
现代图书情报技术, 2008, (08) :18-23