共 17 条
基于依存句法分析的科技政策领域主题词表无监督构建
被引:12
作者:
邵卫
化柏林
机构:
[1] 北京大学信息管理系
来源:
关键词:
科技政策;
无监督构建;
依存句法分析;
主题词表;
文本挖掘;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
D630 [国家机关工作与人事管理];
学科分类号:
081203 ;
0835 ;
1204 ;
120401 ;
摘要:
为了解决科技政策领域词表构建的问题,本文提出一种基于依存句法分析的科技政策文本关键词抽取算法。在此基础上,提出文本主题词指数来构建文本主题词,利用同义词识别算法及百科知识发现和确定词与词的同义关系,采用字面匹配的方法判别上下位词,最终汇合四个部分形成科技政策领域主题词表。为了适应缺乏标记的实际情况,使得文章更具有实际应用价值,本文使用了无监督方法。结果表明,此方法产生的词表具有显著的领域特征,可以解决领域未登录词切分,主题词之间关系缺乏等问题,有效地支持分词及文本分析。
引用
收藏
页码:33 / 44
页数:12
相关论文