基于主题模型的科技项目主题分布研究

被引:2
作者
方延风 [1 ,2 ]
陈健 [2 ,1 ]
机构
[1] 福建省科学技术信息研究所
[2] 福建省信息网络重点实验室
关键词
主题模型; VSM; 文档集合; 项目申报; 奇异向量; 概率分布; 对角矩阵; 文本表示; 主题词; 叙词; 检索词; LDA; 词频分布; 主题分布;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
<正>主题模型在出现主题模型(Topic Model)之前,文本挖掘中的文本表示大多采用空间向量模型VSM(Vector Space Model),VSM将文档映射为由一组规范化正交词条矢量张成的向量空间中的一个点,文本用此空间中的词条向量(T1,W1,T2,W2,…,Tn,Wn)来表示,其中,Ti为特征向量词条,Wi为Ti的权重,同时构造一个评价函数来计算词条权重。通过建立的模型来描述和代替文本,从而将非结构化和半结构化的文本表示为
引用
收藏
页码:37 / 40
页数:4
相关论文
empty
未找到相关数据