一种基于名词的微博语义计算方法

被引:4
作者
时睿 [1 ]
封化民 [1 ,2 ]
机构
[1] 西安电子科技大学通信工程学院
[2] 北京电子科技学院
基金
北京市自然科学基金;
关键词
微博短文本; 语义相似度; 名词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
微博具有传播快、数量大、语言简练等特点,对舆情分析提出了更高要求。从微博短文本中提取特征用来计算相似度时,现有的字符串匹配方法在语义分析方面存在局限性。因此本文从语义角度提出一种基于名词语义的微博相似度算法。该算法将名词集合作为微博特征,利用《知网》词典树状结构,计算得到微博短文本间的相似度。中等规模微博数据集实验表明,本文提出的算法能够准确判断微博主题含义,同一类别微博相似度90%以上分布在0.6-1.0之间,可为后续微博聚类服务。
引用
收藏
页码:16 / 22+29 +29
页数:8
相关论文
共 8 条