基于社交特征的多维度文本表示方法

被引：8

作者：

陈功 ^{[1
]}

黄瑞章 ^{[1
,2
]}

钟文良 ^{[1
]}

机构：

[1] 贵州大学计算机科学与技术学院

[2] 贵州省公共大数据重点实验室

来源：

计算机工程与科学 | 2016年 / 38卷 / 11期

关键词：

文本表示; 文本聚类; 社交特征;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

Web文本表示方法作为所有Web文本分析的基础工作,对文本分析的结果有深远的影响。提出了一种多维度的Web文本表示方法。传统的文本表示方法一般都是从文本内容中提取特征,而文档的深层次特征和外部特征也可以用来表示文本。本文主要研究文本的表层特征、隐含特征和社交特征,其中表层特征和隐含特征可以由文本内容中提取和学习得到,而文本的社交特征可以通过分析文档与用户的交互行为得到。所提出的多维度文本表示方法具有易用性,可以应用于各种文本分析模型中。在实验中,改进了两种常用的文本聚类算法——K-means和层次聚类算法,并命名为多维度K-means MDKM和多维度层次聚类算法MDHAC。通过大量的实验表明了本方法的高效性。此外,我们在各种特征的结合实验结果中还有一些深层次的发现。

引用

页码：2348 / 2355

页数：8