用户评论中的标签抽取以及排序

被引：10

作者：

李丕绩 ^{[1
]}

马军 ^{[1
]}

张冬梅 ^{[2
]}

韩晓晖 ^{[1
]}

机构：

[1] 山东大学计算机科学与技术学院

[2] 山东建筑大学计算机科学与技术学院

来源：

中文信息学报 | 2012年 / 26卷 / 05期

关键词：

意见挖掘; 主题模型; 语义独立; 标签抽取; 排序;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

对于一个实体(产品或者商户),往往伴随着成千上万的用户评论。如何从这些冗杂的评论信息中抽取能够描述此实体的精华信息是研究的热点问题。该文提出了一种能够为每个实体抽取特征标签的方法,并且语义去重,保证标签在语义空间内相互独立。首先,对于每个实体的所有评论,进行中文分词、词性标注,并且做依存句法分析。然后,根据每个句子中的依存关系,抽取关键标签,构成此实体的标签库,并且对标签库进行显式语义去重。最后通过K-Means聚类以及Latent Dirichlet Allocation(LDA)主题模型将每个标签映射到语义独立的主题空间,再根据每个标签相对该主题的置信度进行排序。通过以上步骤,可以为每个实体抽取语义独立的关键标签描述,实验中,该文通过对返回标签列表的准确性以及语义多样性进行了统计分析,验证了标签抽取方法的可行性和有效性。

引用

页码：14 / 19+45 +45

页数：7