中文问答社区答案质量的评价研究:以知乎为例

被引:25
作者
王伟 [1 ]
冀宇强 [2 ]
王洪伟 [2 ]
郑丽娟 [3 ]
机构
[1] 华侨大学工商管理学院
[2] 同济大学经济与管理学院
[3] 聊城大学商学院
关键词
答案质量; 质量评价; 机器学习; 文本挖掘; 知乎;
D O I
10.13266/j.issn.0252-3116.2017.22.005
中图分类号
G201 [信息理论];
学科分类号
050302 ;
摘要
[目的/意义]在线问答社区成为互联网用户获取高质量知识的重要途径,探索中文问答社区答案质量对知识传播具有重要意义。[方法/过程]以规模最大的中文问答社区之一"知乎"为研究对象,采用数据挖掘和机器学习方法,选取逻辑回归、支持向量机和随机森林三种分类模型,进行三层递进式训练和检验。从结构化特征、文本特征以及用户社交属性三个维度构建答案质量的特征体系。[结果/结论]实验结果显示,随着特征体系的不断丰富,三种分类模型的性能逐步提升;而随机森林作为一种组合分类模型,在全量特征的情况下,取得出色的分类性能。对特征组合分析发现,包含用户社交属性的随机森林总是比同等级的其它模型更加出色,表明社会化网络在答案质量评价中的地位。研究结论表明从答案本身和答案编写者两个角度能够评价答案质量,构建的特征体系和模型可以较为全面地预测答案质量。
引用
收藏
页码:36 / 44
页数:9
相关论文
共 12 条
[1]   网络健康社区知识共享的影响因素研究 [J].
张克永 ;
李贺 .
图书情报工作, 2017, 61 (05) :109-116
[2]   基于词频、词量、累积词频占比的共词分析词集范围选取方法研究 [J].
刘敏娟 ;
张学福 ;
颜蕴 .
图书情报工作, 2016, (23) :135-142
[3]   基于信息分类的网络书评内容挖掘与整合研究 [J].
祝振媛 .
图书情报工作, 2016, 60 (01) :114-124
[4]   中文社区问答中问题答案质量评价和预测 [J].
李晨 ;
巢文涵 ;
陈小明 ;
李舟军 .
计算机科学, 2011, 38 (06) :230-236
[5]  
Detecting high-quality posts in community question answering sites[J] . Yuan Yao,Hanghang Tong,Tao Xie,Leman Akoglu,Feng Xu,Jian Lu.Information Sciences . 2015
[6]  
Wisdom of the Crowd within enterprises: Practices and challenges[J] . Mahmood Hosseini,Jack Moore,Malik Almaliki,Alimohammad Shahri,Keith Phalp,Raian Ali.Computer Networks . 2015
[7]  
An improved mix framework for opinion leader identification in online learning communities[J] . Yanyan Li,Shaoqian Ma,Yonghe Zhang,Ronghuai Huang,Kinshuk.Knowledge-Based Systems . 2013
[8]   Performance of classification models from a user perspective [J].
Martens, David ;
Vanthienen, Jan ;
Verbeke, Wouter ;
Baesens, Bart .
DECISION SUPPORT SYSTEMS, 2011, 51 (04) :782-793
[9]   Dimensions of Leadership and Social Influence in Online Communities [J].
Huffaker, David .
HUMAN COMMUNICATION RESEARCH, 2010, 36 (04) :593-617
[10]   Predicting continued participation in newsgroups [J].
Joyce, Elisabeth ;
Kraut, Robert E. .
JOURNAL OF COMPUTER-MEDIATED COMMUNICATION, 2006, 11 (03)