中文微博用户性别分类方法研究

被引:18
作者
王晶晶
李寿山
黄磊
机构
[1] 苏州大学计算机科学与技术学院自然语言处理实验室
关键词
性别分类; 新浪微博; 文本分类; 社交网络;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP393.092 [];
学科分类号
081203 ; 0835 ; 080402 ;
摘要
该文旨在研究中文微博用户的性别分类问题,即根据微博提供的中文文本信息对注册用户的性别进行识别。虽然基于微博的性别分类已经有一定研究,但是针对中文的性别分类工作还很缺乏。该文首先提出分别利用用户名和微博文本构建两个分类器对用户的性别类型进行判别,并对不同的特征(例如,字特征、词特征等)进行了研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,从而达到采用这两种文本分类信息同时对用户性别进行性别判断。实验结果表明该文的方法可以达到较高的识别准确率,并且分类器融合的方法明显优于仅利用用户名或者微博文本的分类方法。
引用
收藏
页码:150 / 155+168 +168
页数:7
相关论文
共 2 条
[1]   微博及中文微博信息处理研究综述 [J].
文坤梅 ;
徐帅 ;
李瑞轩 ;
辜希武 ;
李玉华 .
中文信息学报, 2012, (06) :27-37
[2]   微博文本处理研究综述 [J].
张剑峰 ;
夏云庆 ;
姚建民 .
中文信息学报, 2012, 26 (04) :21-27+42