基于依存句法分析的社会媒体文本挖掘方法——以饮食习惯特色分析为例

被引:13
作者
任彬
车万翔
刘挺
机构
[1] 哈尔滨工业大学社会计算与信息检索研究中心
基金
国家自然科学基金重点项目;
关键词
依存句法分析; 文本挖掘; 社会媒体; 饮食习惯特色分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在进行社会媒体文本挖掘时,传统的基于词表的方法,存在准确率较低、词表难获得等问题。该文提出一种基于依存句法分析的文本挖掘方法,通过规则匹配的方式从社会媒体文本中提取信息。该方法不依赖词表,且实验证明了相比基于词表的方法在准确率上有大幅提高。应用基于依存句法分析的文本挖掘方法,我们在微博文本上进行了饮食习惯特色分析,实现了性别、地区、时间等维度的饮食习惯特色分析并可进行交叉分析,最终用词云的方式展示了结果。
引用
收藏
页码:208 / 215
页数:8
相关论文
共 2 条
[1]  
依存句法分析统计模型及树库转化研究[D]. 李正华.哈尔滨工业大学. 2008
[2]  
Personality,gender,and age in the language of social media:the open-vocabulary approach .2 SCHWARTZ H,EICHSTAEDT J,KERN M,et al. PloS one . 2013