基于情感分析技术的股票研究报告分类

被引:5
作者
彭敏 [1 ,2 ]
汪清 [1 ]
黄济民 [1 ]
周李 [1 ]
胡鑫汇 [1 ]
机构
[1] 武汉大学计算机学院
[2] 武汉大学深圳研究院
关键词
情感分析; 特征提取; 支持向量机; 朴素贝叶斯; 不平衡数据集; 股票研究报告;
D O I
10.14188/j.1671-8836.2015.02.004
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
基于情感文本分析技术对股票研究报告中的投资建议进行分类.提取股票研究报告中的"组合特征";采用改进的卡方统计方法进行特征提取,并通过支持向量机(SVM)和朴素贝叶斯算法进行分类,验证分类效果;探讨了权重计算、特征维度和样本数量对分类效果的影响.基于东方财富网上采集的14 000篇股票研究报告的实验表明,通过提取"组合特征"、部分特征维度以及对训练样本重采样,可以取得较好的分类效果.
引用
收藏
页码:124 / 130
页数:7
相关论文
共 9 条
[1]   不平衡情感分类中的特征选择方法研究 [J].
王志昊 ;
王中卿 ;
李寿山 ;
李培峰 .
中文信息学报, 2013, (04) :113-118
[2]   文本情感分析综述 [J].
杨立公 ;
朱俭 ;
汤世平 .
计算机应用, 2013, 33 (06) :1574-1578+1607
[3]   基于不平衡数据的中文情感分类 [J].
王中卿 ;
李寿山 ;
朱巧明 ;
李培峰 ;
周国栋 .
中文信息学报, 2012, 26 (03) :33-37+64
[4]   文本分类中改进型CHI特征选择方法的研究 [J].
裴英博 ;
刘晓霞 .
计算机工程与应用, 2011, (04) :128-130+194
[5]   文本情感分析 [J].
赵妍妍 ;
秦兵 ;
刘挺 .
软件学报, 2010, 21 (08) :1834-1848
[6]   基于χ2统计的文本分类特征选择方法的研究 [J].
熊忠阳 ;
张鹏招 ;
张玉芳 .
计算机应用, 2008, (02) :513-514+518
[7]   A review of feature selection methods on synthetic data [J].
Bolon-Canedo, Veronica ;
Sanchez-Marono, Noelia ;
Alonso-Betanzos, Amparo .
KNOWLEDGE AND INFORMATION SYSTEMS, 2013, 34 (03) :483-519
[8]   Evaluating sentiment in financial news articles [J].
Schumaker, Robert P. ;
Zhang, Yulei ;
Huang, Chun-Neng ;
Chen, Hsinchun .
DECISION SUPPORT SYSTEMS, 2012, 53 (03) :458-464
[9]  
C4.5 and class imbalance and cost sensitivity:why under-sampling beats over-sampling. Drummond. C,Holte. R. C. the ICML’’03 Workshop on Learning from Imbalanced Datasets . 2003