唐诗题材自动分类研究

被引:39
作者
胡韧奋 [1 ]
诸雨辰 [2 ]
机构
[1] 北京师范大学中文信息处理研究所
[2] 北京师范大学文学院
关键词
唐诗; 题材; 文本分类; 卡方检验; 朴素贝叶斯; 支持向量机;
D O I
10.13209/j.0479-8023.2015.039
中图分类号
I207.22 [诗歌];
学科分类号
050101 [文艺学];
摘要
将文本分类技术引入唐诗研究。首先将唐诗按照题材分为爱情婚姻、边塞战争、交游送别、羁旅思乡、山水田园、咏史怀古和其他7类,并据此提出唐诗题材自动分类模型。所选500首诗歌样本以《唐诗三百首》为基础,并有所补充。采用向量空间模型(VSM)将唐诗文本转换为向量,通过卡方检验进行词语特征选择,最后基于朴素贝叶斯和支持向量机算法构造文本分类器,取得较好的题材分类效果。此外,还验证了作者关于题目、体制、作者等变量对题材分类产生影响的假设,为相关诗歌本体研究提供了科学依据。
引用
收藏
页码:262 / 268
页数:7
相关论文
共 11 条
[1]
基于SMO的多层次文本分类法研究 [J].
何建兵 ;
何清 ;
史忠植 .
计算机工程与应用, 2006, (13) :152-154+167
[2]
一种文本处理中的朴素贝叶斯分类器 [J].
李静梅 ;
孙丽华 ;
张巧荣 ;
张春生 .
哈尔滨工程大学学报, 2003, (01) :71-74
[3]
唐宋诗中词汇语义相似度的统计分析及应用 [J].
胡俊峰 ;
俞士汶 .
中文信息学报, 2002, (04) :39-44
[4]
唐宋诗之计算机辅助深层研究 [J].
胡俊峰 ;
俞士汶 .
北京大学学报(自然科学版), 2001, (05) :727-733
[5]
SUPPORT-VECTOR NETWORKS [J].
CORTES, C ;
VAPNIK, V .
MACHINE LEARNING, 1995, 20 (03) :273-297
[6]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
[7]
文选.[M].(南北朝·梁)萧统 编.上海古籍出版社.1986,
[8]
诗问四种.[M].(清)王士祯著;周维德笔注;.齐鲁书社.1985,
[9]
清诗话续编.[M].郭绍虞;富寿荪编;.上海古籍出版社.1983,
[10]
历代诗话续编.[M].丁福保著;.中华书局.1983,