先秦词汇的时代特征自动获取及文献时代的自动判定

被引:9
作者
刘浏 [1 ]
李斌 [1 ,2 ]
曲维光 [3 ]
陈小荷 [1 ]
机构
[1] 南京师范大学 语言信息科技研究中心
[2] 南京大学 计算机软件新技术国家重点实验室
[3] 南京师范大学计算机科学与技术学院
关键词
先秦词汇; 时代; 向量空间模型; 朴素贝叶斯分类器;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
词汇的时代特征能反应词汇在一个时代发展变化的规律。该文将先秦分为前春秋、春秋和战国三个时代,获取并研究这三个时代的时代独有词、时代特征词及时代发源词。该文提出两种自动判断先秦文献时代的方法,分别基于向量相似度和朴素贝叶斯分类器,在25种先秦文献上后者的分类性能更稳定。最后该文使用朴素贝叶斯分类器验证了《列子》并非成书于先秦。
引用
收藏
页码:107 / 113
页数:7
相关论文
共 12 条
[2]
基于CRF的先秦汉语分词标注一体化研究 [J].
石民 ;
李斌 ;
陈小荷 .
中文信息学报, 2010, (02) :39-45
[3]
20世纪《列子》及张湛注研究述略 [J].
王光照 ;
卞鲁晓 .
安徽大学学报(哲学社会科学版), 2008, (02) :14-19
[4]
先秦“皮”的语义场研究 [J].
吴宝安 ;
黄树先 .
古汉语研究, 2006, (02) :69-72
[5]
从《孟子章句》看战国至东汉的语言发展 [J].
谭书旺 .
古汉语研究, 2001, (02) :62-66
[6]
词语的时代色彩与词语的使用 [J].
王吉辉 .
理论与现代化, 2001, (02) :72-77
[7]
《尔雅》与先秦语言研究.[J].叶南.西南民族学院学报(哲学社会科学版).1996, S6
[8]
[9]
词的时代色彩初探 [J].
杨振兰 .
山东大学学报(哲学社会科学版), 1988, (03) :102-106
[10]
先秦文献信息处理.[M].陈小荷; 编.世界图书出版公司北京公司.2012,