面向数字人文研究的大规模古籍文本可视化分析与挖掘

被引:166
作者
欧阳剑 [1 ,2 ]
机构
[1] 上海师范大学语言研究所
[2] 广西民族大学图书馆
关键词
数字人文; 文本可视化; 数据挖掘; 古籍文献;
D O I
暂无
中图分类号
G255.1 [善本、线装古籍]; G353.1 [情报资料的分析和研究];
学科分类号
120501 [图书馆学]; 120502 [情报学];
摘要
传统的古籍开发与应用模式已难以适应人文学科研究的需要,人文学科研究者期待一个技术逻辑和人文逻辑相耦合的数字人文研究范式的出现。本文从古籍文献深层次开发与利用出发,利用新的信息技术与面向数字人文研究跨学科方法,以大规模中国古籍文本为研究对象,采用大数据研究理念,对古籍进行整理、标注、自动分词等处理,以词频分析统计为研究核心,采用数据降噪、基于窗口时间单位的统计分析计算、滑动窗口预测等分析与挖掘方法,采用大数据实时分析技术,实现了实时、在线、立体、可视化、定量分析字词的历史词频分布规律,创建了一个以语言学、历史文献学、历史地理学等人文学科研究为主的古籍实时统计分析平台,可辅助研究者在大量的古籍文献中发现新的模式、现象、趋势等,实现古籍开发与应用模式创新的初步尝试。图11。参考文献36。
引用
收藏
页码:66 / 80
页数:15
相关论文
共 21 条
[1]
利用GIS技术提升中国古代文学研究的数字化水平.[A].王兆鹏;.第三届中国古籍数字化国际学术研讨会.2011,
[2]
大陆古籍数字化的现状及存在的问题.[A].杨琳;.第一届中国古籍数字化国际学术研讨会.2007,
[3]
以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨 [J].
黄水清 ;
王东波 ;
何琳 .
图书情报工作, 2015, 59 (11) :127-133
[4]
先秦文献《孟子》自动分词方法研究 [J].
梁社会 ;
陈小荷 .
南京师范大学文学院学报, 2013, (03) :175-182
[5]
大数据助力社会科学研究:挑战与创新 [J].
沈浩 ;
黄晓兰 .
现代传播(中国传媒大学学报), 2013, 35 (08) :13-18
[6]
文本可视化研究综述 [J].
唐家渝 ;
刘知远 ;
孙茂松 .
计算机辅助设计与图形学学报, 2013, 25 (03) :273-285
[7]
古汉语双字词自动获取方法的比较与分析 [J].
段磊 ;
韩芳 ;
宋继华 .
中文信息学报, 2012, (04) :34-42
[8]
文本挖掘在人文社会科学研究中的典型应用述评 [J].
陆宇杰 ;
许鑫 ;
郭金龙 .
图书情报工作 , 2012, (08) :18-25
[9]
基于CRF的先秦汉语分词标注一体化研究 [J].
石民 ;
李斌 ;
陈小荷 .
中文信息学报, 2010, (02) :39-45
[10]
从中古词汇的特点看汉语史的分期.[J].方一新;.汉语史学报.2004, 00