古籍文本抽词研究

被引:9
作者
曾艳
侯汉清
机构
[1] 南京农业大学信息管理系
关键词
古籍数字化; N-gram; 自动分词; 实义词;
D O I
暂无
中图分类号
G252.7 [文献检索]; G255.1 [善本、线装古籍];
学科分类号
050104 ; 060202 ;
摘要
古籍文本检索目前大多局限于篇、章及目录,即使是全文检索一般也是基于单汉字的检索,由于没有现成的古籍词表可用,古籍文本的标引和检索效率都受到了影响。现将常用于处理现代文本的N元组法移植到古籍文本中进行实义词提取,试验步骤包括:自动分词并统计词频;利用抽词词典和停用词词典得到候选词汇;通过简单计算对n元组进行剔除过滤;人工判别提取实词。试验从古籍文本《齐民要术》中提取普通语词和专有名词(包括书名、地名、人名官职名)3000多个,表明此试验方案基本可行。
引用
收藏
页码:132 / 135
页数:4
相关论文
共 8 条