学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
古籍文本抽词研究
被引:9
作者
:
曾艳
论文数:
0
引用数:
0
h-index:
0
机构:
南京农业大学信息管理系
曾艳
论文数:
引用数:
h-index:
机构:
侯汉清
机构
:
[1]
南京农业大学信息管理系
来源
:
图书情报工作
|
2008年
/ 01期
关键词
:
古籍数字化;
N-gram;
自动分词;
实义词;
D O I
:
暂无
中图分类号
:
G252.7 [文献检索];
G255.1 [善本、线装古籍];
学科分类号
:
050104 ;
060202 ;
摘要
:
古籍文本检索目前大多局限于篇、章及目录,即使是全文检索一般也是基于单汉字的检索,由于没有现成的古籍词表可用,古籍文本的标引和检索效率都受到了影响。现将常用于处理现代文本的N元组法移植到古籍文本中进行实义词提取,试验步骤包括:自动分词并统计词频;利用抽词词典和停用词词典得到候选词汇;通过简单计算对n元组进行剔除过滤;人工判别提取实词。试验从古籍文本《齐民要术》中提取普通语词和专有名词(包括书名、地名、人名官职名)3000多个,表明此试验方案基本可行。
引用
收藏
页码:132 / 135
页数:4
相关论文
共 8 条
[1]
因特网经济学未登录词计算机辅助挖掘试验
罗宇辉
论文数:
0
引用数:
0
h-index:
0
机构:
南京农业大学工学院
罗宇辉
侯汉清
论文数:
0
引用数:
0
h-index:
0
机构:
南京农业大学工学院
侯汉清
不详
论文数:
0
引用数:
0
h-index:
0
机构:
南京农业大学工学院
不详
[J].
情报理论与实践 ,
2005,
(05)
: 478
-
481
[2]
古籍数字化的回顾与展望
段泽勇
论文数:
0
引用数:
0
h-index:
0
机构:
西南师范大学图书馆
段泽勇
李弘毅
论文数:
0
引用数:
0
h-index:
0
机构:
西南师范大学图书馆
李弘毅
[J].
图书馆理论与实践,
2004,
(02)
: 37
-
39
[3]
我国古籍数字化建设发展概况及其剖析
张春景
论文数:
0
引用数:
0
h-index:
0
机构:
华东师范大学上海
张春景
[J].
现代情报,
2003,
(12)
: 103
-
104+106
[4]
基于统计的无词典分词方法
傅赛香
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理开放实验室
傅赛香
袁鼎荣
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理开放实验室
袁鼎荣
黄柏雄
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理开放实验室
黄柏雄
钟智
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理开放实验室
钟智
[J].
广西科学院学报,
2002,
(04)
: 252
-
255+264
[5]
中国古籍数字化进程和展望
论文数:
引用数:
h-index:
机构:
潘德利
[J].
图书情报工作,
2002,
(07)
: 117
-
120
[6]
科技文献中索引的功能和应用
论文数:
引用数:
h-index:
机构:
张光云
论文数:
引用数:
h-index:
机构:
穆南
[J].
山东科技大学学报(社会科学版),
2001,
(02)
: 109
-
110
[7]
大规模汉语语料库中任意n的n-gram统计算法及知识获取方法
张民
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与工程系
张民
李生
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与工程系
李生
赵铁军
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与工程系
赵铁军
[J].
情报学报,
1997,
(01)
: 27
-
34
[8]
中文文本自动分词和标注[M]. 商务印书馆 , 刘开瑛著, 2000
←
1
→
共 8 条
[1]
因特网经济学未登录词计算机辅助挖掘试验
罗宇辉
论文数:
0
引用数:
0
h-index:
0
机构:
南京农业大学工学院
罗宇辉
侯汉清
论文数:
0
引用数:
0
h-index:
0
机构:
南京农业大学工学院
侯汉清
不详
论文数:
0
引用数:
0
h-index:
0
机构:
南京农业大学工学院
不详
[J].
情报理论与实践 ,
2005,
(05)
: 478
-
481
[2]
古籍数字化的回顾与展望
段泽勇
论文数:
0
引用数:
0
h-index:
0
机构:
西南师范大学图书馆
段泽勇
李弘毅
论文数:
0
引用数:
0
h-index:
0
机构:
西南师范大学图书馆
李弘毅
[J].
图书馆理论与实践,
2004,
(02)
: 37
-
39
[3]
我国古籍数字化建设发展概况及其剖析
张春景
论文数:
0
引用数:
0
h-index:
0
机构:
华东师范大学上海
张春景
[J].
现代情报,
2003,
(12)
: 103
-
104+106
[4]
基于统计的无词典分词方法
傅赛香
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理开放实验室
傅赛香
袁鼎荣
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理开放实验室
袁鼎荣
黄柏雄
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理开放实验室
黄柏雄
钟智
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理开放实验室
钟智
[J].
广西科学院学报,
2002,
(04)
: 252
-
255+264
[5]
中国古籍数字化进程和展望
论文数:
引用数:
h-index:
机构:
潘德利
[J].
图书情报工作,
2002,
(07)
: 117
-
120
[6]
科技文献中索引的功能和应用
论文数:
引用数:
h-index:
机构:
张光云
论文数:
引用数:
h-index:
机构:
穆南
[J].
山东科技大学学报(社会科学版),
2001,
(02)
: 109
-
110
[7]
大规模汉语语料库中任意n的n-gram统计算法及知识获取方法
张民
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与工程系
张民
李生
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与工程系
李生
赵铁军
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与工程系
赵铁军
[J].
情报学报,
1997,
(01)
: 27
-
34
[8]
中文文本自动分词和标注[M]. 商务印书馆 , 刘开瑛著, 2000
←
1
→