唐宋诗之计算机辅助深层研究

被引:24
作者
胡俊峰
俞士汶
机构
[1] 北京大学计算机科学技术系北京大学计算语言学研究所
关键词
语料库语言学; 未登录词发现; 自动注音; 唐宋诗辅助研究;
D O I
10.13209/j.0479-8023.2001.126
中图分类号
H087 [数理语言学];
学科分类号
摘要
介绍了北大计算语言学研究所开发的“唐宋诗计算机辅助研究系统”。该系统以全唐诗(481万字 )和宋代部分名家诗 (16 0万字 )组成的语料库为基础 ,运用计算语言学方法对唐宋诗进行分析研究 ,提取了唐宋诗中的词汇 ,计 5万余条目。在对诗文进行词语切分的基础上 ,建立了词汇的共现关系、对仗关系以及词汇的作者分布特征信息。系统除了提供面向诗文内容的全文检索功能外 ,还进一步开发了基于词汇的统计分析和诗句相似性检索等功能 ,实现了对全唐诗的自动注音
引用
收藏
页码:727 / 733
页数:7
相关论文
共 1 条