共 1 条
唐宋诗之计算机辅助深层研究
被引:24
作者:
胡俊峰
俞士汶
机构:
[1] 北京大学计算机科学技术系北京大学计算语言学研究所
来源:
关键词:
语料库语言学;
未登录词发现;
自动注音;
唐宋诗辅助研究;
D O I:
10.13209/j.0479-8023.2001.126
中图分类号:
H087 [数理语言学];
学科分类号:
摘要:
介绍了北大计算语言学研究所开发的“唐宋诗计算机辅助研究系统”。该系统以全唐诗(481万字 )和宋代部分名家诗 (16 0万字 )组成的语料库为基础 ,运用计算语言学方法对唐宋诗进行分析研究 ,提取了唐宋诗中的词汇 ,计 5万余条目。在对诗文进行词语切分的基础上 ,建立了词汇的共现关系、对仗关系以及词汇的作者分布特征信息。系统除了提供面向诗文内容的全文检索功能外 ,还进一步开发了基于词汇的统计分析和诗句相似性检索等功能 ,实现了对全唐诗的自动注音
引用
收藏
页码:727 / 733
页数:7
相关论文