基于统计学和语义信息的中文文本主题识别技术

被引：6

作者：

冯晋

李春平

机构：

[1] 清华大学软件学院北京100084

[2] 清华大学软件学院

来源：

清华大学学报(自然科学版) | 2005年 / S1期

关键词：

信息抽取; 中文关键词提取; 关联分析; 文本挖掘;

D O I：

10.16511/j.cnki.qhdxxb.2005.s1.014

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

由于中文分词处理的复杂性在一定程度上限制了中文信息抽取技术的发展,因此,快速有效地抽取中文文本主题的需求越来越突出。该文主要通过中文分词技术、频繁词查找和词性组合计算来分析词与词之间的关联并最终提取出能够表达文章内容的主题词汇,同时还对这些词汇作了记分和排序。读者能够通过这些词汇来判定文章的主题和重要内容。通过对人民日报语料进行实验表明,该方法正确率能够保持在66%以上,同时对于网页邮件等真实文档也有较好的测试结果。

引用

页码：1791 / 1794

页数：4