基于贝叶斯信息准则的文本主题数估计

被引:5
作者
王晓斌
温春
石昭祥
机构
[1] 电子工程学院网络工程系
关键词
主题识别; 关键词提取; 独立分量分析; 贝叶斯信息准则;
D O I
暂无
中图分类号
TN911 [通信理论];
学科分类号
081002 ;
摘要
特定领域的主题识别和关键词提取有着广泛的应用,但通过人工指定识别或文本聚类自动生成的主题类别缺乏客观的度量方法。该文结合基于BIC准则的模型选择理论和独立分量分析技术对主题的数量进行概率估计,给出主题数量在BIC意义下的统计分布。在此基础上实现了文档矩阵的ICA分解,并根据分离的独立分量获得主题的关键词及其权重。实验表明,该方法在没有领域知识支持的情况下能估计出反映文本集合的主题数并提取相应的关键词。
引用
收藏
页码:183 / 185
页数:3
相关论文
empty
未找到相关数据