共 9 条
一种中文文档的非受限无词典抽词方法
被引:24
作者:
金翔宇
孙正兴
张福炎
机构:
[1] 南京大学软件新技术国家重点实验室
[2] 南京大学软件新技术国家重点实验室 南京大学计算机科学与技术系
[3] 南京
[4] 南京大学计算机科学与技术系
来源:
基金:
高等学校骨干教师资助计划;
中国博士后科学基金;
关键词:
中文信息处理;
自动分词;
非受限无词典抽词;
汉字结合模式;
D O I:
暂无
中图分类号:
TP391.2 [翻译机];
学科分类号:
081203 ;
0835 ;
摘要:
本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感 ,而又对计算速度要求很高的中文信息处理应用 ,例如实时文档自动分类系统
引用
收藏
页码:33 / 39
页数:7
相关论文