一种中文文档的非受限无词典抽词方法

被引:24
作者
金翔宇
孙正兴
张福炎
机构
[1] 南京大学软件新技术国家重点实验室
[2] 南京大学软件新技术国家重点实验室 南京大学计算机科学与技术系
[3] 南京
[4] 南京大学计算机科学与技术系
基金
高等学校骨干教师资助计划; 中国博士后科学基金;
关键词
中文信息处理; 自动分词; 非受限无词典抽词; 汉字结合模式;
D O I
暂无
中图分类号
TP391.2 [翻译机];
学科分类号
081203 ; 0835 ;
摘要
本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感 ,而又对计算速度要求很高的中文信息处理应用 ,例如实时文档自动分类系统
引用
收藏
页码:33 / 39
页数:7
相关论文
共 9 条
[1]   基于语料库的中文姓名识别方法研究 [J].
郑家恒 ;
李鑫 ;
谭红叶 .
中文信息学报, 2000, (01) :7-12
[2]   汉语词语边界自动划分的模型与算法 [J].
付国宏 ;
王晓龙 ;
不详 .
计算机研究与发展 , 1999, (09) :1142-1147
[3]   中文机构名称的识别与分析 [J].
张小衡 ;
王玲玲 .
中文信息学报, 1997, (04) :22-33
[4]   利用汉字二元语法关系解决汉语自动分词中的交集型歧义 [J].
孙茂松 ;
黄昌宁 ;
邹嘉彦 ;
陆方 ;
沈达阳 .
计算机研究与发展 , 1997, (05) :14-21
[5]   基于机器学习的无需人工编制词典的切词系统 [J].
黄萱菁 ;
吴立德 ;
王文欣 ;
叶丹瑾 .
模式识别与人工智能, 1996, 9 (04) :297-303
[6]   中文姓名的自动辨识 [J].
孙茂松,黄昌宁,高海燕,方捷 .
中文信息学报, 1995, (02) :16-27
[7]   汉语计算机自动分词知识 [J].
梁南元 .
中文信息学报, 1990, (02) :29-33
[8]   “信息处理用现代汉语分词规范”的若干问题探讨 [J].
揭春雨 .
中文信息学报, 1989, (04) :33-41
[9]   汉语文字自动统计系统CWSS [J].
关英春 ;
秦蓓 .
中文信息学报 , 1986, (01) :26-32