共 3 条
一种基于字同现频率的汉语文本主题抽取方法
被引:45
作者:
马颖华
王永成
苏贵洋
张宇萌
机构:
[1] 上海交通大学计算机科学与工程系
来源:
关键词:
自然语言处理;
主题抽取;
同现频率;
D O I:
暂无
中图分类号:
TP391.12 [];
学科分类号:
摘要:
主题抽取是文本自动处理的基础工作之一 ,而主题的抽取一直以分词或者抽词作为第 1步 由于汉语词间缺少明显的间隔 ,因此分词和抽词的效果往往不够理想 ,从而在一定程度上影响了主题抽取的质量 提出以字为处理单位 ,基于字同现频率的汉语文本主题自动抽取的新方法 该方法速度快 ,适应多种文体类型 ,并完全避开了分词和抽词过程 ,可以广泛应用在主题句、主题段落等主题抽取的多个层面 ,而且同样适用于其他语言的文本主题抽取 主题句自动抽取实验表明 ,该方法抽取新闻文本主题句的正确率达到 77 19% 汉语文本的主题抽取比较实验还表明 ,省略分词步骤并没有降低抽取算法的正确率
引用
收藏
页码:874 / 878
页数:5
相关论文