基于领域类别信息C-value的多词串自动抽取

被引:8
作者
李超
王会珍
朱慕华
张俐
朱靖波
机构
[1] 东北大学自然语言处理实验室
关键词
计算机应用; 中文信息处理; 多词串抽取; 多类别C-value; 领域信息;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
该本的多词串抽取是自然语言处理领域一项重要的研究内容。该文提出了一种多类别C-value(Multi-Class C-value)方法,利用多词串在不同领域的分布信息改善领域相关的多词串抽取的性能。在汽车、科技和旅行三个领域的数据上进行实验,评价多词串的准确率,在top-100级别上,较传统的C-value方法在三个领域中分别提高了12、12和13个百分点。实验结果验证了方法的有效性。
引用
收藏
页码:94 / 98
页数:5
相关论文
共 3 条
  • [1] 基于领域知识的文本分类
    朱靖波
    陈文亮
    [J]. 东北大学学报, 2005, (08) : 733 - 735
  • [2] 多词表达抽取及其应用[D]. 段建勇.上海交通大学. 2007
  • [3] Technical terminology: some linguistic properties and an algorithm for identification in text[J] . John S. Justeson,Slava M. Katz.Natural Language Engineering . 1995 (1)