中文产品评论中属性词抽取方法研究

被引:12
作者
栗春亮
朱艳辉
徐叶强
机构
[1] 湖南工业大学计算机与通信学院
基金
湖南省自然科学基金;
关键词
产品评论; 生词识别; 序列模板; 属性词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对现有属性词抽取方法的准确率和覆盖率偏低问题,利用百度百科和分词后相邻词语同现比例识别专业领域生词,降低分词错误对属性词识别的影响,在中文产品评论语料中通过设计词性序列模板获得候选属性词集,该词性序列模板包含名词和名词短语模板、动词和动词短语模板,采用统计技术和自然语言处理技术筛选候选属性词。实验结果表明,对于3 623篇手机评论文章,利用该方法可获得1 732个属性词,准确率为0.565、召回率为0.726、调和平均值为0.636,具有较好的抽取性能。
引用
收藏
页码:26 / 28+32 +32
页数:4
相关论文
共 3 条
[1]  
Semi-supervised learning of attribute-value pairs from product descriptions. K.PROBST,M.K.R.GHAI,A.FANO,Y.LIU. Proceedings of the Twentieth International Joint Conference on Artificial Intelligence . 2007
[2]  
Mining Opinion Features in Customer Reviews. Hu Minjing,Liu Bing. Proceedings of the 19th National Conference on Artifical Intelligence . 2004
[3]  
Mining and summarizing customer reviews. Minqing Hu,Bing Liu. Proceedings of the 10th ACM SIGKDD international conference on Knowledge discovery and data mining . 2004