基于购物网站用户搜索日志的商品词发现

被引:5
作者
杨锦锋
吕新波
关毅
周春波
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
商品词; 新词发现; N元递增分步算法; 串频统计;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
商品词是电子商务领域描述商品的新词。主要介绍基于购物网站用户搜索日志的商品词发现的方法。该方法从搜索日志中提取用户查询,对查询进行分词,采用N元递增分步算法和串频统计,计算候选串的条件概率,选择候选商品词。为了降低人工审核的成本,只对产出商品词的准确率进行评价。利用该方法在手机、面霜和香水三类商品的搜索日志上进行了实验,最高准确率达到92.58%。
引用
收藏
页码:108 / 111+160 +160
页数:5
相关论文
共 8 条
[1]
基于WEB的计算机领域新术语的自动检测.[A].刘知远;孙茂松;.第九届全国计算语言学学术会议.2007,
[2]
一种基于免疫遗传算法的网络新词识别方法 [J].
丁建立 ;
慈祥 ;
黄剑雄 .
计算机科学, 2011, 38 (01) :240-245
[3]
Chinese New Word Identification:A Latent Discriminative Model with Global Features [J].
孙晓 ;
黄德根 ;
宋海玉 ;
任福继 .
Journal of Computer Science & Technology, 2011, 26 (01) :14-24
[4]
中文新词识别技术综述 [J].
张海军 ;
史树敏 ;
朱朝勇 ;
黄河燕 .
计算机科学, 2010, 37 (03) :6-10+16
[5]
一种快速获取领域新词语的新方法 [J].
刘华 .
中文信息学报, 2006, (05) :17-23
[6]
面向商务信息抽取的产品命名实体识别研究 [J].
刘非凡 ;
赵军 ;
吕碧波 ;
徐波 ;
于浩 ;
夏迎炬 .
中文信息学报, 2006, (01) :7-13
[7]
基于字串内部结合紧密度的汉语自动抽词实验研究 [J].
罗盛芬 ;
孙茂松 .
中文信息学报, 2003, (03) :9-14
[8]
基于语素数据库的汉语语素及构词研究 [J].
苑春法 ;
黄昌宁 .
世界汉语教学, 1998, (02) :8-13