大量网络游记文本中热度地名提取方法与实证研究

被引:24
作者
李照航 [1 ]
郭风华 [2 ]
李仁杰 [1 ,3 ]
傅学庆 [1 ,3 ]
严正峰 [1 ,3 ]
机构
[1] 不详
[2] 河北师范大学资源与环境科学学院
[3] 不详
[4] 河北省科学院地理科学研究所
[5] 河北省环境演变与生态建设实验室
[6] 不详
关键词
网络游记文本; 热度地名; ATF*PDF模型; 多样本集合共现;
D O I
暂无
中图分类号
F592 [中国旅游事业]; F224 [经济数学方法];
学科分类号
0701 ; 070104 ;
摘要
探讨网络游记文本中的地名使用特征及其研究意义,地名使用状态的定量特征能够反映游客对旅游地景观的认知结构与旅游行为的一般过程。在现有中文分词技术基础上,结合游记文本中的地名使用特点,选用ATF*PDF方法计算特征词汇在整个旅游文本集中使用状态的综合权重,设计了一种基于大量网络游记文本的热度地名自动提取方法,为不使用自定义地名库的旅游地理研究奠定了基础。以游客点评网游记为样本的实验证明,该方法能够实现旅游相关地名的快速提取,地名使用热度越高,提取准确率越高;对地名提取结果的类型结构分析发现了自然和人文旅游地游记在词汇使用方面的共性和差异,指示了旅游文本地名的分布意义及其对旅行过程其他信息解读的潜在价值,预示了网络游记文本在进一步解析旅游者的旅游地认知特征和旅游行为过程方面的科学意义。
引用
收藏
页码:68 / 73
页数:6
相关论文
共 20 条
[1]   文本在游客地方感建构中的作用研究——基于曲阜游记的分析 [J].
唐顺英 ;
周尚意 .
地理与地理信息科学, 2013, 29 (02) :100-104
[2]   基于网络爬虫的地名数据库维护方法 [J].
张春菊 ;
张雪英 ;
朱少楠 ;
徐希涛 .
地球信息科学学报, 2011, 13 (04) :492-499
[3]   基于网络文本内容分析的太白山背包旅游行为研究 [J].
赵振斌 ;
党娇 .
人文地理, 2011, 26 (01) :134-139
[4]   中文文本的地名解析方法研究 [J].
唐旭日 ;
陈小荷 ;
张雪英 .
武汉大学学报(信息科学版), 2010, 35 (08) :930-935+982
[5]   基于综合权重的多文档关键词抽取算法 [J].
胡志敏 .
计算机与数字工程, 2010, 38 (06) :45-48
[6]   地理命名实体分类体系的设计与应用分析 [J].
张雪英 ;
张春菊 ;
闾国年 .
地球信息科学学报, 2010, 12 (02) :2220-2227
[7]   基于篇章的中文地名识别研究 [J].
唐旭日 ;
陈小荷 ;
许超 ;
李斌 .
中文信息学报, 2010, (02) :24-32
[8]   互联网传播的台湾旅游目的地形象——基于两岸相关网站的内容分析 [J].
肖亮 ;
赵黎明 .
旅游学刊, 2009, 24 (03) :75-81
[9]   基于NVivo软件的互联网旅游文本的质性研究——以贵州黔东南肇兴的旅游者文本为例 [J].
王佳果 ;
王尧 .
旅游论坛, 2009, 2 (01) :30-34
[10]   基于联合权重的多文档关键词抽取技术 [J].
杨洁 ;
季铎 ;
蔡东风 ;
林晓庆 ;
白宇 .
中文信息学报, 2008, 22 (06) :75-79