基于高频词汇的英文文本可视化

被引:3
作者
刘春江
杨世瀚
杨宁
机构
[1] 国家科学图书馆成都分馆
关键词
文本可视化; 高频词汇; k-means聚类算法; 放射状树布局;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
为探索高频词汇间上下文关系的远近,本文研究了一种基于英文文本中高频词汇的可视化算法流程,并进行了可视化实现。我们首先用统计算法从英文文本中抽取出高频词汇及词汇间的上下文,然后定义了3种词汇间的连接方式,计算出有上下文关系的词汇间的关系度,并通过k-means算法对词汇间的关系度进行聚类,以体现出词汇间关系的远近,最后利用放射状树布局对聚类结果进行可视化。通过这种可视化形式,我们能够快速理解英文文本的内容。
引用
收藏
页码:21 / 24
页数:4
相关论文
共 13 条
  • [1] Human Behavior and the Principle of Least Effort: An Introduction to Human Ecology. Zipf GK. . 1949
  • [2] "Themeriver:Visualizing thematic changesinlarge docu-ment collections,". L.Nowell,S.Havre,B.Hetzler,P.Whitney. Transactions on Visualization and Computer Graphics . 2001
  • [3] Stop word list1. http://www.lextek.com/manuals/onix/stopwords1.html . 2010
  • [4] TextArc:Showing Word Frequency and Distribution inText. Paley W B. IEEE Symposium on Information Visualization . 2002
  • [5] Animated exploration of dynamic graphs with radial layout. Yee K P,Fisher D,Dhamija R,Hearst M. IEEE Symposium on Information Visualization . 2001
  • [6] Prefuse. http:∥www.prefuse.org . 2010
  • [7] k-means clustering. http:∥en.wikipedia.org/wiki/K-means-clustering . 2010
  • [8] Narrative Visualization:Telling Storieswith Data. Edward Segel,Jeffrey Heer. IEEE Transactions on Visualization and ComputerGraphics . 2010
  • [9] An algorithm for suffix stripping. M.F.Porter. Program:elec-tronic library and information systems .
  • [10] Stop words. http:∥en.wikipedia.org/wiki/Stop-words . 2010