高能物理大数据挑战与海量事例特征索引技术研究

被引:7
作者
程耀东 [1 ]
张潇 [2 ]
王培建 [2 ]
查礼 [3 ]
侯迪 [2 ]
齐勇 [2 ]
马灿 [4 ]
机构
[1] 中国科学院高能物理研究所
[2] 西安交通大学计算机科学与技术系
[3] 中国科学院计算技术研究所
[4] 中国科学院信息工程研究所
基金
国家重点研发计划;
关键词
高能物理; 数据管理; 事例索引; HBase; 查询优化;
D O I
暂无
中图分类号
O572 [高能物理学]; TP315 [管理程序、管理系统];
学科分类号
1201 ;
摘要
新一代高能物理实验装置的建成与运行,产生了PB乃至EB量级的数据,这对数据采集、存储、传输与共享、分析与处理等数据管理技术提出了巨大挑战.事例是高能物理实验的基本数据单元,一次大型实验即可产生万亿级的事例.传统高能物理数据处理以ROOT文件为基本存储和处理单位,每个ROOT文件可以包含数千至数亿个事例.这种基于文件的处理方式虽然降低了高能物理数据管理系统的开发难度,但物理分析仅对极少量的稀有事例感兴趣,这导致了数据传输量大、I?O瓶颈以及数据处理效率低等问题.提出一种面向事例的高能物理数据管理方法,重点研究海量事例特征高效索引技术.在这种方法中,将物理学家感兴趣的事例的特征量抽取出来建立专门的索引,存储在NoSQL数据库中.为便于物理分析处理,事例的原始数据仍然存放在ROOT文件中.最后,通过系统验证和分析表明,基于事例特征索引进行事例筛选是可行的,优化后的HBase系统可以满足事例索引的需求.
引用
收藏
页码:258 / 266
页数:9
相关论文
共 8 条
  • [1] 高能物理计算环境中存储系统的设计与优化
    程耀东
    汪璐
    黄秋兰
    陈刚
    [J]. 计算机科学, 2015, 42 (01) : 54 - 58
  • [2] 基于HBase的高能物理数据存储及分析平台
    雷晓凤
    李强
    孙功星
    [J]. 计算机工程, 2015, 41 (06) : 49 - 55
  • [3] Distributed Data Collection for the ATLAS EventIndex[J] . J Sánchez,A Fernández Casaní,S González de la Hoz.Journal of Physics: Conference Series . 2015 (4)
  • [4] SNiPER: an offline software framework for non-collider physics experiments[J] . J. H. Zou,X. T. Huang,W. D. Li,T. Lin,T. Li,K. Zhang,Z. Y. Deng,G. F. Cao.Journal of Physics: Conference Series . 2015 (7)
  • [5] High performance computing activities in hadron spectroscopy at BESIII[J] . Beijiang Liu,Besiii collaboration.Journal of Physics: Conference Series . 2014 (1)
  • [6] PhEDEx Data Service[J] . Ricky Egeland,Tony Wildish,Chih-Hao Huang.Journal of Physics: Conference Series . 2010 (6)
  • [7] Bigtable[J] . Fay Chang,Jeffrey Dean,Sanjay Ghemawat,Wilson C. Hsieh,Deborah A. Wallach,Mike Burrows,Tushar Chandra,Andrew Fikes,Robert E. Gruber.ACM Transactions on Computer Systems (TOCS) . 2008 (2)
  • [8] ROOT — An object oriented data analysis framework[J] . Rene Brun,Fons Rademakers.Nuclear Inst. and Methods in Physics Research, A . 1997 (1)