专业的信息化与通信融合产品选型平台及垂直门户
注册 登陆 设为首页 加入收藏
首页 企业新闻 招标信息 行业应用 厂商专区 活动 商城 中标信息

资讯
中心

新闻中心 人物观点
厂商专区 市场分析
行业
应用
政府机构 能源产业 金融机构
教育科研 医疗卫生 交通运输
应用
分类
统一协作 呼叫客服 IP语音 视频会议 智能管理 数据库
数字监控 信息安全 IP储存 移动应用 云计算 物联网

TOP

换个角度思考大数据存储问题
2013-09-24 15:35:34 来源:互联网 作者:【
关键词:大数据 存储
 
什么是大数据?IDC的权威定义为:满足4V(Variety,Velocity,Volume,Value,即种类多、流量大、容量大、价值高)指标的数据称为大数据。IDC对大数据技术的定位为:通过高速捕捉、发现和/或分析,从大容量数据中获取价值的一种新的技术架构。

  什么是大数据?IDC的权威定义为:满足4V(Variety,Velocity,Volume,Value,即种类多、流量大、容量大、价值高)指标的数据称为大数据。IDC对大数据技术的定位为:通过高速捕捉、发现和/或分析,从大容量数据中获取价值的一种新的技术架构。大数据主要涉及两个不同的技术领域:一项致力于研发可以扩展至PB甚至EB级别的大数据存储平台;另一项则是大数据分析,关注在最短时间内处理大量不同类型的数据集。这两个论题已经被充分讨论,这里不准备再作讨论,而是换个角度思考一下大数据,事实上可能与大数据存储平台更相关一点。这些需求或者思考,或源自用户模糊的需求,或源自存储同行的交流讨论,还有一些源自存储实践中的感悟。
    1、数据备份

    信息作为现代企业的核心资产,一旦发生数据损坏或丢失,小则带来不同程度的经济损失,大则关系企业生存。因此,现在企业对重要数据备份都不得不高度重视。在大数据之前,企业需要备份的数据量通常在GB级-数十TB级之间,上百TB的数据量的企业非常之少。这些数据往往都是Oracle/DB2/SQLServer等数据库的结构化数据,以及FTP/CIFS/NFS等文件共享服务的非结构化数据,目前诸如Symantec/Falcon/CommVault/EMC/Eisoo等公司的备份系统都可以很好地满足普通的备份需求。然而当遇上大数据,它们是否仍然可以满足备份需求呢?大数据容量很容易达到数十TB级以上,数百TB甚至PB级的案例也不再鲜见,而且这些数据种类多、流量大,都是新增数据。从备份技术角度看,全备份/增量备份/差异备份的备份窗口会很大,CDP的并发I/O捕获和处理能力要超强,否则大量数据都来不及备份。从备份数据量看,备份所需要的存储空间至少生产数据量的一倍以上,这个成本是巨大的。还有重点的一点是,大数据通常都是分布式采集、存储和处理的,实现统一的数据备份对备份系统是个技术挑战。或许,大数据天然不合适采用备份技术,而需要由存储系统本身的机制来解决,诸如多版本(multi-vesion)、写新地址(WriteAnyWhere,可实现自然的快照)等。

    2、长期存储

    信息有生命周期,金融/商业/财务/通信/法律等很多数据都需要遵从法规保存相应年限,一些重要的科学实验数据和历史资料甚至要永久保存。大数据作为现代企业有重要价的资产,长期保存基本都是必要的,比如10-20年甚至永久。长期存储,看似很简单的事情,实际上有很多问题需要解决。几百个TB或者PB级的大数据,假设是非活动的历史数据,采用什么介质进行存储?磁盘,磁带,还是光盘?采用离线还是近线方式?如何监控巨大数量存储硬件设备的状态?采用什么方法来保证海量数据的完整性?如何发现长期存储中的问题并修复?需要的时候如何简便快速地查询和获取数据?另外,还需要考虑存储所占用空间和能耗问题。面对这些问题,我们就会发现大数据长期存储也是一个很大的挑战,一方面需要提高存储介质的持久性、智能性、可靠性等,另一方面需要信息生命周期管理系统进行完善的管理和监控。

    3、数据查询

    数据访问是存储系统最基本的功能之一。传统的数据访问方式,都是根据文件名来定位和访问数据。文件名标识具有一定的表意性,但非常不足,很难通过文件名对数据本身的内容和特征进行理解。这种查询访问语义非常差,需要用户给出准确的文件名,否则就无法进行定位和访问。随着文件数量的不断增加,它将给用户对数据的访问带来很大的困难。现实世界中,人们主要根据事物的特征记忆和区分不同的事物,而非简单的名字。在实际应用中,如果能够提供基于文件属性和内容的数据访问方式,丰富的语义将会极大地增加数据的表意性,从而大大方便用户的使用,提高数据访问效率。Internet中,用户在Web搜索引擎(如Google,Baidu)中输入内容关键字就可以查询到自己想要的数据。数据库系统中,使用SQL语言查询记录,可以指定相关条件对查询记录进行筛选。由此可见,与传统的数据访问方式相比,基于数据内容和属性的数据访问方式具有很强的语义,能有效提高数据定位和访问效率,可以很大程度上降低用户的使用复杂性,适合于各种数据存储系统,尤其是分布式存储系统。目前,自然语言处理和WEB语义网络都有了长足的发展,大数据管理中如何能实现基于语义的数据访问方式,不仅可以提高了查询效率,而且符合人们的思维模式,能够提供更加友好的数据访问界面。

    4、绿色归档

    由于法规遵从或长期存储的需要,数据根据生命周期管理需要进行归档处理,采用方法有磁带归档、磁盘归档、光盘归档、CAS系统归档等。大数据数据量大,如果采用磁盘介质进行归档,磁盘数量会很多,正常工作下能耗也是相当可观。为了降低能耗实现绿色归档,同时有效延长磁盘使用寿命,需要考虑相关高效存储技术,包括MAID、SemiRAID、数据压缩、重复数据删除、自动精简配置等。这些技术主要从两个方面着手,一是精减数据量以减少磁盘介质达到降低能耗的目标,如数据压缩、重复数据删除、自动精简配置,二是控制磁盘介质状态(高速、低速、停止)或减少活动磁盘数量来实现降低能耗和延长寿命,如MAID和SemiRAID。SNIA相关组织专门研究绿色存储技术,包括提到的上述各种技术。

    5、统一存储

    大数据种类多,涵盖了结构化数据、非结构化数据以及对象数据,分别采用数据块接口、文件接口和对象接口进行访问。目前的大多数企业还没有将三者统一起来,采用不同的存储系统来管理这三类数据,在大数据快速增长的压力下,带来存储利用效率低、管理复杂性高、成本不断提升、资源整合程度低等一系列问题。在这些因素驱动下,统一存储概念得到复兴,SAN/NAS统一存储得到各大存储厂商推崇并相继推出产品,对象存储也有望被一同整合到统一存储中。如此一来,就可以使用统一的存储来管理大数据,统一规划和整合资源,提高存储资源利用率,简化管理和降低总体成本。

    6、存储介质寿命管理

    大数据存储系统具有成千上万块磁盘很常见,可能包括FC、SAS、SATA磁盘,还有可能包括SSD固态硬盘和磁带等存储介质。这么大数量的存储介质,每天坏上一两块盘的概率是非常的,不可控制的故障发生会影响前端大数据应用。存储介质的使用年限都有标准,可以基于此进行存储介质寿命管理,结合实际环境进行适当调整,并根据存储介质运行状态进行分析和故障预测。当存储介质使用寿命即将到达,或者预测到故障即将发生,则主动通知管理员对存储介质进行更换,之后有系统自动进行数据重建。如此,可以有效降低存储介质发生故障的随机性,增强故障的可管理性,再结合人为的调度,就可降低或者避免故障发生对大数据应用的影响。

    7、磁带存储

    一直都有人在预测磁带已死,不过可惜的是,直到目前这个预测还没有成真。

  相比磁盘,磁带具有成本、寿命、能耗等特性和优势,另外磁带技术本身也在不断发展,比如新一代LTO5的磁带写入速度达到180Mb/s,未压缩容量提升至1.6TB,保证磁带仍然是最适合做为长期的数据归档保存之用,这些特性是磁盘所无法取代的。关于磁带在大数据中的使用,最为典型是做数据归档,比如上面谈到的长期存储和绿色归档,这里面的数据基本不会被访问。另外还有一种形式是分级存储HSM,磁带、磁盘、SSD固态硬盘、内存形成四级存储,数据按照活跃程度在不同级别存储介质之间流动,以实现较高的性价比。HSM中位于磁带的数据会被访问,只是频率和概率非常低。由于磁带自身的优势以及不断发展,它可能不但不会消亡,反而会在大数据时代重获新生。

      

责任编辑:admin
免责声明:以上内容转载互联网平台或企业单位自行提供,对内容的真实性、准确性和合法性不负责,Voipchina网对此不承担任何法律责任。

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部

上一篇IT存储与传统存储的不同市场方案
下一篇如何避免存储成为制约高清发展的..

热门文章

图片主题

最新文章

相关文章

广告位

Copyright@2003-2009 网络通信中国(原VoIP中国) 版权所有
联系方式:503927495@qq.com
  京ICP备05067673号-1 京公网安1101111101259