专业的信息化与通信融合产品选型平台及垂直门户
注册 登陆 设为首页 加入收藏
首页 企业新闻 招标信息 行业应用 厂商专区 活动 商城 中标信息

资讯
中心

新闻中心 人物观点
厂商专区 市场分析
行业
应用
政府机构 能源产业 金融机构
教育科研 医疗卫生 交通运输
应用
分类
统一协作 呼叫客服 IP语音 视频会议 智能管理 数据库
数字监控 信息安全 IP储存 移动应用 云计算 物联网

TOP

开源大数据平台实施和使用中的难点
2016-04-06 17:04:12 来源:51CTO 作者:【
关键词:大数据 平台 难点
 
开源大数据技术是一种新一代技术和构架,它以成本较低、以快速的采集、处理和分析技术,从各种超大规模的数据中提取价值。大数据技术不断涌现和发展,让我们处理海量数据更加容易、更加便宜和迅速,成为分析和挖掘海量数据价值的一个利器,甚至可以改变许多行业的商业模式。

  开源大数据技术是一种新一代技术和构架,它以成本较低、以快速的采集、处理和分析技术,从各种超大规模的数据中提取价值。大数据技术不断涌现和发展,让我们处理海量数据更加容易、更加便宜和迅速,成为分析和挖掘海量数据价值的一个利器,甚至可以改变许多行业的商业模式。
  庞大的开源大数据技术体系,使得大数据平台在实施和使用的过程中遇到很多难点,Think Big团队总结了在开源大数据平台设施的整个过程及花费的时间,如下图所示:

  大数据平台的优化和运维
  大数据平台的优化和运维应该是开源大数据平台实施的难点、也是构建大数据平台对人员的技术和经验要求最高的阶段,贯穿整个大数据平台实施过程。
  大数据平台的数据整合、数据治理和数据湖
  对于传统的企业使用大数据平台,数据整合、数据治理和数据湖也是非常重要和比较困难的阶段,全公司不同数据源之间的数据整合面临:数据的一致性、数据的完整性、数据的准确性、数据的安全等问题如何解决,当然还有不同数据(如:冷数据、温数据和热数据)怎么来存放,进而实现高效的数据存储和分析。这些都是我们在大数据实施过程中需要花很多时间和经验来实现的,很多的公司基本上都在直接或间接的使用大数据技术,有可能感觉大数据整合、治理、数据湖没有那么重要,把功能实现了,就觉得把大数据平台用的非常好了,其实不然,就像我上面提到的那张图,功能的实现只占大数据平台实施的一小部分。
  大数据平台上面的数据建模
  由于大数据平台面临数据的一致性、数据的完整性、数据的准确性等问题所以导致大数据平台上面的建模变得比较困难,此外还有不同行业面临的大数据平台建模问题各不相同。传统行业在大数据上面的建模面临的挑战还是非常多的,有的模型甚至不适合在开源大数据平台上面建模,不要一味的去和互联行业大数据平台上面的应用做比较,因为,互联网的业务比传统的业务模型简单很多。
  数据挖掘和算法的实现
  大数据平台的数据挖掘技术有Hadoop的Mahout、Spark的Mllib、SparkR等,这个现有的挖掘库存在很多问题,如:分布式计算。对整个团队的人员要求非常的高。
  应用开发(类似于传统EDW的BI功能)
  类似于在Hadoop上面实现一个传统的EDW的功能,常见用的比较多的就是SQL on Hadoop技术,如:Hive、Impala、Tez、Presto、Kylin、SparkSQL等。
  大数据平台的选择和搭建
  主要是Apache Hadoop、Hortonworks HDP和Cloudera CDH的选择,Apache Hadoop是纯开源的,Hortonworks HDP是开源Hadoop生态系统的管理,Cloudera CDH是开源Hadoop生态系统的增强。

      

责任编辑:admin
免责声明:以上内容转载互联网平台或企业单位自行提供,对内容的真实性、准确性和合法性不负责,Voipchina网对此不承担任何法律责任。

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部

上一篇“大存储”将如何影响数据中心之..
下一篇CarterValidus投资2400万美元收购..

热门文章

图片主题

最新文章

相关文章

广告位

Copyright@2003-2009 网络通信中国(原VoIP中国) 版权所有
联系方式:503927495@qq.com
  京ICP备05067673号-1 京公网安1101111101259