“数据铸就价值,激情源于碰撞”来自英特尔中国研究院院长吴甘沙与Hadoop之父Doug Cutting以及Cloudera公司副总裁苗凯翔近日分享了大数据的一系列心得体会。IT产业界常常是某个趋势或概念各领风骚三五年,自云计算一两年前开始从概念走向落地后,大家热议的主角,就换成了大数据。
英特尔携手Cloudera释放大数据价值
大数据价值挖掘挑战犹存
大数据是社会的物质基础,数据只大是没有用的,价值大才有意义。让大数据释放价值必须得通过开放的、协作的创新。然而,从数据当中提取价值存在诸多挑战。吴甘沙认为,首先数据体量之大使得我们要改变一种思维方式,用数据全集的完备性来取代数据的采样,这样我们可以避免帕累托法则带来对于小概率事件的过滤。这样使得我们能够倾听每一个个体的声音。第二,数据的价值跟它的寿命成反比,当数据刚刚产生的时,价值是最大的,随着时间的延续,它会蜕变到只有集和的价值,所以如果能够实时的从数据当中提取价值,并且跟历史的智慧结合起来,形成知前后,万物皆灵这样一种权势的价值,是一种非常大的挑战。第三,怎么能够权衡精确性以及可扩展性,大数据要倾听每一个人的声音,而传统的机器学习算法会把把小概率事件,把长尾事件过滤掉。如何采用新的分析算法,能够把这些真正的信号能够提取出来同样是很大的挑战。
大数据要说人话,它要提取人能够理解的价值,如何让数据的工具与数据科学家、领域专家、终端用户天人合一,降低数据分析的门槛,这是巨大的挑战。用户不愿意分析数据源于两方面的原因,一是对数据安全的焦虑,二是分享数据后不知道如何去从中获得价值。英特尔试图在安全的、多方数据的分析能够取得突破。据悉,英特尔的“数据咖啡馆”就是希望能够让不同领域、不同公司的数据能够凑在一起产生新的价值。
英特尔让数据贴近生活
大数据研究过去几年主要是聚焦在三个领域,第一是数据跟机器的关系,能够让可扩展架构更好的存储和处理数据。第二是人和数据的关系。分析工具增强人的能力,增强数据科学家、领域专家和终端用户的能力。第三是数据跟数据的关系。
基于这些挑战,英特尔推出了大数据的分析框架。吴甘沙表示:“解决大数据的问题需要强大的计算力和基于开放架构的平台,这都是英特尔所擅长的,英特尔的目标,就是要让大数据说人话,而且相关的应用能够尽快平民化。”英特尔可提供强大的且能够进行软件定义的计算力,并在此基础上携手尽可能多的合作伙伴,打造出一个开放的,激励创新的大数据平台。“我们提出了大数据的分析框架,在最底层的是我们的开放架构基础设施,而且是可以实现软件定义计算、存储和网络的基础设施,我们把它们做成开放式的构建模块,使得整个行业进入大数据创新领域的门槛得以降低,让更多的创新者能够一起参与,一起构建标范性的解决方案,再把它变成可扩展的参考架构,使其能够被复制到每一个行业,每一家企业中去。”
据悉,今年3月底英特尔向Cloudera投资7.4亿美元成为其最大股东,更是让它们结成了大数据创新方面的亲密合作伙伴,“我们期望能通过Cloudera与英特尔的合作,来为大家开发更多的大数据工具,实现更为丰富的功能,弥补各个创新项目的空缺和彼此间的差距,让用户能够更有效地整合和利用数据,并从中获益。”
Cloudera
Cloudera是由四名来自非常重要的互联网公司和搞数据的公司资深人士于2008年成立的,Cloudera已经带头形成全球最大的大数据生态链,虽然公司人数只有800多人,但是由于它的技术领先地位,已经拥有1200个合作伙伴。在美国每天有约70%的智能手机的数据后端处理都是从Cloudera平台上处理的,每天都有数百亿的事件在后端处理,对美国经济、商业支撑,起到了重要的作用。苗凯翔在谈及双方合作最新进展时表示:“12月10日,中国的分公司——肯睿(上海)软件有限公司正式宣布成立,这标志着我们在与英特尔开展技术方面的合作研发之外,也将携手扩展中国本地市场。”
中国是一个很天然的大数据环境,人口众多。苗凯翔认为:“从发展的角度,大数据在中国跟美国相比要滞后两年。虽然概念并不陌生,但是它的部署和应用状态,真正能应用起来,商用可能要滞后两年的时间。”中国本土还没有一个公司能够把大数据去普及,借助于Cloudera在全球特别是在美国的应用案例,可帮助中国企业在智慧城市、电信、金融领域不断发展。Cloudera现在已经成为了业界的实施标准,其他公司用的是社区里定义好的工作。开源开放式的架构已经是标准化的,而Cloudera正在领导这个标准化的发展。
大数据平台至关重要
Doug Cutting透露,IBM、甲骨文、微软等大的厂商都达成一致,认为需要一个大数据的平台。从开源到产品到真正能够满足客户需求的产品,这里面需要过程,一定要将Hadoop的需求弄清楚。苗凯翔表示:“从应用场景到具体需求的点罗列出来,证明我们的方案能够满足客户需求。从工具、集成、软件开发等都有很多生态系统伙伴合作,我们会与合作伙伴来实现怎样能够真正满足需求。如果这个产品还需要改进的话,我们拿回去再到开发团队进一步改进,不断反复,直到最终拿到让整个业界去发展。在金融行业、电信行业、智慧城市、零售都有客户在频繁接触、讨论、倾听客户需求,并最终变成真正产品方面的方案去开发,然后反过来再提供给客户。”
英特尔正与Cloudera一起推动基于Apache Hadoop开放、可信的数据处理平台,推动整个生态基础的创新。在践行开放式的协作创新,英特尔正与Cloudera正着重从开放的基础设施、开放的数据平台和参考架构、开放的数据以及开放的跨领域等多方面进行合作。