专业的信息化与通信融合产品选型平台及垂直门户
注册 登陆 设为首页 加入收藏
首页 企业新闻 招标信息 行业应用 厂商专区 活动 商城 中标信息

资讯
中心

新闻中心 人物观点
厂商专区 市场分析
行业
应用
政府机构 能源产业 金融机构
教育科研 医疗卫生 交通运输
应用
分类
统一协作 呼叫客服 IP语音 视频会议 智能管理 数据库
数字监控 信息安全 IP储存 移动应用 云计算 物联网

TOP

Google新技术 世界级数据中心服务器监控
2013-04-25 10:29:05 来源:pconline 作者:【
关键词:服务器 CPI 处理器缓存 Google
 
据媒体报道,近日搜索巨头Google公司宣布推出一种新的技术,可实现对世界级数据中心服务器的监控。这一项技术使得Google公司可以监控世界范围内每台服务器上的每个任务,其最终目的是通过这些数据有选择对进程进行干预、甚至是关闭该进程让同CPU上的其它进程得以运行,以实现资源的最优化匹配。

  据媒体报道,近日搜索巨头Google公司宣布推出一种新的技术,可实现对世界级数据中心服务器的监控。这一项技术使得Google公司可以监控世界范围内每台服务器上的每个任务,其最终目的是通过这些数据有选择对进程进行干预、甚至是关闭该进程让同CPU上的其它进程得以运行,以实现资源的最优化匹配。

  Google公司在技术论文中详细地描述了这一世界级监视技术的实现方法,而这也引起了使用大型基于Linux云计算基础设施的机构的浓厚兴趣。

  Google公司在论文中对该技术的描绘如下:

  性能隔离是云计算的主要挑战。不幸的是,Linux缺少对共享资源(比如:处理器缓存、存储器总线等)中性能干扰的防御;这样的话,公有云中的应用程序将无法避免来自邻居们的干扰。

  CPI方案使用从硬件性能计数器获得的CPI(cycles-per-instruction,平均指令周期数)数据检测问题,中断或者关闭“问题”进程从而达到预期的效果,当然它会根据相同作业中大量任务数据认知这个任务的反常与否。

  本质上讲,CPI让Google可以在集群上万个CPU核心中隔离单个核心上的单个性能低下任务,对这个任务进行检查并进行操作,而造成的CPU开销甚至不到0.1%。它并不需要特殊的硬件支持,唯一的软件依赖恰是使用Linux。

  CPI允许Google收集任何指定指令的预期CPU CPI,从这些数据中分析出标准的资源配置文件,然后使用这些标准的配置文件去帮助网络巨头确定哪些任务比一般情况下耗费了更多的CPI,从而解放与这些任务使用相同CPU的其它进程。

  Google称,其绝大多数机器上都运行着多任务。作业的处理类型分为实时处理和批处理两种,同时这些作业由大量的任务组成。Google服务器上96%的任务都会与至少10个的任务组成一个作业,而87%左右的任务会与100或以上的任务组成一个作业。

  但是这些任务可能会相互干扰,导致处理器缓存和内存分配问题,造成应用中的某个任务延时飙升——这正是Google不惜一切代价都想避免的问题。

  为了实现任务流下每个处理器的控制,Google使用CPI监视所有运行的服务器。通过测量处理器硬件计数器,然后用CPU_CLK_UNHALTED.REF除以INSTRUCTIONS_RETIRED来获得CPI数据。

  通过计算模式下的perf_event工具,Google每分钟都会收集一个长为10秒周期的数据。系统中总CPU的开销低于0.1%,并且不会对延时产生影响。

  因为集群需要跨大量的平台运行,CPI的目的在于体现各种平台下的CPU运行情况。CPI的值通过每台机器上的agent进行本地分析和测量。agent通常会被给予作业中任务预期最常见的CPI分布,所以它可以独立的分析出运行的正常与否。

  如果agent发现有“victim”任务受到影响变得缓慢,它将会每秒一次的对“antagonist”任务进行干涉。agent会使用一个算法来判断“antagonist”任务的CPU占用增加与“victim”任务的迟缓是否曾在关系,依据的则是指令的周期数。

  如果agent识别了一个“antagonist”并发现它是个批量作业,系统将会“通过CPU hard-capping来强制减少‘antagonist的CPU占用率’”。

  鉴于CPI和Omega论文的联合作者中都有John Wilkes,Google很有可能是通过Omega(Google大型基础设施管理系统的一个组件)给agent发布任务。

  “antagonis”任务的配置文件与CPI数据进行的是离线的记录和存储,这样管理员就可以通过Google的主要网络分析工具Dremel进行查询。

  Google工程师使用Dremel进行性能取证,用以确定“antagonists”任务,在将来他们可能为“antagonists”任务重新制定策略,让它们在单独的主机集中运行,然后使用这个调度进度来彻底的避免这个问题。

  其中有一个需要改进的方面是处理多个“antagonists”,它将会复杂化算法;另一个则是为capping任务建立的反馈途径。

  论文中写道:“即使这两方面还未改善,但是CPI是个强大的、实用的工具。”

  使用CPI获得应用性能可行信息的开销比Google其它方案来的更少,这里还存在一个被称为“Google-Wide Profiling”可同时对硬件和软件性能进行追踪的平行技术,但是只在Google小范围的进行使用。

  从整体上看,CPI提供的不只是管理,更倾向于让集群运行的更加稳定、效率。如果你在执行搜索或者查看Gmail、通过Google服务查找地址时发现比平常需要更多的时间,那么你可能就会被CPI冷酷及无情的当做是“antagonists”。

      

责任编辑:admin
免责声明:以上内容转载互联网平台或企业单位自行提供,对内容的真实性、准确性和合法性不负责,Voipchina网对此不承担任何法律责任。

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部

上一篇中国第6大商业银行采用Teradata天..
下一篇甲骨文向其Sparc系统引入数据中心..

热门文章

图片主题

最新文章

相关文章

广告位

Copyright@2003-2009 网络通信中国(原VoIP中国) 版权所有
联系方式:503927495@qq.com
  京ICP备05067673号-1 京公网安1101111101259