现代数据中心基础设施愈发复杂、各组件之间的依赖关系也更加紧密,我们很难预先判断某一组件出现故障时会对全局造成何种影响。
随着现代基础设施技术在性能上的不断攀升,其复杂性与各组件之间的依赖关系也变得更加紧密。这种变革一方面使IT部门的日常工作更加轻松高效,却也同时令故障更加难以梳理与排查--某些故障甚至可能需要经过数月甚至数年才被检测出来。
过去,一套典型的企业数据中心可能包含多台服务器、某些机顶式及机底式网络交换机设备外加一些大型存储阵列。这类环境中各设备间的关联性显而易见:服务器的正常运作依赖于网络与存储机制的可用性。而网络与存储(及存储相关网络)则相对较为独立。
如今,情况则完全不同。服务器虽然依旧存在,但刀片式机架的广泛普及为我们带来内置融合型网络体系、且将局域网与存储的连通工作纳入其中。而存储机制则作为附加设备直接接入整个体系。除此之外,融合型网络的某些关键性功能还可能需要借助刀片服务器上运行的软件方可正常起效。更为复杂的是,如果使用基于IP的存储方案,即使是访问存储内容这样简单的诉求也需要涉及数据中心内的所有组件。
大家很可能在尚未明确认知的情况下建立起这样一套环环相扣的循环依赖体系。如果运气不好,我们往往会在大量组件出现问题后才意识到设计中存在的严重缺陷。要想真正避免这种循环依赖性的出现,我们需要拿出大量时间阅读说明文档、通过图表理解设备的依赖关系,并通过严格测试验证自己的构思。