硬件故障在大型数据中心和云服务基础架构中非常常见。
这些故障可能导致违反服务水平协议(SLA),并造成巨大的经济损失。
内存故障是当今数据中心中最严重的硬件故障之一。
众所周知,它严重影响系统的可靠性,可用性和可维护性(RAS)。
这些故障可能是由超出正常使用范围的多种因素引起的,包括制造缺陷和极端的环境或操作条件。
尽管通常接受的技术包括纠错码(ECC)和可纠正的错误,但是基于阈值的预测性故障分析(PFA)可以克服双列直插式内存模块(DIMM)的一些可纠正的错误,但它们对成本有影响。
,可靠性,覆盖范围和性能。
可纠正错误的数量激增会导致服务器性能下降,甚至导致拒绝服务。
此外,ECC和基于阈值的可纠正错误PFA无法帮助克服不可纠正的错误,例如经常导致崩溃的灾难性故障。
对于严重依赖服务器可靠性,可用性和可维护性的组织,英特尔内存故障预测(IntelMFP)是理想的解决方案。
对于当今的数据中心,提前预测未来的内存故障已变得至关重要。
通过分析历史数据以预测潜在的灾难性事件,英特尔®MFP可以在内存故障事件发生之前对其进行预测。
该解决方案具有许多创新和原始功能。
它根据历史数据预测行,列和单元格中的微故障,并使用低开销的在线学习方法来提高其预测精度并避免干扰关键的计算任务。
这也使IntelMFP能够为活动的内存故障管理生成估计的内存运行状况评分,从而使用户能够采取相应的措施。
英特尔MFP与供应商无关,可以与其他数据中心管理解决方案(包括英特尔数据中心管理器(IntelDCM))一起使用。
将与内存故障相关的服务器崩溃减少40%在腾讯的案例研究中,对英特尔MFP算法的初步协作测试显示出快速的结果,并将内存故障和系统停机时间减少了五倍。
合作伙伴还通过明智地避免了操作系统级别的内存故障直到更换了内存模块,从而扩展了此支持。
在与美团的类似案例研究中,该公司发现由于内存错误而导致的服务器崩溃减少了40%。
该公司通过将IntelMFP集成到其现有的数据中心管理解决方案中来监视服务器内存模块的运行状态。
通过分析以前由其数据中心管理软件收集的数据,他们能够为每个DRAM模块生成预测分数,然后采取适当的措施来维持其SLA并最大化服务正常运行时间。
借助新功能,英特尔与全球领先的AMI合作,通过其BIOS,BMC和安全解决方案为全球互连的数字基础架构提供电源,管理和保护,并决心将这种支持扩展到整个行业。
由于捕获和分析内存错误需要UEFI和BMC固件之间紧密连接,因此AMI致力于使Intel MFP易于被现有和将来的服务器平台采用。
发现错误后,它们将由BIOS记录,然后某些元数据信息将传递到BMC固件。
然后,BMC固件将获取此元数据,并通过Intel MFP引擎运行它以计算内存模块的运行状况得分。
当检测到新错误时,AMI解决方案将跟踪每个内存模块的运行状况得分,并将结果发布给系统管理员进行分析。
AMI的默认实现在BUI WebUI中提供当前的内存模块运行状况得分信息,并通过遵循DMTF Redfish标准的RESTful API公开相同的内存运行状况得分信息。
RESTfulAPI可以轻松地与现有的数据中心管理软件集成。
但是,对于那些不愿意与自己的软件集成的数据中心,AMI提供了一个称为AMIComposer的数据管理工具,该工具的开发完全符合IntelRackScaleDesign和DMTFRedfish标准。
它将汇总所有信息并通过基于Web的仪表板。
给数据中心和云服务提供商带来的直接收益当然,当创建机器学习算法时,它实际上是不会做的。
当前的Intel MFP模型支持在具有Intel Xeon可扩展处理器的平台上运行的DDR4内存模块,并且Intel继续收集有关内存错误和内存模块故障的更多信息,以改进该模型。
此外,当新的内存模块类型引入行业或进行改进时,