浪潮自研SSD:如何实现260万小时连续运行?

转载 美通社 | 2021-09-16 18:16
MTBF(Mean time between failures,平均无故障时间)作为SSD闪存盘一个非常重要的可靠性参数指标,当前市场主流企业级产品指标值基本在200万小时,浪潮自研SSD经过一系列内置创新算法加持,MTBF可以达到260万小时以上,比业界标准提升30%以上。 什么是MTBF? ......

浪潮存储产品经理:宗岗岗
浪潮SSD架构师:殷军博

北京2021年9月16日 -- MTBF(Mean time between failures,平均无故障时间)作为SSD闪存盘一个非常重要的可靠性参数指标,当前市场主流企业级产品指标值基本在200万小时,浪潮自研SSD经过一系列内置创新算法加持,MTBF可以达到260万小时以上,比业界标准提升30%以上。

什么是MTBF

在解读MTBF之前,我们先了解下浴盆曲线概念,浴盆曲线又称失效率曲线,指产品从投入到报废为止的整个生命周期内的可靠性变化规律,左边斜线部分为早期失效期,其故障率一般较高且随着时间推移很快下降。曲线中部为随机失效期,其故障率一般很低且基本固定。最右部为磨损失效期,失效率急速升高。 

电子产品的寿命一般都符合浴盆曲线,可分为三个阶段: 

其一早期失效期,失效率迅速递减并趋于稳定,由于设计,原材料,生产等原因导致的高失效率阶段,可通过环境应力筛选加以剔除。

其二,随机失效期,失效率近似一个常数,只有随机失效产生,MTBF即是这一阶段的寿命。 

其三磨损失效期,硬件故障期,产品已达设计寿命,进入报废阶段。

【图】

MTBF,即平均故障间隔时间,英文全称是“Mean Time Between Failure”,是指相邻两次故障之间的平均工作时间,是衡量一个产品的可靠性指标,单位为“小时”。MTBF越长表示可靠性越高,保持正确工作能力越强。它反映了产品的时间质量,是体现产品在规定时间内保持功能的一种能力。它仅适用于可维修产品,当产品的寿命服从指数分布时,失效率的倒数表示两个失效之间的时间间隔(λ=1/MTBF)。

MTBF测算方法

MTBF主要通过实证法采用加速应力方式来证明产品长期可靠度,RDT(Reliability Demonstration Test,可靠度验证测试)测试主要通过高温加速测试计算评估,从测试深度、广度、持久度三个方向进行测验。

深度测试是Endurance测试,使用JEDEC标准固态硬盘耐久性工作负载,PE(Program/Erase,擦写)值从开始到预允许最大值验证耐久度,即从生命周期开始到生命周期结束,浪潮自研SSD投入上百块数量持续测试时间达到1600小时以上。

广度测试是Quality测试,主要通过读、写、数据校验、Trim、Format以及正常和异常上下电等所有用户可能的操作,验证各种操作Case下的稳定性,浪潮自研SSD共计投入上千块样品持续测试时间高达1600小时以上。

持久度测试是Retention测试,在SSD闪存盘生命末期,寿命PE次数达到允许的最大值之后,投入上百块SSD进行Power loss retention测试以验证掉电后的数据保持能力。

MTBF数学公式表示为MTBF=∑(downtime-uptime)/failure times,公式中的失效时间是指上一次设备恢复正常状态(公式中的up time)起,到设备此次失效那一刻(公式中的down time)之间间隔的时间。浪潮自研SSD经第三方机构测评计算MTBF可以达到260万小时以上,PE可达到10K级别,寿命和可靠性都得到了大幅提升。

核心技术引擎

浪潮自研SSD凭借NAND特性算法、SRR(Smart Read Retry,智能重读算法)、LDPC(Low-Density Parity-Check Codes,低密度奇偶校验)、可变条带RAID5四大核心算法技术引擎支撑,使得MTBF轻松达到260万小时。

第一,NAND特性自学习算法模型。

【图】

基于浪潮自研NAND测试平台精准获取最佳NAND特性数据,创新设计NAND特性自学习算法模型,针对擦除次数、读计数、温度、保持时间不同场景下获取NAND最佳读电压,使得PE提升40%,固态盘可靠性和Qos大幅提高。

第二,智能重读算法SRR

受限NAND闪存特性会出现正常读发生错误的现象,为了能够读取到正确数据,浪潮SSD内部使用了智能重读算法,当读取数据错误时,会自动触发智能重读,根据不同page状态,选择合适的shift电压,全生命周期内保证正确读取和优质的Qos。

【图】

第三,低密度奇偶校验LDPC

目前市场主流SSD主要采用3D eTLC NAND 闪存作为主要存储介质,受限NAND闪存物理结构会存在读写干扰、高温、辐射、寿命减少等问题,RBER(原始比特出错率)会随着磨损次数、Retention和读干扰增加而逐渐变大。为了保证数据准确性,浪潮自研SSD采用软硬协同的LDPC作为纠错方案,凭借增强型LLR(Log Likelihood Ratio,对数似然率) table,能够显著降低UBER(Uncorrectable Bit Error Rate,不可修复比特率),增强 ECC(Error Correction Code,纠错码)码的纠错能力。

【图】

第四,可变条带RAID5

浪潮自研SSD设计了针对Block的健康状况进行严密的监控和记录的可变条带RAID5保护机制,采用N+1个Block组成RAID条带,其中N用于存放用户数据,1个Block用于存放校验值。当出现坏块时,RAID条带在下次写入时将自动将为(N-1)-1,这种优化大大提升了RAID保护的灵活性,增强了数据保护的可靠性。

【图】

浪潮自研SSD通过底层一些关键核心算法的创新,产品可靠性和安全性不断实现突破。未来,浪潮存储将持续秉承“云存智用 运筹新数据”理念,加速推进底层存储介质研发和创新,掌握底层硬件关键核心技术,以领先技术助力关键行业实现突破应用,全面释放数据价值,加速数字化转型。

更多浪潮自研SSD相关信息,请查看:

来源:美通社


用户名:  密码:  没有注册?
网友评论:(请各位网友遵纪守法并注意语言文明,评论仅供参考不代表本站立场)