错误的闪存存储:5个最常见的问题点

1887 字丨阅读本文需 5 分钟

在过去十年中,NAND闪存已经成为存储和访问各种数据的最受欢迎的设备,从视频记录和流媒体、个人存储、操作系统的提供到数据记录、应用加速等等。创新速度在速度和存储容量方面都有多因素的提高。

唯一减少的方面,至少从总体上说,是可靠性。由于新产品的推出周期非常短,只有几个月的时间,不再有时间去充分测试和验证复杂的功能。因此,不成熟的产品进入市场,后来依靠在现场的多次固件更新来消除客户测试所发现的问题。

在大多数情况下,这种情况没有公布,NAND存储的问题也没有在受影响的公司之外分享,除非损害影响到更多的公众。例如,特斯拉最近不得不召回13.4万辆汽车,原因是一个尺寸不足的嵌入式多媒体卡(eMMC)的早期故障。

关于固态盘(SSD)的故障,我们需要考虑两个主要方面:硬件和固件。

硬件定义了原始比特错误率(在通过纠错单元之前有比特错误的块读数的百分比),单元的数据保留,以及支持的温度范围。固件需要管理闪存的平等磨损,执行位错误校正,并减轻温度数据影响和电源损耗问题。

下面是涉及到NAND闪存问题时的五大错误原因。

1. 错误的NAND质量。

NAND闪存是一种商品,需要保持每千兆字节的低成本。许多发展(3D NAND,QLC)主要是由这个目标驱动的。对于手机和个人电脑/笔记本电脑的使用,消费者质量的NAND已经足够。但对于要求更高的应用,如企业存储或工业/网络和通信应用,就不是这样了。

标准化联盟JEDEC已经定义了两个主要的使用案例及其各自的质量要求。

客户端用例。PC用户类型的工作负荷,8小时/天,40°C,不可更正的错误率(UBER)< 10-15

企业用例。数据库类型的工作负荷,24小时/天,55°C,不可更正的错误率(UBER)< 10-16

10-15和10-16似乎都是极低的数字,但这一差异意味着客户机硬盘的故障频率比企业级硬盘高10倍。随着现代固态硬盘的高吞吐量,固态硬盘的故障概率不再是可以忽略不计的。

今天的NAND闪存的原始比特错误率,低级别的在10-2之间,高级别的技术在10-3之间。各种水平的纠错将UBER率降低到要求的UBER水平。闪存质量等级和错误处理水平对销售价格有直接影响。作为一个一般规则。不要把廉价的商业级SSD放在需要低错误率的应用中。

2. 错误的NAND设计。

三维NAND单元是一个由许多层组成的高度复杂的堆叠。目前,一些设备有超过140层。制造时需要在数百个多晶硅和氧化硅沉积物的夹层中蚀刻非常薄但又非常深的孔。由于蚀刻的性质,孔的下半部分比上半部分窄得多,导致晶体管的电气性能不同。这使得可靠地读取不同的单元非常具有挑战性。再加上读取和写入之间的温度变化,又增加了一个变化的维度。

并非每个NAND设计都能在写入和读取之间的温度变化时提供足够好的数据。只要固态硬盘产品驻扎在热控制良好的系统中--例如,在个人电脑、笔记本电脑、服务器或手持设备中,温度变化太小,不会造成问题。

对于工业或网通应用,对NAND的要求大大增加,NAND的设计和支持固件都需要支持广泛的温度波动。一旦系统必须在温度波动的条件下运行,闪存产品的错误选择会导致多种问题。

3. 错误的机械稳定性。

听说过热-机械应力吗?当温度波动影响到结合了不同热膨胀系数的元素的结构时,就会发生这种情况,也就是说,在相同的温度变化下,一些部件比其他部件延伸得更多。

一块固态硬盘由一块PCB板组成,上面有焊接好的闪存包、一个控制器、连接器和小型被动元件。所有这些都随着温度的变化而表现得不同。由于封装是焊接在PCB上的,不同的膨胀导致机械应力,最终导致互连线断裂(图1和2)。

图1. 由于热应力导致球与 PCB 连接损坏

图2. 由于热应力,PCB 顶层开裂。

这种损害是在数百到数千次的温度循环后发生的,甚至可能需要数年时间。但当涉及到长期在现场的工业系统时,它就非常重要了。

4. 电源故障稳健性。

对于一个总是优雅地关闭的笔记本电脑来说,电源故障鲁棒性不是问题。对于一个简单地拔掉插头的医疗设备,或者在电源不稳定的环境中的NetCom路由器,突然断电一定不会导致系统损坏。

突然断电可能在任何时候发生--在外部写入SSD的过程中,在内部垃圾收集过程中,在固件更新过程中,甚至在从以前的断电恢复过程中。如果固件不能正确管理电源损失,将影响数据损失的严重性。最好的情况是,它只是最后写入的数据(实时数据);最坏的情况是,固件被损坏,固态硬盘不再工作。在许多关键任务的应用中,丢失哪怕是几个比特的数据都是不可接受的。

Swissbit对市场上常见的SSD进行了测试,在断电测试中看到了各种类型的故障发生。

5. 错误的固件架构。

速度很重要,至少对于消费类硬盘而言。此外,速度测试通常是在硬盘是新的、空的、刚格式化的时候进行的。通常不考虑的是,当硬盘100%装满,多次被覆盖,或者可能在高温下运行时,还有多少性能。许多现有的固件架构关注的是性能规格,而不是在整个操作范围内的最高耐久性或保留或持续性能。

选择一个没有为长期使用而优化的固态硬盘,一旦硬盘的早期寿命过去,可能会导致不好的意外(图3)。

图3. 高温下写入数据适度节流。

结论

选择正确的SSD或NAND闪存产品取决于许多标准。特别是当涉及到工业用途或苛刻的应用时,决策过程中应包括以下几个方面。选择合适的组件、机械结构、固件架构和电源故障的稳健性。这样做是找到一个可靠的数据存储设备的最好方法,可以在很长的使用寿命内存储和检索数据。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:微观人
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...