人工智(zhì)能技术将极大地改变各(gè)行(háng)各业的面貌,企业级存(cún)储(chǔ)领域也是这样。
近几(jǐ)年,存储领域最火的软件定义(yì)存储、智(zhì)能(néng)存(cún)储等概念背后,都有一个关键词——智(zhì)能化。原因就在于,越来越多的企业已经意识到(dào),相比拥有数据而言,善于利用数据(jù)、从数据中获取价值,才是(shì)真正(zhèng)的竞争(zhēng)优势。
2019年下半年,IBM发布了一(yī)系列面(miàn)向(xiàng)AI与大数据、现代数据保护的新一代(dài)软(ruǎn)件定义存储产品,致力于借助AI技术,跨越时(shí)空(kōng)帮企(qǐ)业管好数据。
未来企业级存储的挑战是什么?什么是新一(yī)代(dài)软件定义存储?IBM存(cún)储(chǔ)的优势和策略又是什么?带着以上这些问题,趣味科技(jì)于近日(rì)采访了IBM副总裁(cái)、大中(zhōng)华区系统部(bù)总经(jīng)理侯淼(miǎo)和IBM大(dà)中华(huá)区(qū)系统部存储系统总经理(lǐ)吴磊。
新挑战:当数据活(huó)得越来越久
“数据的发展(zhǎn)有两大趋势:一个是(shì)数据越来(lái)越多,也就是大家都熟悉的(de)数据大爆炸;还(hái)有一个维度,就是数据的生命周期正在变得越来越长。”IBM副(fù)总裁、大中华区系统部总经理淼表示。
如果按使用(yòng)频率划分,数据可以用一张冰(bīng)山图来表示。露出水面的冰(bīng)山一角是(shì)一级存(cún)储(Primary Storage),针对(duì)热数据和温数据,比如(rú)需(xū)要高IOPs、低时延、高性能计算(suàn)分析的实时数(shù)据。冰山(shān)的(de)水下部(bù)分是二级(jí)存储(chǔ)(Secondary Storage),针(zhēn)对(duì)冷数据,比(bǐ)如用于归(guī)档、备份的数据、媒体与图像资料库(kù)、物联网(wǎng)数据等。有数据统计,二级(jí)存储约占企业存储的70%。
随着信息安全法规和(hé)金融、医疗等(děng)行业不断(duàn)加强数据监管,企(qǐ)业对数据留(liú)存时间的(de)要求越来(lái)越高(gāo),水面之下(xià)的冰山部分越来越大(dà)。2016年《反恐法》规定,重要场所(suǒ)视频监控图像保(bǎo)持期(qī)限不(bú)得少于(yú)90天(tiān)。银监会规定(dìng),理财产品的数(shù)据要(yào)在结束后的2年内进行保留归档。一些能源制(zhì)造企业,在生产环(huán)境下(xià)要求对数据有五年、十年,甚至数十年的保存。
数据爆炸与周期变长的叠(dié)加,以及AI和大数据进(jìn)入生产环境,都在不断推高企业对数据存储(chǔ)的(de)要(yào)求。IBM大中(zhōng)华区系统部存(cún)储系统总(zǒng)经理吴(wú)磊认为,企业(yè)级存储面(miàn)临的新挑战表现(xiàn)在多个方面:
首(shǒu)先,人工智能、大数据技术已经从POC(概(gài)念验证)环节进入(rù)生(shēng)产(chǎn)环(huán)节。在全新的应用(yòng)场景中,海量数(shù)据正(zhèng)源源不断(duàn)涌现。多元数据的(de)摄(shè)取,准备(bèi)的周期非常长(zhǎng)。
其次,越来越多的企业(yè)选择混合多云的环(huán)境部署业务(wù),如何把传统数(shù)据中(zhōng)心,传统应用,不同云环境等不同(tóng)IT环(huán)境的(de)数据(jù)打通是个大(dà)挑(tiāo)战。同(tóng)时(shí),面对不同架构多灾备的数据副本(běn),如何保证数据(jù)单一的真实性来源也是痛(tòng)点。
第三,如(rú)何保护数据在更(gèng)长久周期内的可用、可回溯性、可(kě)审计性。
如何解(jiě)决这些新挑战?IBM将(jiāng)存储(chǔ)产品从功能上划分为两大维度,一个是(shì)数(shù)据存储(chǔ),一个是数据访问。数据存储方面(miàn),IBM追求跨越时空和性价比。即使数据容量(liàng)涨(zhǎng)得很快(kuài),也(yě)能保(bǎo)持企业的(de)IT投资处在合理水平。在数据访问方面,强(qiáng)调用AI技(jì)术打造(zào)从数据获取价值的极(jí)速(sù)管(guǎn)道。
“IBM是(shì)全球存储产品最丰富的(de)公司。IBM存储分为四大(dà)部分(fèn):第(dì)一,storage for multi hybrid cloud,面向混合多云环境的(de)存储构架;第二,Storage for AI and Big Data,针对(duì)人工智能和(hé)大数据的(de)存(cún)储;第三,Modern Data Protection,围绕我们Spectrum Protection和Protection Plus软件系统的现代数据保护;第四,Storage for Z,与主机结合的存储(chǔ)。”侯淼介绍。
新管道:如何加速(sù)AI燃料充(chōng)分“燃(rán)烧”?
在(zài)算法(fǎ)、算力、数据三要(yào)素中,数据是AI的(de)燃料。反过来,“AI的关键是将(jiāng)数据转变为生(shēng)产力。”吴(wú)磊(lěi)指(zhǐ)出。
然(rán)而,在传统存储架构(gòu)下,从数据到生产(chǎn)力的(de)管道却(què)经常堵塞。比如在(zài)不(bú)同介质(zhì)、异构架构的元(yuán)数据源摄取上,如果无法做到全球(qiú)范(fàn)围、快速(sù)数据摄取和实时(shí)分析(xī),有再好的CPU、GPU、FPGA也无法(fǎ)发挥数据价值。再(zài)比如,在数据(jù)分类与元数据标(biāo)注上,数据的摄取(qǔ)、准备的周期(qī)非常长,极大影(yǐng)响了AI模型(xíng)训练的效率。也就是说,数据从(cóng)入口进来的太(tài)慢,已经成为AI技(jì)术落地的(de)一个瓶颈。
IBM本(běn)次(cì)发布了端到端的NVMe解决方(fāng)案IBM Elastic StorageSystem 3000(ESS 3000)以及(jí)元数据管理软件IBM Spectrum Discover,专为人工智能和大数据工作(zuò)负(fù)载打造。二(èr)者的组合(hé)打通了数据摄取、分类标(biāo)注、数据分析(xī)、数(shù)据训练在内的高速管道(dào),打造(zào)了适用于任(rèn)何高I/O吞吐的(de)生产级人工智能(néng)大(dà)数据分析平台。
ESS 3000被称为“为AI和大数据实现快速(sù)、高度可扩展(zhǎn)存储部(bù)署(shǔ)的最简单(dān)方法”。ESS 3000的核心优势可以用高性能(néng)、高扩展、简单(dān)部署来概括。
首先,ESS 3000采用NVMe闪(shǎn)存存储,每个2U构建块(kuài)可提供40GB/s的吞(tūn)吐量。顺序(xù)读取性(xìng)能最高(gāo)可达42GB/s,顺序写入性能(néng)最高可达32GB/s。
其次,ESS 3000的核心技术是IBM Spectrum Scale。IBM Spectrum Scale是IBM经历(lì)多(duō)年(nián)企业级生产环境(jìng)验证的并行文件(jiàn)存(cún)储系统,其代码迭代超过20年。从名字(zì)可以看出,IBM Spectrum Scale的无缝扩展功(gōng)能可(kě)以应(yīng)对(duì)海量非结构化(huà)数据的增(zēng)长(zhǎng)。
第三,ESS 3000透过容器化技(jì)术把IBM Spectrum Scale封装在全闪存设(shè)备中,带(dài)来开箱即用的简单部(bù)署。企(qǐ)业部署时间(jiān)可以从原来的数(shù)天降低到几(jǐ)个(gè)小时。
元数据管(guǎn)理软(ruǎn)件IBM Spectrum Discover能够对规(guī)模级数(shù)据快速(sù)识别、分类,可以(yǐ)快(kuài)速摄入、合并数十亿个文件和对象的元数(shù)据(jù)并对其进行索引处理。IBM Spectrum Discover的作用在于帮助数据(jù)科(kē)学家、数据(jù)管理(lǐ)者(zhě)高效(xiào)管(guǎn)理海量非结构化数据,从数据中(zhōng)快速挖掘(jué)价值。
此(cǐ)外,在(zài)智(zhì)能化存储管理方面,IBM Spectrum Control可以借助AI技术自动化进行存储性能、安全性的监控和分析,并与IBM成熟的存储管理经验公式进行比照,为客户(hù)提供预(yù)测性故障分(fèn)析。
老传统:跨越(yuè)时(shí)空帮企业管好数据
提(tí)到能够跨越时(shí)空的物质,很多人(rén)会想到石头(tóu)。“一颗恒久(jiǔ)远”的钻石就是石头。小说《三体》中,云天(tiān)明把几(jǐ)行(háng)字(zì)刻在石头上,过了(le)1800万年之后还能被程心看到。
在时间维(wéi)度上,当数据的寿命越来越长,企(qǐ)业必然(rán)希望数据能(néng)够长久保存(cún),磁带这一种(zhǒng)传统的存储方式焕发(fā)出了新的(de)活力。很多(duō)人以为磁带技(jì)术早已淘(táo)汰(tài)过时,吴磊举了一个简单的(de)例(lì)子说明磁带保存数据的长期性(xìng)和可(kě)靠(kào)性(xìng)。
一家全球的科研机(jī)构,在几年前要把过去十年存储在磁带上的(de)数据梳理一遍。这些(xiē)带子总共(gòng)几万盘,总长度2200万(wàn)米。除了200多米(mǐ)长(zhǎng)的数据读不出来,其他数(shù)据(jù)都完好无缺。
相比只能保存2-3年的(de)硬(yìng)盘,保存十年却只(zhī)有大约十万分之一(yī)的(de)损坏(huài)率,足以说明磁带存(cún)储的经久耐用。而且(qiě)断(duàn)裂的磁带可以重新接上进行修复,而硬盘类存储一(yī)旦(dàn)损坏数据就全部找不回来。在成本上,磁带存储(chǔ)比硬盘便宜80%-90%左右。对于海量归档、备(bèi)份(fèn)属性的二级存(cún)储数(shù)据(jù),磁带存储是(shì)更(gèng)可靠、更便宜(yí)、寿命更长(zhǎng)、更安全(隔(gé)离(lí)网(wǎng)络(luò),天然防(fáng)止黑客攻击)的解决(jué)方(fāng)案。
吴磊(lěi)介绍,作为全球(qiú)仅有的(de)几家具备磁带存储解决(jué)方(fāng)案的企业,IBM也在不断升级磁带技术。IBM不但将磁带密度越做越高,还(hái)通过磁带文件(jiàn)系统IBM Spectrum Archive,实现(xiàn)了软件定义(yì)的磁带解决方案,可以对(duì)磁带数据智能回溯,方便调取历史数据。目前,IBM的(de)磁带(dài)存储在电视台、网络音频、视频(pín)公司(sī)都(dōu)有广泛使(shǐ)用。
在空间维度(dù)上,IBM存储(chǔ)针对混合多云的环境打造了跨数据(jù)中心和(hé)云(yún)的统(tǒng)一存储管理(lǐ)。IBM Spectrum Scale可将闪存、磁盘、云和磁带存储(chǔ)合并到一个统一(yī)的(de)系统之中(zhōng),实现规模化的数据管理。IBM Spectrum Discover可轻松连接至内部(bù)环境和云环境中(zhōng)的(de)多(duō)个文件与对象存储(chǔ)系统。在数(shù)据保护方面,IBM Spectrum Protect Plus是(shì)专为混合(hé)多云环境而设计的一体化数据保护解决方案,可以快速(sù)恢复 VM、数据库(kù)、应用(yòng)和容(róng)器。
此(cǐ)外(wài),SVC(SAN Volume Controller)可以(yǐ)利用(yòng)IBM Spectrum Virtualize for Public Cloud的广泛功能,简化(huà)多云解决方案(àn),实现异构(gòu)存储全面云化。IBM第二(èr)代对象存储COS(Cloud Object Storage)采用标准的S3接口(kǒu),可以(yǐ)无(wú)缝访问(wèn)本(běn)地和云端(duān)的对象存(cún)储。
在交付方式上,IBM为企业提供一体机和(hé)纯软件交付灵活组合的方式。可(kě)以说,在新的存储挑战下,IBM用实力诠释(shì)了(le)新一代软件定义存储的概(gài)念。同时也体(tǐ)现了IBM存储的三(sān)大(dà)优势:现代化(huà),现代化基础(chǔ)架(jià)构下,不断迭代(dài)推出更新的(de)闪存技术;敏捷(jié),在混(hún)合多云环境下做到(dào)容器化的封装,灵活可扩展(zhǎn),极简(jiǎn)部署;安(ān)全,更长周期(qī)的数据存储和更可靠的数据保护。
“数据是(shì)客户(hù)唯一的唯一,我们的工作就是跨越时空,把客(kè)户针(zhēn)对(duì)数据所(suǒ)有的事情(qíng)做好,做扎实(shí)。”吴磊强调。