上个世纪五十年(nián)代(dài),麦卡锡(xī)当(dāng)时为达特茅斯会议命名了一个在那(nà)时看起来别出心裁的名字:人工(gōng)智能夏季(jì)研讨会(Summer Research Project on Artificial Intelligence),由此“人工(gōng)智能(ArtificialIntelligence)”这(zhè)个概(gài)念开始走向世界。
历经了半个多世纪的AI一直(zhí)都(dōu)不温不火,但近几年AI突然爆发(fā),在人工智能(néng)大量边(biān)缘设备落地的同时(shí),将其推上(shàng)一个更为兴盛(shèng)的阶段:围棋人工智(zhì)能程序(xù)AlphaGo横扫(sǎo)棋坛(tán),传统与文化相结合独具一格(gé)的“AI茶馆”,甚至还有(yǒu)腾(téng)讯去年在(zài)“AI+医疗”领域打造的“救(jiù)命(mìng)AI”——腾讯AI医疗产品的聚合。
portant;" />
AI迅速爆发的背后(hòu)究竟靠的是什么?现下众多巨头企业、初(chū)创公司等(děng)纷(fēn)纷入局(jú)人工(gōng)智(zhì)能领域(yù),都在(zài)尝试寻找(zhǎo)全新突破口(kǒu)。业内曾流传着这样一句话:得“数据”者,得“人(rén)工(gōng)智能”,而能将“人工(gōng)智能(néng)”玩的转的,便(biàn)能称的上是撬动世界第四次(cì)工业革(gé)命的先锋了。
偏偏是“数据”扼住了AI命运(yùn)的咽喉?
从发展意义(yì)来看,人工智能(AI)在不(bú)断(duàn)的进(jìn)步,并且随着这种进步势必(bì)会改变一(yī)大(dà)批产业的形态(tài)。此外(wài),从另(lìng)一方面看,人工智能技术的(de)背后有三大支柱(zhù):算法、算力和数据(jù),这(zhè)三者相辅(fǔ)相成、相(xiàng)互(hù)制约,但其中数据是核心要义,只要有了(le)大量优质精准的数据,再加上算法实(shí)现(xiàn)高效(xiào)的(de)机(jī)器运算(suàn)、算力(lì)的推动(dòng),AI才能越(yuè)走越远。
“没有好(hǎo)的数据,人工智能将(jiāng)没有未来”已经成(chéng)为业界共识(shí)。
值得一提的是,这(zhè)里有(yǒu)两个重要的点需要区分:一个是(shì)数据,另一个是好的数据:“高质、精准、安全”。
云(yún)测(cè)数(shù)据(jù)贾宇(yǔ)航表示:“首(shǒu)先数据是人(rén)工智能底层逻辑中不可或缺的支撑要素,因为人工智能的本质就像人类要不(bú)断的(de)通过训练来获(huò)取技能一(yī)样,AI的根基就是训练(liàn),需要经过(guò)大量(liàng)数(shù)据(jù)进行训(xùn)练(liàn),神经网络(luò)才能总结出规(guī)律,进而熟(shú)能生巧的应用到(dào)新样本上”。
也就是说,数据是最(zuì)基本的燃料,没有燃料,AI这(zhè)艘火箭是不可能直冲云(yún)霄,而商业落地(dì)更是遥(yáo)不可及的梦。从(cóng)自动驾(jià)驶(shǐ)到AI聊(liáo)天、服务机(jī)器(qì)人,从人脸识别到各(gè)类AI边(biān)缘落地(dì)化产品,数据是真正的“幕后英(yīng)雄”,无“数(shù)据”不“AI”。
portant;" />
其次,要想经算法训练后(hòu)获(huò)得的模型更加智(zhì)能,仅“数据”远远(yuǎn)不够的,这背(bèi)后更多的是对数据(jù)的“高质、精准、安全(quán)”的要求。
例如(rú)在训(xùn)练的过程中,高质精准的数据扮演着(zhe)“教(jiāo)科(kē)书”级别的重要角色。如果仅需要识(shí)别勺(sháo)子,但(dàn)在(zài)训练数(shù)据中(zhōng)勺子总和碗、筷子一起出现,那么AI系统可能(néng)会误入歧(qí)途,进入一(yī)种“瞎猜”的状态而(ér)产生混乱和误(wù)差,结(jié)果(guǒ)很可(kě)能会(huì)将碗或筷子识别成勺子。所以(yǐ)对于人(rén)工智能来说,虽然(rán)大量的训练数据固然很重要,但更重要的是数据的“高(gāo)质精准”。
再(zài)从另一方面(miàn)看“高质精准的数据(jù)”对算法(fǎ)模型来讲究竟(jìng)有多重要?
现在人工智(zhì)能处在产业落地前夕,可以说AI产品(pǐn)的精准数据训练直(zhí)接影响(xiǎng)落地产品的良品率;举个不恰当的例(lì)子,如(rú)果(guǒ)自动驾驶系(xì)统的训练数据的缺乏或不精(jīng)准,则很可能在(zài)行驶过程中由于未正确识别物体数据直接(jiē)导致人身伤亡,这些后果都是不(bú)堪设想的。
此外,数据标(biāo)注的价值不仅体现(xiàn)在物体(tǐ)识别上(shàng)。当(dāng)下人(rén)工智能整个(gè)行业都在(zài)往多模(mó)态的方向(xiàng)发展,比如以智能驾驶为例,基于传(chuán)统的(de)车外环境(jìng)感知系统一(yī)般都(dōu)采用摄像头做(zuò)设计,以至于存在着测距效(xiào)果差等缺陷,现(xiàn)在引入激光雷达(dá)后,在数据的提升上对应是既有图像又有3D点云(yún)的三(sān)维数据的耦合。
portant;" />
随着(zhe)人(rén)工智能逐渐从学术走向产(chǎn)品化、落地化(huà)、市场化,企业对(duì)于场(chǎng)景数据(jù)的要求也越来越(yuè)多维(wéi),所以引(yǐn)入更多维度(dù)的(de)数据去完善AI产品落地前的模型,也是当下行业发展的趋势。
直(zhí)击行业痛点,这样的“数据一把手(shǒu)”才更性感
传统的数据清洗标注工(gōng)作(zuò)呈现出一种“数(shù)据粗放型处理”的状况,从移动互(hù)联中大(dà)量获取公开、通(tōng)用的数据,通过雇佣廉价的(de)劳动力完成数据的清(qīng)晰标注(zhù)工作,“道路、天空、大树”大致标注粗糙勾选后,便全部(bù)投(tóu)入(rù)应用到(dào)神经网(wǎng)络(luò)中(zhōng)。
但随着人工智能发展至商(shāng)业落地前夕,算法模型对高质量、高精度数据的需求极速提(tí)升,以往的通用数据集越来越(yuè)不能满足AI企(qǐ)业的数据需要,人工(gōng)智能落地(dì)越(yuè)来(lái)越专注于小场景和专业领域。人工智(zhì)能不再是漂浮在“空中的楼阁”,基于AI实际应用(yòng)场景的数据服(fú)务(wù),已成为人工智能落地的核心地(dì)基(jī)。
贾宇航表示:“在(zài)这个行业中有一个‘garbage in garbage out’的理(lǐ)论(lùn),即如果标注完的数(shù)据精度达不到标准,那么训练出来的算(suàn)法也是不精准(zhǔn)的。”如今一味粗放的处理模(mó)式既不能满足逐渐商用的AI企业的(de)数据需求,甚至还(hái)将影响技术本身(shēn)的发展。
面对这样的产业趋势,云测数(shù)据作为(wéi)行(háng)业(yè)的典型代表,直(zhí)击行业痛点(diǎn):将“精准高质”“独(dú)立(lì)安全”作(zuò)为(wéi)业务发(fā)展的核心(xīn),并(bìng)随着AI企业数据需求不断的(de)演进。
有刚(gāng)性需求便会有(yǒu)实时供(gòng)给,有痛点问题(tí)便就有解(jiě)决方案(àn)。云测数据(jù)基(jī)于其自建的数据标注基地和场景实验室,根据AI企业数(shù)据(jù)需求,进行特定动(dòng)作、表情(qíng)和表情的捕(bǔ)捉,将精准(zhǔn)的数(shù)据投入到流程(chéng)化(huà)规范(fàn)生产的数据标注环节中,最终输出精(jīng)准高质的数据(jù)。解决特定场景化下的数据缺失、质量良莠(yǒu)不齐、安全性等行业问题,以帮助AI企业打造以高(gāo)精度数据为核(hé)心的行业壁垒。
场(chǎng)景(jǐng)实验室是云测(cè)数据布局高度定制化(huà)、多模态的AI数据服务(wù)的重要组(zǔ)成部分,以AI企业的(de)具体算法(fǎ)模型的特(tè)定需求来定制化(huà)搭(dā)建采集场景,致力于覆盖(gài)尽(jìn)可能多(duō)的实(shí)际场景(jǐng)及(jí)边际(jì)场景,从数据产生的源头把控数据质量。
portant;" />
自建标注基地是(shì)云(yún)测数据(jù)保证数据精准高质的(de)又(yòu)一强力保证。基地内的全职标注人员有利(lì)于协同化管(guǎn)理和快速响应企(qǐ)业数据(jù)需(xū)求。同时云测数据还基于不同场景对(duì)标(biāo)注人员进行领域内的细分,接受固定领域的知识培训。得到高效的行业知识输入,在理解(jiě)企业(yè)客户的需求(qiú)上就能做到准确(què)无误(wù)的输出(chū)。
portant;" />
所以,AI的背后是数据,行业的幕后是云测数据——这样的“行业数据一(yī)把(bǎ)手”才着实性(xìng)感。
数据(jù)安全(quán)成核心,行业规范亟需建立
目前云测数据(jù)基(jī)于自(zì)建(jiàn)的数据场景(jǐng)实验室和数据标注基地,服务(wù)领域已涉及智能驾驶、智能家居、智(zhì)慧城市、智(zhì)慧(huì)金融、新零(líng)售等领域,实时为领域内各个AI企业提供定制化的数据采(cǎi)集、数据标注(zhù)服务,全(quán)方(fāng)位支持文(wén)本、语音、图像(xiàng)、视频等各类型(xíng)数据的处(chù)理。
更重要的一条前置底(dǐ)线是,云测(cè)数据除了提供(gòng)优质数据,更是把(bǎ)数据隐私安全做到了极致。从防火墙(qiáng)的(de)设(shè)置(zhì)、到内部信息系统的管护,乃至(zhì)标准化的流(liú)程作业体系等,将一整套的安全防护和信(xìn)息(xī)保护的机制,应用在数据标注生产的各环节。
贾宇航告诉猎(liè)云(yún)网:“对于一个企(qǐ)业来讲,拥有了数据便就拥有了核心竞争(zhēng)力,数据安全(quán)一直都是我(wǒ)们极其重(chóng)视(shì)的一点。首先我们要做到的,是数据(jù)绝不复用(yòng),第(dì)二(èr)就是(shì)保证数据(jù)隐(yǐn)私性。与所有数据采集(jí)的用户都签订(dìng)数据授权协议(yì),确保(bǎo)AI企业用于训练的数据合法合规。”
portant;" />
Testin云测CMO张鹏(péng)飞也强(qiáng)调“从整体看来,AI数据行业关于安全、隐私等(děng)方面并没有统一的标准和强调重视。但从我们长(zhǎng)远角度出发,一直在隐(yǐn)私和安全(quán)防(fáng)护(hù)角度下大力气服(fú)务行业、树立数据(jù)质量标(biāo)杆,只(zhī)有以这种负责的(de)态度来服务客(kè)户,我们的行业才能‘良币驱除劣(liè)币’,真正(zhèng)让人工智能(néng)成为新(xīn)一轮技术(shù)革命,改变整个(gè)社会和人类进程(chéng)”。
人工智能(néng)的发(fā)展离(lí)不开数据的支撑(chēng),更离不开AI数据做“燃料”。如果非要用(yòng)一句(jù)话来定义这个时代的“人工(gōng)智能”和“数据”的关(guān)系,可以(yǐ)说是:数据是人工智(zhì)能的核心要义(yì),而“高质精准、独立安(ān)全”的(de)数据,则是撬动世界第四次工业革命(mìng)(人工智能浪潮)的(de)关(guān)键(jiàn)所在。
作者:郭亚鑫