过去(qù)我们过多(duō)地把目光聚焦于“人工智能三要素(sù)”中的算力和模型上;但随着人工智能(néng)的深入,好的算力和模型已不再是稀有物(wù)种,被标注(zhù)好的(de)优质(zhì)数据却(què)成为时下最为稀缺的“黑金”。AI的崛起离不开“好的(de)”数据作为地基,这也是云(yún)测数(shù)据(jù)成立的初(chū)衷所在。现在(zài)戳(chuō)右边链接上新智(zhì)元(yuán)小(xiǎo)程序了(le)解(jiě)更多!
算力、模型和(hé)数据构成了人(rén)工智能的三(sān)要素,过去,我们过多的(de)把目光(guāng)聚焦于算力和模型上,殊不知,随着(zhe)人工智能的深入,好的算力和模型已(yǐ)不再(zài)是稀有(yǒu)物种,反(fǎn)而那些被标注(zhù)好的优质数据成为时下最为稀缺的“黑金”。
“公司的壁垒不再是(shì)算法,而是数(shù)据。让算(suàn)法(fǎ)利用足够的数据,使(shǐ)得产品运行起(qǐ)来。”人工智能和机器学(xué)习领域(yù)国际的权威学者吴恩达在发表以“AI is the new electricity”为主题的演讲时,就重点强调了数据的重(chóng)要(yào)性。无独有(yǒu)偶,李开复在(zài)清华大学(xué)“清华学堂计算机(jī)科学(xué)实验班”题(tí)为《人工智(zhì)能的黄金(jīn)时代》的演讲中也(yě)讲到(dào)了(le)此类观(guān)点,“如(rú)果你有垄断性的大(dà)数据,你就会有很大的优势(shì)。”
以上种种,都表明着一件(jiàn)事,即AI的崛起离不开“好的(de)”数据作为地基,这(zhè)也是云测数据成立的初衷所在。
溯源(yuán)云测数据(jù)的AI数据服务之路(lù)
“自2011年切入企服市(shì)场以(yǐ)来(lái),Testin云测不断致力于助力(lì)产业(yè)智能化,除了测试业务我们已经成为专业领(lǐng)域(yù)的(de)垄(lǒng)断品(pǐn)牌(pái),专注于AI数据服务的云测数据也成为数(shù)据领域的标杆品牌。目前我们(men)整个(gè)数据服务团(tuán)队(duì)规模已超(chāo)过1000人,通(tōng)过标审分离的流程化作业模式和(hé)数据安全机制,更好的保证数据的高质量产(chǎn)出和数(shù)据隐(yǐn)私性,从而(ér)更好地为(wéi)人工智能(néng)落(luò)地(dì)提(tí)供定制化‘数(shù)据养料’。”在(zài)接受钛(tài)媒体专访时,云测数据总经(jīng)理贾宇航(háng)如(rú)是说。
AI数据服务作(zuò)为(wéi)一个非标领域,往往需要根据不同行业领域、不同的(de)需求进行特定化的场景定制(zhì),而(ér)数据标注的过程(chéng),规范化、标准化以及可机读性又不可或(huò)缺(quē),这就意味着云测(cè)数据所从(cóng)事的领域,并没有捷(jié)径可以走(zǒu)。
早(zǎo)期的数据标注服务(wù)门(mén)槛并不高,几个人、几(jǐ)台电脑便可展开操(cāo)作,导致了行业鱼(yú)龙(lóng)混杂、同质化竞争等现象,而这(zhè)时的人工智能也处在初期(qī)发展阶段。但当人工智能(néng)驶(shǐ)入深水区,“应用人智(zhì)能”声势逐渐火(huǒ)热,相对应的算法对数据的精(jīng)准程度和质量(liàng)要求也水涨船高,就要求着作为AI数据服务的(de)提供者,要(yào)为(wéi)人工智能提供定制(zhì)化的、还原应用场景的优质数据。
针对于此,贾宇(yǔ)航(háng)告诉钛媒(méi)体,“以人脸关(guān)键点识别为例(lì),早先的相关数据标注往往用一(yī)句(jù)话便(biàn)可描述完(wán)它(tā)的任务(wù)需求,到了现在,已经发(fā)展到几百个关键点。通常数量(liàng)级的人脸数(shù)据标(biāo)注任务,有时(shí)候4张A4纸都未(wèi)必能写完这些需求,而人脸的数据标注只是(shì)众多领域的任务需(xū)求之一。”
庞大数据标注任务量(liàng)级(jí)之下,是当下业内需求端(duān)对精准和高质数据的普遍共识。
这就要求着(zhe)数(shù)据服务要在数据标注(zhù)和采集上下足(zú)功夫,而小团队的能力范围则显得捉襟见肘(zhǒu)。回(huí)归到数据标(biāo)注(zhù)面向多(duō)领域这件(jiàn)事的本质(zhì)时(shí),你又会发现,光(guāng)靠人多或者说(shuō)采用(yòng)“众包”模式往往只能解(jiě)决量的(de)需求,数据标注人员是否能统一化协同管(guǎn)理以及是否具(jù)备相关领域知(zhī)识,才是决定某项数据任务完成质量的(de)好(hǎo)坏。
同时,这(zhè)也是云(yún)测数据当下正专注(zhù)的事情。正如医生可(kě)以标(biāo)注得好ct诊(zhěn)疗片,而(ér)云测数据团队在进行自(zì)动驾驶(shǐ)车外(wài)环境数据标注时发现,那些(xiē)能够(gòu)快速、精准进行数据标注的人员往(wǎng)往拥有驾驶经验。
云测数据快速成长(zhǎng)的秘诀(jué)是什么?
至此,我(wǒ)们还需要思考一个(gè)问(wèn)题,为什么云(yún)测数据能做到(dào)且做好AI数据(jù)服务?
通过观(guān)察Testin云测的发展历史,我们(men)便能找到答案。
自2011年(nián)Testin云测成立到现在,已经为全球超过(guò)百万的企业及开发者提供服务,积累了丰富且完善的技术能力和流程化管理能(néng)力。而云测数(shù)据(jù)AI数据服(fú)务(wù)正式开展于2017年,换(huàn)句换说,Testin云测的数(shù)据业务线从一出生便拥有7年企业(yè)服务所积攒的经验,并继承了行业独立(lì)第(dì)三(sān)方的角色,天(tiān)然的“以客户为中心”的企服基(jī)因是云测数据区别于同行的最(zuì)大护城河,而客户最为关键的诉求则是“降(jiàng)本增效”。
“与企业服务在(zài)美国(guó)环境更侧重标准不(bú)同的(de)是,中国更重服务,通(tōng)过这么多年(nián)的观察我们发现,是(shì)否能(néng)切实满足用户的真实需求,其实是一个(gè)非常重要的点(diǎn),并不是说企业一定要做出一个平(píng)台或者一个工具,更多是(shì)从企业或行业需求出发(fā),构建对应的服务模式。”贾(jiǎ)宇航对(duì)钛(tài)媒体补充到。
以新(xīn)零售门(mén)店巡检为例,通(tōng)常(cháng)来说,每(měi)个门(mén)店每月都要巡检一次,门店巡检模式是让一个人拿着(zhe)调研表去(qù)盘点,随着人工成本(běn)的增加,而门店数越来越多现实(shí)情况,已经让这成为一笔不小(xiǎo)的开销(xiāo)。通过(guò)引入AI数据(jù)服务,现在工作人员可以(yǐ)拿一个手机APP直(zhí)接巡(xún)检(jiǎn),物品的数量(liàng)、sku的数量以及对应的sq数量,都能一目了然。
“从不同客户反馈得知(zhī),通过我们云测数据的数据标(biāo)注服务而落地AI产(chǎn)品的企业,可(kě)为企业减少大概1/3的人工成(chéng)本。”贾宇航如是(shì)说。
门店巡检只是(shì)案例之一(yī),就目前来说,云测(cè)数据主(zhǔ)要关注智能(néng)驾(jià)驶、智慧(huì)城市、智慧金融和智能家居(jū)几大方向,这也(yě)是当下市场需求最大的几个领域。面(miàn)对不同(tóng)的数据领域,云测数据(jù)通过流水化作业,将各(gè)个环节打造(zào)成不同模块,并配(pèi)合自己的流程管理工(gōng)具(jù),优化人员(yuán)管理、数据采集、数据清洗和(hé)数据标(biāo)注的各个环(huán)节流程,确保内部(bù)的(de)持续高效能运(yùn)转,最终(zhōng)保证AI数据高质产出。
根据IDC调查显示,目前中国大数(shù)据(jù)发展处于应用落地(dì)阶段,整个市场预计(jì)未来(lái)五年将保(bǎo)持持续增长的(de)趋势,年复(fù)合增长率(lǜ)将达到17.3%。而得(dé)益(yì)于人工智能(néng)、5G、区块链、边缘计算的发展,未来多方技术融合(hé),数据增长必然呈(chéng)现井喷(pēn)态势(shì),数据采集和标准业务作(zuò)为其伴生体,必(bì)然(rán)有较(jiào)大的增长空间。
得益于(yú)对AI趋势的判断,Testin云测认为,“人工智能正在(zài)逐渐往(wǎng)应用人(rén)工智能”方向(xiàng)发展(zhǎn),因而(ér)云测数据在成立之(zhī)初,就确定了定制化“精(jīng)准高质、独立安全(quán)”业务方针(zhēn)。本着这张“王牌”,云测数据部门迅速扩充,在以往企业服务经验(yàn)的完美嫁(jià)接之下,最终(zhōng)让(ràng)云测(cè)数据成(chéng)为AI数据服务领域(yù)的头部企业。”
“云测(cè)数据业务规模量每年都在以倍数的规模增长,这(zhè)也与我们所(suǒ)处赛(sài)道的(de)市场深(shēn)度息息(xī)相关,在我(wǒ)看来,整(zhěng)个市场仍然呈现非线性的几何增长态势,还有很多机会蕴含其中,有(yǒu)待挖(wā)掘。”谈(tán)及云测数据业务线发(fā)展(zhǎn)状态(tài)时,贾宇航如是说。
“安全”是AI数据服(fú)务提供商绕不开的命题
机会(huì)之下,企业端在提供优质(zhì)数据的同时,也要注意数据服务过程中的规范和(hé)安全。
在这(zhè)方面,云测数(shù)据通过自建数(shù)据采集实验室(shì)和(hé)自建数据标注(zhù)基地(dì)的方(fāng)式,规范管理专职(zhí)数据服务团队。这种措施(shī)除了保证标(biāo)注数据的质量和效率,也最大限度地保证了数(shù)据产(chǎn)出的安全隐私性(xìng)。
贾宇航对钛媒(méi)体强调到,云(yún)测数据自伊始便(biàn)将数据(jù)安全放(fàng)在首位(wèi),集中表现在(zài)以下几个方面:
第(dì)一(yī),不滥用(yòng)数据(jù),数据(jù)交付后清毁数据不留底,绝不二(èr)次使用;
第二,不侵犯隐(yǐn)私,与(yǔ)所有(yǒu)数(shù)据采集的用户都签订(dìng)数据授权协议,确保AI企业用于训练(liàn)的数据合法合规(guī);
第三(sān),建立相关的数据保障机制,如从防火墙(qiáng)的设置、内部信息系(xì)统(tǒng)的管护、乃至标准化的流(liú)程作业体(tǐ)系等(děng)。
正(zhèng)如Testin云测CMO张鹏飞多次(cì)强调:“即便(biàn)说云测数据从安全(quán)到隐私防(fáng)护这套(tào)体系会加重运(yùn)营成本,但从我们行(háng)业(yè)大(dà)局发(fā)展来(lái)看,只有以这种负责(zé)的(de)态度来执(zhí)行工作(zuò),我们(men)的行(háng)业(yè)才能‘良币驱除(chú)劣币(bì)’。”