“抬头(tóu)是山(shān),低头是煤。”曾在山西传统煤矿(kuàng)工作8年, 整天盯(dīng)在电脑屏幕前监测矿井瓦斯浓度的郭梅从(cóng)来没(méi)有想过,有一天自己的工作会和人(rén)工智能有了联系。
两年前,因为孩子来(lái)省会城市太原上学,郭梅在附近求职,做(zuò)起了数据(jù)标注(zhù)。同样是盯在电脑屏幕前,现在郭梅每天(tiān)的工(gōng)作是给图片(piàn)、文本或者声(shēng)音进行标注(zhù),再把它们交给机器训练(liàn)和学习。从一开始(shǐ)每(měi)天(tiān)只能标注两三百张,到现在(zài)的日均(jun1)完成1300多张,郭梅按件计酬的收入逐渐(jiàn)提升,已高(gāo)于(yú)当(dāng)地平均收(shōu)入水平。
人工智能行业里有句话:有多少智能,背(bèi)后就有(yǒu)多少人工(gōng)。像郭梅一样,AI数据标注师(shī)成为了随着人工智能(néng)发(fā)展而出现的新兴就(jiù)业岗位(wèi)。2020年2月,“人(rén)工智能训练(liàn)师”正式成为(wéi)新职业并(bìng)纳(nà)入国家职业分类目录。
他们被称为人(rén)工智能背后的人。数据采(cǎi)集和标注是他们的主要工作(zuò),目(mù)的就是要教会AI认(rèn)识(shí)数据(jù),转化(huà)成(chéng)AI能(néng)消化(huà)和(hé)吸收的(de)“语言”。有了足够多(duō)、足够(gòu)好的数(shù)据,AI才(cái)能(néng)够学会像人类一(yī)样去感知、思考和(hé)决策,更好地为人类服务(wù)。
这项工作看起来简单枯燥,但意(yì)义非(fēi)常。“就像一(yī)台(tái)车(chē)没有汽油走不了,数据就是(shì)人工智能(néng)发展的燃(rán)料。有了我(wǒ)们(men)的数据,机(jī)器(算(suàn)法)不断迭代,就能推动人工智(zhì)能往(wǎng)更好的方向(xiàng)发展。” 从(cóng)事(shì)数据标(biāo)注的山(shān)西麟诺(nuò)公司总经理李应维对第一(yī)财经表示。
“从没想过做人工智(zhì)能”
20出(chū)头(tóu)的李宇龙从未亲眼见过自动驾驶(shǐ)汽车,但(dàn)他的工(gōng)作却和(hé)自动驾驶的AI算(suàn)法息息相关。
他曾经(jīng)在生产电子类产(chǎn)品的工厂工作(zuò),转做(zuò)AI数据标注后,老板交给他的第(dì)一(yī)个项目就是“车道线打点”。
简单来(lái)说(shuō),就是给(gěi)无人驾驶进行车道线标注(zhù)。当(dāng)无人车行驶到一段路时,会自动连续拍摄图片,李宇(yǔ)龙要做的,就是对图片上车辆所行驶的车道(dào)旁边(biān)两侧(cè)的线进行标注(zhù),识(shí)别(bié)虚线还(hái)是实线,匹配所对应的属性,从而告诉(sù)人工智能遇(yù)到虚线时车辆可以进行变道(dào),实线不可以进(jìn)行变道。
当时的李宇龙,还(hái)不知道数据标注师到底是什么,更对人工智能没有具体概念(niàn),老板只交给他一套规则(zé),让他按照规则在电脑上(shàng)认车道(dào)线。好学的(de)他在短时间内就(jiù)掌(zhǎng)握了规则和难点,总结出了标注车(chē)道的规律。
他把自(zì)己的工(gōng)作比作“幼教“,当他拿出一个红苹果给机器并教会它识别,再拿一个(gè)绿苹果给它(tā)时,因为颜色差异(yì),机器就(jiù)无法认出了。李宇(yǔ)龙的(de)工作就是不断地帮助(zhù)机器(qì)识(shí)别不同的颜色、大小(xiǎo),甚至是(shì)被咬(yǎo)了一口的苹果或是坏苹果,直到随便拿出(chū)一(yī)个苹果(guǒ),它都能认出(chū)来。
李宇龙(lóng)告诉第(dì)一财经记者,数(shù)据标注的工作是“按件计酬”,他的日均收入在300元左右。数(shù)据显示,2019年(nián),太原市的城镇居民全年(nián)人(rén)均可支配收入36362元。他说,自(zì)己(jǐ)的(de)工资水平(píng)在(zài)整个基地标(biāo)注师日均收入中处于中(zhōng)等水平,“据我了解,有人(rén)日(rì)均收入甚至能破(pò)千。”
对(duì)于自(zì)己的(de)工(gōng)作,李宇龙(lóng)说(shuō),刚开始接触时,只把(bǎ)它看(kàn)做(zuò)一个重复(fù)性(xìng)的工作,并没有想太多(duō)。直到(dào)后来接触(chù)项目多了,涉及的领域(yù)包括教育、安防、金(jīn)融、交通医疗和电商等,每天都在挑战(zhàn)学习能力,也会(huì)想要更(gèng)深入了解(jiě)自己标注的内容可以应用到的(de)行业。 虽然(rán)还没有坐过无(wú)人车,但他(tā)说,现在看到无(wú)人(rén)驾驶的(de)时候(hòu),会想到这里面也包含(hán)了自己的标注成果。
像李宇龙、郭梅的工作一样,第一(yī)财(cái)经记者看到,在每一间数据标注的办公室里,都是类似的工作(zuò)场景:一排排电脑(nǎo)屏幕前,年轻的数据标注师根据各自(zì)分配的任务(wù),对文(wén)本、图(tú)片、语(yǔ)音和视频做标(biāo)记、标重(chóng)点(diǎn)、打(dǎ)标(biāo)签、框对象、做注释等方式对数(shù)据集作(zuò)出标(biāo)注,他们可(kě)能在为无人车标注车道线、红绿灯,也可能是在为肺部影像(xiàng)标注(zhù)病毒数据。
以人脸为例,目前能实现对约150个特征点的标注。疫情期间,采集大量的戴口罩的人脸照片后,数据标注师对人脸的眉毛、眼镜(jìng)、颧骨等人脸关(guān)键点(diǎn)进行精准标(biāo)注,标注特(tè)征(zhēng)点越(yuè)多(duō),AI就越能精确识别出戴口罩场景下的人脸。最终实现即使不(bú)摘口罩,也能精确测量体温,或是通过人脸闸机。
是(shì)不是“AI富士康(kāng)”?
数据标注产(chǎn)业促进了不少城(chéng)镇和农村就业,在河南、河北、贵(guì)州(zhōu)等(děng)地,还出现了一些特色(sè)的“数据标注村”。
据IDC统计,全球每年生产的数据量(liàng)将从2016年(nián)的16.1ZB猛增至2025年的163ZB,其中(zhōng)80%-90%是非结构化数(shù)据,这些(xiē)数据(jù)经过清(qīng)洗与标注才能被唤醒价值。在我(wǒ)国,每年需(xū)要(yào)进行标注的语音数据超过200万(wàn)小时(shí),图片(piàn)则有数(shù)亿张,这(zhè)就产生了源源不断的清洗与标注需求。 李应维(wéi)对第(dì)一财经记者说, 他预计明年企(qǐ)业的用工将(jiāng)翻一倍,从160多人扩展到300人左(zuǒ)右。
李应维公司所在的百度(dù)(山西)人工智能基础数据产业基地,已经成(chéng)为中(zhōng)国人(rén)员和产值规模(mó)第一的单体数据标注基地。AI数(shù)据标注师从(cóng)业(yè)人员超过(guò)2000人,实现营(yíng)业收入超(chāo)亿元,企业入驻35家。该(gāi)基地计划在未来5年培养5万(wàn)名(míng)AI数据标注师,并引入更多(duō)AI合作伙(huǒ)伴。
百度(山西)人工(gōng)智能基础数据(jù)产业基地负(fù)责人(rén)尉赤告诉记者,人工(gōng)智能是个高(gāo)速(sù)发展的行业,数据服务又与人工智能息息(xī)相关。“我(wǒ)们的线上众包(bāo)注(zhù)册用户有将近2000万人,目前每个月在(zài)线上(shàng)为我们提供服务的人将近5万人。如果按照行业增长速度(dù)来(lái)看,培养5万(wàn)人还不一定(dìng)够。”
不过,数据(jù)标注师看(kàn)上去是人工智(zhì)能(néng)领(lǐng)域一(yī)个“入门”工种:技术门(mén)槛低,招工人群范(fàn)围广(guǎng)泛(fàn)。他(tā)们(men)通过每天数千次的重复动作,和最前沿科技的人(rén)工智(zhì)能产生联系。也因此,外界给这个行业贴上(shàng)了“AI富(fù)士康”的(de)标签。
数据标注带来了(le)技术红利,但如(rú)果人工智能发展到一(yī)定(dìng)程度,甚至有可能够取代数据标注师(shī)的(de)工作。
艾(ài)瑞咨询(xún)在(zài)一(yī)份人工(gōng)智能(néng)相关报(bào)告指出(chū),随着算法(fǎ)需(xū)求越(yuè)来越旺(wàng)盛(shèng),依(yī)赖人工标(biāo)注不(bú)能满足市场需求,因此增强数据处理平台持(chí)续学习能力,由机器(qì)持续学习人工标注,提升(shēng)预标注(zhù)和(hé)自动标注能力对人工(gōng)的替(tì)代(dài)率(lǜ)将成趋势。此(cǐ)外,随着 AI对数(shù)据的(de)要求越(yuè)来越(yuè)高,数据标注行业(yè)也正(zhèng)逐步(bù)进(jìn)入精(jīng)细(xì)化阶段。
对于数(shù)据标注这一职业的未来,李应维对(duì)记者举例,自己公司一名员工入职(zhí)后,因为表现优(yōu)异,不久已被(bèi)百度(dù)公司聘用(yòng)。而且,数据标注师也在为人工智能(néng)培养和(hé)发现(xiàn)人才(cái)。
尉赤则认为(wéi),目(mù)前大(dà)家更多(duō)地聚焦在数(shù)据加(jiā)工这件事,但如(rú)果再往前看(kàn),更多(duō)的是(shì)数据的优(yōu)化、还有一些相(xiàng)关的解决方案(àn)。数据标注是(shì)一个很好(hǎo)的入门,进来(lái)之(zhī)后有机会更深(shēn)度参(cān)与到产(chǎn)业链协作当中,例如后续当数据标注越来越机器化,人工和自动化之间要有机的协同,这也对员工提(tí)出了更(gèng)高的(de)要求(qiú)。
此(cǐ)外,当数据(jù)标注越来越机(jī)器化,人工智能训练师是一个转换工种(zhǒng)的机会,标注(zhù)员们现在标注数据(jù),未(wèi)来(lái)可能向数据治理、数据解(jiě)决方案(àn)设计和项目管(guǎn)理等方向发展。
例如,现(xiàn)在李宇龙的工作重心已经转向培(péi)训(xùn),同时接(jiē)触到更多(duō)的项目管理,根据每个项目对(duì)应的特点判断与之匹(pǐ)配的能力(lì)。 在他看来(lái),自己比很(hěn)多传统行业的(de)人们更早地接触到未来的发展方(fāng)向和未来的生活、工作场景(jǐng),“看到(dào)了(le)未来的发展需求(qiú),也就比(bǐ)别(bié)人(rén)更早找到更多(duō)发展(zhǎn)机会。”