“经过全(quán)市(shì)大(dà)数据分析,您(nín)可(kě)能在5月30日(含)以(yǐ)后去过新发地(dì)批发市(shì)场……”随着新(xīn)发(fā)地市场新冠源(yuán)头被锁(suǒ)定,近(jìn)日来,大数据筛查,成为不(bú)少北京市(shì)民在朋友圈中热议的话题
一(yī)组数据显示(shì),截(jié)止6月17日(rì),在行(háng)动轨迹一致的(de)情(qíng)况下(xià),利用大数据分析相关风险人群位置和路径,北京用了短短几(jǐ)天时间,就“找”出了30多万人进行核酸检测。与(yǔ)年初武汉疫情爆(bào)发初期大数(shù)据(jù)分析(xī)人口流(liú)动相比,此次北京的“大数据筛查”,无疑体(tǐ)现了更高的技术含量,和更好的(de)时效性(xìng),对疫情处置发(fā)挥了不(bú)可小觑(qù)的作用。
图片显(xiǎn)示了5月29到6月12日到访过新发地的(de)人群,发现(xiàn)2430人到访(fǎng)新(xīn)发(fā)地市场并离开(kāi)北京,其中(zhōng)有91人到(dào)访上海。图表还详细列出了这2000多人到访过的其(qí)他城市,包括廊坊、保定(dìng)、天津等。(图片来自网络)
精准查找(zhǎo)
三种手段锁定新(xīn)发地(dì)接触者
从6月15日以来(lái),不少路过或者(zhě)去过新发地的(de)北京市民,都接到了(le)短(duǎn)息或者是社区电(diàn)话,表示通(tōng)过大数(shù)据筛查,确认被调查者近期去(qù)过或者路过新发(fā)地市场,要求如实填报信息,并(bìng)尽快进行核酸检测。
那么,什么是(shì)“大数据筛查”?大数据又是(shì)怎样(yàng)找到新发(fā)地的路(lù)过(guò)者呢(ne)?大数据在此(cǐ)次疫(yì)情(qíng)防控中起(qǐ)到了什(shí)么作用?
大(dà)数据,顾名思(sī)义其实就是海量、大量(liàng)的资料(liào),这些资料来源于随时产(chǎn)生的(de)数据;而大数据又分为(wéi)狭(xiá)义和广义两种;狭(xiá)义的大数(shù)据包括个人私人信息、购物习惯、阅读习惯等个人(rén)画(huà)像;而广(guǎng)义的大数(shù)据(jù)则是针(zhēn)对社会或(huò)者企业的,例如电商(shāng)利用大数据分析顾客(kè)购物习(xí)惯,做(zuò)好(hǎo)需求(qiú)预测,提前布局好(hǎo)仓库存储等等。
显而(ér)易见的(de)是(shì),此次(cì)新(xīn)发地的“大数据(jù)筛查(chá)”,就是广义大(dà)数据(jù)与狭(xiá)义大数据的一次有机(jī)融合,也是海量存储和快速检索技术的一(yī)次良好(hǎo)利(lì)用。
尽管官方并未公布(bù)大数据筛查的具体方法,但中科(kē)曙(shǔ)光大数据总工程师首席科学家、存储产品事业部副总经理宋怀(huái)明博士分析认为,北(běi)京之所以能(néng)够实(shí)现利用大数据快(kuài)速排(pái)查筛选新发地到(dào)访者,有三种(zhǒng)技(jì)术路径可以实现。
首先是基于手机(jī)移动数据确(què)定位置信息,也叫基源(yuán)定位(wèi)方法(fǎ),这是最常用的(de)方(fāng)法,也是(shì)此次(cì)新(xīn)发地(dì)大数据筛查当中,效率最高的手段:不(bú)过(guò)基源并不是GPS,而是通过(guò)手机基(jī)站,与GPS使用时才打开不同,手机会自动连接到距离最近的信号发射塔,手机的所有活动,都能通过包含基站信(xìn)息的信令数据信(xìn)号发(fā)射塔筛查回溯,这为追踪使(shǐ)用者的位置定位及路径追踪,提供了真实准确的第一手数据。
其次(cì)是通过社会交往(wǎng)信息分析,这并(bìng)不是指通过社交软件信息判(pàn)断,而(ér)是结(jié)合已有数据,通过电话调查(chá)、摸排走访(fǎng)等方式,最终(zhōng)形(xíng)成(chéng)相对可靠的数据信息,也(yě)可(kě)以在短时间内(nèi)筛选出哪些人在新发地(dì)工作、哪些人曾经去(qù)过(guò)新(xīn)发(fā)地、他们这几(jǐ)天密切接触了什么人等等。
第(dì)三种方法是可以通过物品信息确认,此次新发地筛查过程中,除了对经过(guò)者(zhě)、密(mì)切接触者的筛查,也排查了不少物品(pǐn)和货品,在这个过程当中,通过对特(tè)定携带病毒物品的路径和接(jiē)触者追(zhuī)踪,同(tóng)样可以作为(wéi)排查查找到(dào)新发地密切接触者的依据之一。但宋(sòng)怀明强调,这种筛查方法的数据(jù)可(kě)能(néng)并不完全,而新发地是(shì)否真的利用查物的方法寻找接触(chù)者,目前也不能完全确定(dìng)。
在官方正式回应以(yǐ)外,此(cǐ)前网上(shàng)还流传着一种(zhǒng)是(shì)说法“支付宝和微信(xìn)提供数据,锁(suǒ)定35万人,帮助病毒(dú)筛查”但(dàn)这则消息很快就被两方进行了官(guān)方辟谣。
对此,宋(sòng)怀明认(rèn)为,通过二维码获取交易记录,可以确定交易用户(hù)位置。但对于交易用户的行动路(lù)径追踪,无(wú)论是(shì)支付(fù)宝和微信都无法实现。此外,新发地作为农产品大(dà)宗批发市场,还有(yǒu)很多其他(tā)交易方式是通(tōng)过线上转账或者(zhě)现金的方式(shì)进行,因此(cǐ)支付宝微信数据(jù),最多只能在大数据(jù)筛查当中起到一定的辅助作用。
技术革新
大数据助力流行病精准防控
除了筛查接触到访者,此次新发地疫情当中(zhōng),大数据还起到了怎样的作(zuò)用?中国疾控中心首席专家吴尊友(yǒu)告诉北(běi)京科(kē)技报记者,在他(tā)看来,此次北京(jīng)新(xīn)发地新冠疫情过程中(zhōng),大数据至少(shǎo)发挥了两方(fāng)面作用:一(yī)是将早期病(bìng)例精准锁(suǒ)定到新(xīn)发地市场,及时发现传(chuán)染源,为疾(jí)病控制赢得了宝贵的时间。
二(èr)是对发现疫情以(yǐ)后(hòu),在(zài)去过高(gāo)风险地区向外流动的人员的了解(jiě)“包括暴露于环(huán)境,和接触(chù)的人员(yuán),和密切接触者,在北京(jīng)的分(fèn)布,以及留出北京的(de)情况,对于发现(xiàn)潜(qián)在感染者,阻断传播,起到了非常大的作用。”
实际(jì)上,不仅是(shì)北京(jīng)新发地,在此次新冠(guàn)肺炎疫(yì)情过(guò)程中,尤其是年初武(wǔ)汉疫情(qíng)爆发之时,大数据筛查(chá)和(hé)分(fèn)析,就(jiù)对于(yú)疾病防控起到了相当重要的(de)作用(yòng)。
北(běi)京此次做到了精准分级,没有(yǒu)‘一(yī)刀切封(fēng)城’,而以(yǐ)街道为单(dān)位划分风险等级,进行分级管控,大数据(jù)起到了(le)关键的作(zuò)用
疫(yì)情(qíng)爆(bào)发之后,数家科技互联网公司陆续通过数据和技术能力,给(gěi)全(quán)社会提供了(le)大(dà)量数(shù)据支撑;例(lì)如百度的(de)迁(qiān)徙数据,精准(zhǔn)计算出离开武汉和滞留武汉的人数,为政府防控提供(gòng)了决策参考(kǎo);再比如12306票务平台,利用实名制售(shòu)票的大数(shù)据优势,及(jí)时配合(hé)地方政(zhèng)府及各级防控机构,第一时间提(tí)供了确(què)诊(zhěn)病人车上(shàng)密(mì)切接触者信息。
此(cǐ)外,利用大数据技术实现信息(xī)共享(xiǎng)、快速查询,很多媒(méi)体平台和互联网平台纷纷(fēn)开(kāi)辟了新冠肺炎动态更新、疫(yì)情(qíng)展示和辟(pì)谣功(gōng)能(néng),使用(yòng)者在鱼龙混杂的信息当(dāng)中回归(guī)理性,让权(quán)威信息“跑”在谣言前面,及时安(ān)抚了公众(zhòng)情绪,从另一个层面“抑制(zhì)”了病毒蔓延。
在预防层(céng)面,针对人员(yuán)聚集可以进(jìn)行预警;在扩(kuò)散(sàn)源头方面,把数学模(mó)型和人(rén)员社交(jiāo)特征结合,可以很好(hǎo)分(fèn)析扩散路径与速(sù)度,制定(dìng)更(gèng)有针对性的对(duì)策与措施“北(běi)京此次做到了(le)精(jīng)准分级,没(méi)有‘一刀(dāo)切封城’,而以街道(dào)为单位划分风险(xiǎn)等级,进(jìn)行(háng)分级管(guǎn)控。”宋怀(huái)明(míng)认(rèn)为,这都是大数据起到了重要的作用(yòng)。
与国内相比,在大数据预测分析流行(háng)病(bìng)方面,国外已经有了比较成(chéng)熟的探索和实践(jiàn),早在2008年,谷歌便发布了“Google Flu Trends”(谷歌流感趋势),利用关键词追踪技(jì)术搜(sōu)集数据(jù),如(rú)果在某一(yī)地区的某一时间段内(nèi),有大量关于(yú)流感、发热、感冒等关键词的搜索,就表明此地存在潜(qián)在的感染人群,需要引起相关(guān)部门(mén)的重(chóng)视。
谷歌曾经开(kāi)发了软件,利用大数据分析流感趋势(shì),但最终以失败告终(图片来自网络)
2009年,墨西(xī)哥爆发的(de)猪(zhū)流(liú)感,研究人(rén)员也曾利用通(tōng)信数据监(jiān)测,从而获取公众对于政府发布的健康预(yù)警(jǐng)信息的反应,以指导有关部门更好调(diào)整政策;2014年(nián)埃(āi)博拉疫(yì)情在(zài)西非爆(bào)发(fā),研究人员同样基于手机通(tōng)信数(shù)据建模,对(duì)传(chuán)染病的流行(háng)进行了判(pàn)断与分析。
不难发现,有了大数(shù)据+人工智能(néng)加持的(de)公共卫生领域:一方面在行动效率上(shàng)更高更快,有效减(jiǎn)缓(huǎn)了传染(rǎn)病的传播与扩散(sàn);另一方面,同样可以起(qǐ)到,提供预测与分析的重要作(zuò)用。
未雨(yǔ)绸缪
大数据应用如何“更高、更快、更强”?
新冠疫情情暴发后,大数据在疫(yì)情(qíng)排查等方面得到迅速(sù)应用(yòng),国内各领域、行业、机构、部门纷纷利用大数(shù)据技(jì)术,加强互联互通,加(jiā)速了(le)整个(gè)社会力(lì)量的整合,对疫情处置发挥(huī)了不可小(xiǎo)觑的作用(yòng)。
但大(dà)数据(jù)应用并非完(wán)美体,随着疫情应对(duì)的深入,它也(yě)暴露出了(le)不(bú)少(shǎo)短板(bǎn),和仍(réng)需(xū)提高完(wán)善(shàn)的之处。
首(shǒu)先是准(zhǔn)确性问题,从目前的技(jì)术水(shuǐ)平来看,大部(bù)分城市的大数据应(yīng)用(yòng),聚(jù)焦在城(chéng)市日(rì)常生活管理场(chǎng)景、基础保障(zhàng)场景,例(lì)如(rú)在(zài)金融领域、安防领域、交(jiāo)通规划领域等等(děng);但在疫情期间(jiān),需要寻求(qiú)解决方(fāng)案的(de)“突发公共卫(wèi)生事件场景”,不可(kě)控的因素较多,很容易让一(yī)些常规算法暴露短板(bǎn),甚至出现数据不准(zhǔn)确的问题(tí)。
例如此次新发地防疫过程当中,由于大数据信息无法准确分辨(biàn)“去过(guò)”和“路过”新发地市场的区别,加上(shàng)可操(cāo)作时间较(jiào)短(duǎn),最终出现了“一刀切”的情况,有些乘坐公共交通工具途径(jìng)新发(fā)地(dì)的市民,也收到了要求进行(háng)核酸检测的短信(xìn)或通(tōng)知,让(ràng)人颇感意外。
对此吴尊友认为,大(dà)数据(jù)筛查过程当中,由于时间较短,精(jīng)力有限,的确存在一些错误(wù)判断的(de)情况,有些(xiē)没有危险暴露的市民,也(yě)被要(yào)求填(tián)写信息检测核酸“但数量(liàng)只是(shì)一小(xiǎo)部分,目前首(shǒu)要任务还是(shì)控(kòng)制疫情,未来还有改进提(tí)高的空(kōng)间(jiān)。”
宋怀明也认为,除了发(fā)短信以外,排筛查的手(shǒu)段也包括打(dǎ)电(diàn)话、上门走(zǒu)访和自(zì)我填报(bào)等等,目的(de)就是为了最大程度减(jiǎn)少在(zài)突发公卫事(shì)件(jiàn)当中,大(dà)数据(jù)应(yīng)用的不准确性和不确(què)定(dìng)因素。
其次(cì)是大数据决策问题,宋(sòng)怀明表(biǎo)示,从(cóng)实际效果(guǒ)来看(kàn),大数据目前的作用(yòng),更多地依然停留在分(fèn)析和(hé)辅助决策方(fāng)面,只有很(hěn)少(shǎo)一部(bù)分能够(gòu)进行自动决策“从数据角度来看,这(zhè)样的(de)做法(fǎ)是更科学的,但从时间和效率来看(kàn),这样的手段(duàn)依(yī)然(rán)有较大(dà)待提(tí)升提高空间。”
出于防控需要,很多人的个人信息被“暴露”在(zài)APP、小程序或是登记单、记录本当中(zhōng),哪些是合理采集,哪(nǎ)些又属于过度采集,如果个人(rén)信息泄露(lù)了怎么办?目前依然有待商榷(què)(图片来自网络)
在数据立法、数据(jù)安全方面,相关(guān)法律法规也(yě)不(bú)够健(jiàn)全:记(jì)者了解(jiě)到,国家层面目前还没(méi)有出台(tái)针对公共数据管理的法律法规,省市层面也基(jī)本(běn)处于各自为(wéi)战的局面,一些地方出台(tái)了法律条例,一些地(dì)方仅仅出台了规章办法,还有(yǒu)一些地方并未就此立法。
这在无形中给数据安全和个人隐私(sī)性,带来了不确定(dìng)因(yīn)素——疫情期间,多地出现了个人隐私(sī)泄(xiè)露事件(jiàn),引发了公众(zhòng)的担忧;出于防控需要,很多(duō)人的个(gè)人信(xìn)息(xī)被“暴(bào)露”在APP、小(xiǎo)程序(xù)或是登记(jì)单、记录本当中,哪些(xiē)是(shì)合理采集,哪些又属于(yú)过度(dù)采集,如果个人信息泄露了怎么办?目前依然有待商榷(què),
实际上(shàng),加强信(xìn)息(xī)共(gòng)享,消除信(xìn)息孤岛,同时做好个(gè)人隐私和(hé)数(shù)据安全的保护(hù),不仅对当下抗击疫情至关重要,对(duì)实现政府决策科学化、社(shè)会治理(lǐ)精准(zhǔn)化、公共服务高效化(huà)也(yě)有巨大的推动作用。
“未来要着力规范数据的所有权、使(shǐ)用权和使用规范,要保(bǎo)护好公众的隐私和数据安(ān)全。”宋怀(huái)明强调,有关部门既要把握好公众知(zhī)情权,与保护(hù)公众隐私之间(jiān)的关系“也要尽可能的(de)把公众关心的数据(jù)全面、及时、准确(què)地发(fā)布出来,并充(chōng)分(fèn)调(diào)动社会力量积极参与,形(xíng)成大数据共享的合力”。