你能记得疫情进入第三年时,每个清晨醒来后,最先做的那件事是去刷确诊数字的那些日子吗?当健康码不再使用、行程卡停止运行,百度疫情指数却依旧在持续更新,这个曾经每天点击次数达到上亿次的工具,直到现在为什么还在继续运行呢?
它不是体温计而是风向标
百度疫情指数并非属于卫健委的数据的复制品,在2020 年 2 月上线之际,它的核心逻辑就已然确定好了,即通过搜索行为去反向推断现实疫情状况,倘若一个人出现发热症状后可能会先去搜索“发热门诊”,要是一片区域关于这类搜索急剧增加,通常会比官方通报早三到五天。
提及北京海淀在2022年11月所经历的那轮疫情,依据百度指数呈现的情况来看,“连花清瘟”的搜索量在相关通报发布之前的四十八小时便已然实现了翻倍增长。再说大连于2021年遭遇的冷链疫情,“海鲜”以及“核酸”这些关键词在首例确诊病例出现之前就已经出现了区域性的峰值。它并非是用于诊断的工具,而是起到预警作用的工具。
这个存在的不同很多人并未弄明白,国家卫生健康委员会所通报的是已然确诊的情形,在百度上所看到的是正处于令人担忧的状况,担忧的人数一多,常常疫情就快要来临了。
七成数据来自你不经意的搜索
昨天你搜索了“咳嗽吃什么药”,今日又搜了“第二针加强针”,这些关键词自身不存在疫情方面的作用价值,然而当数亿人的相同行为聚集起来,便转化成了地图。百度疫情指数的底层数据涵盖三类,一类是症状类关键词,像发烧、失去嗅觉;一类是防护类,例如N95口罩、消毒液;此外还有政策类,比如行程码、封控。
被赋予权重的是每个关键词,在同一区域,当有多人同时搜索“胸CT”之时,相较于搜索“感冒冲剂”,这样的情况会触发更高的预警级别。这并非属于技术秘密,在2021年,百度公开过相关方法论。困难之处并非在于算法,而是在于清洗噪音,流感季出现的“发热”以及疫情暴发时出现的“发热”需加以区分,百度依托三年疫情数据对模型进行训练。
所有数据均匿名聚合,个体看不到,只有热力图。
它做过三件卫健委没空做的事
第一件事是疫苗犹豫追踪,在2021年全国接种攻坚期这个阶段,百度指数上线了“疫苗信心指数”,它能够分地域展示出有多少人搜索“疫苗副作用”,以及有多少人搜索“接种点”,从而给基层动员提供参考依据。某中部省份依据此情况调整了宣传口径,结果在一周内预约率提升了十二个百分点。
先来看此第二件,乃是物资短缺预警。在2022年的上海,周边城市对于“制氧机”“呼吸机”的搜索陡然增高,百度数据提前三天便捕捉到了医疗资源挤兑的苗头,之后这样的相关报告被报送至联防联控机制。
第三件事是长期新冠所受到的关注度,在2023年五月的时候,“二阳”的讨论热度有所提升,百度方面发现,“脱发”、“乏力”以及“脑雾”的关联搜索连续八周呈现上升态势,进而推动了多家医院开设新冠康复门诊,而这些情况在公共卫生教材当中均未涵盖,属于数字时代的新型疫情调查情况。
手机里也能看地图和曲线
因其操作门槛低使得它未被遗忘,微信小程序无需下载,直接在支付宝中搜索,哪怕是老年用户输入“疫情”也能够跳出本地数据,此界面由三屏构成,其中第一屏为三维地图,色块的深浅用以代表指数的高低,将手指进行缩放便能够看到街道级的差别之处。
趋势图在第二屏,可选择与去年今日、上周同期作对比。2023年春节前,不少返乡者借助这个功能判定老家是不是处在感染高峰。辟谣专区在第三屏,2024年春节“XBB毒株致腹泻”谣言传播之际,百度依据搜索暴跌数据制作辟谣海报,相较于单纯发文章更具说服力。
你们若只是单纯妄图通报数字,那就前往官网去查看。你们要是期望了解身边之人究竟在慌些什么,那就把指数给打开。
它让防疫少了些盲目
2022年,处在广州海珠区的网格员小陈,接受过央视的采访,他讲,一开始知道网格里出现了疫情,并非是等待通知,而是瞧见百度指数里同街道“买菜配送”的搜索,在五分钟之内由十七攀升到六百三,他预先申请了物资车,封控当日肉菜已然到位。
这并非是单独的例子,在2021年,南京禄口机场出现疫情外溢的情况时,存在一些地市,他们依据周边城市搜索“退票”以及“隔离政策”的增长幅度,提前三个小时就启动了交通管控措施,卫健委专家吴尊友在世的时候也引用过百度的数据,来解释当人口流动下降之后疫情依旧在传播的原因,就是搜索“聚会”以及“聚餐”的情况并没有同步下降。
于处在信息不对称状况下的疫情刚开始那段时期里,这般的民间所拥有的情报把缺失的部分给填补上了,它并非是去取代官方作出决策,而是让决策者额外增添了一双眼睛。
隐私争议从未停止过
百度疫情指数未曾触碰过健康码,然而它依旧面临着拷问,那便是:搜索记录究竟算不算隐私呢?疫情结束之后应不应该关停呢?在2023年《个人信息保护法》实施满一周年之际,有学者以它作为例子,觉得公共健康数据应当永久保持匿名化并且不可以被用于商业变现。
百度方面曾多次做出回应,声称所有指数都是依据汇总统计得出的,并不会对个体进行回溯,在疫情结束之后所保留的数据仅仅是用作医学研究。然而,用户心中的疑虑依旧存在。在2024年的时候,有一项网络调查表明,仍然有38%的受访者无法确定自己要是搜索“抑郁症”“艾滋病”的话,是否同样会被纳入到某个指数当中。
这属于所有大数据工具共同产生的一种情况,其带来的益处是切实存在的,而所付出的代价却是不清晰的,当前并没有堪称完美的解答。
1. 你认为自身于2022年末那一波感染期间,搜索了多少回跟新冠有联系的词汇呢?2. 倘若这些搜索记录能够助你提前三天晓得小区传播风险,你乐意匿名奉献出来吗?3. 在评论区讲讲你的抉择,以使更多人瞧见数据时代的公共责任探讨。


