编者按:2021 年 11 月我国推出严厉程度全球居前的数据隐私保护法以来,常听到律师朋友谈起数据合规咨询。但更实际的问题是:新规对企业数字化意味着什么?本文分享海外同类法规对企业数据治理产生怎样的影响,并提出数据合规治理的若干关键议题。
当修理汽车的成本超过其总价值时,汽车就会被计算在内。按照这种逻辑,数据隐私设计立法可能很快就会在一些最强大的科技公司中促进他们对数据管道和架构的整合。
这些数据架构是在更强大的用户隐私法出现之前已完成开发的,例如欧盟的 GDPR(2018 年)和加州消费者隐私法(2020 年)。因此,它们的基础架构在设计时没有考虑某些数据隐私保护设计原则,包括「k-匿名 / k-anonomity」和「差分隐私 / differential privacy」。
但问题超出了试图在现有算法之上实现数据隐私合规机制的范围。现有数据架构变得如此复杂和笨拙,以至于公司甚至可能不知道它们是否合规运行中。正如 Meta 工程师在一份泄露的内部文件中所说的:「我们对系统如何使用数据没有足够的控制和解释能力,因此我们无法自信地做出受控的政策变更或外部承诺。」
(当我们要求 Meta 发表评论时,一位发言人向我们介绍了该公司关于泄露文件的原始回复,其中部分内容是:「该文件从未计划用于表达我们为遵守世界各地的数据隐私法规而制定的所有流程,或用于充分解释我们目前的数据隐私管制方式和控制方式。」)
随着政府越来越多接受设计隐私 (PbD – Privacy by Design) 立法,科技公司面临着一个选择:要么从头开始,要么尝试修复陈旧、极其复杂且已经不合规的数据管道和架构。一些计算机科学研究人员说,重新开始是唯一的出路。但对于科技公司来说,重新开始需要工程师在不中断日常运营的情况下去升级核心数据基础设施——这是一项说起来容易做起来难的任务。
Motherboard 于 4 月底公布了该泄露的内部文件,该文件由 Meta 工程师于 2021 年编写。在文件中,一个工程团队建议对数据架构进行更改,以帮助 Meta 遵守一波拥护「同意制度」的政府立法浪潮,这是 PbD 的核心原则之一。印度、泰国、韩国、南非和埃及都在准备这一领域的「有影响力的法规」,该论文还预计美国联邦隐私法规将在 2022 年及以后出台。此类立法通常要求 Meta 在收集广告数据之前获得用户同意。
Meta 工程师将「我们挑战的核心」确定为缺乏「封闭式系统」。他们说,封闭系统会让 Meta 枚举和控制所有传入的数据流。工程师将其与已融入公司文化十多年的「开放边界」系统形成鲜明对立。
工程师说,Meta 的系统变得越来越复杂和无法追踪,并引用了从大约 6000 个数据表中提取的单个特征(“user_home_city_moved”)的例子。
密歇根大学计算机科学与工程助理教授 Nikola Banovic 告诉我们:「这些是巨大的数据管道,将大量数据输入到许多不同类型的算法中。」「因为一开始从来没有考虑过,现在分解这类数据架构变得越来越困难。」
Nikola Banovic 说,泄露的文件显示了 Meta 内部团队对在一个一切都是公平竞争的时代设计的系统进行一次大修理的挫败感。他指出,数据隐私社会团体正在迫使公司现在围绕最终用户设计系统。
「这并不容易,」Banovic 谈到这一转变时说。他补充说,「虽然从技术角度增强用户隐私是可能的,但在线行为广告从根本上与该目标是冲突的。」
卡内基梅隆大学博士后研究员 Hana Habib 表示,追踪这种规模的数据流的挑战并不是 Meta 独有的。「我敢肯定,像谷歌和推特这样的大型科技巨头——都面临着这个问题,仅仅是因为他们的运营规模,」她告诉我们。 Habib 指出,大多数最大的科技公司都面临 GDPR 罚款。
研究人员已经牢牢掌握了使现有算法加强用户用户隐私保护的方法。例如,「K-匿名化」是一种用户隐私技术,可确保数据充分聚合,从而无法通过家乡和就业等综合因素来识别任何个人。「差分隐私」是一项已经研究了十多年的标准,它保证观察算法输出的人无法知道它是否包括来自特定个人的数据。
多年来,Big Tech 工程师一直在研究、应用并偶尔推进这些隐私标准。例如,谷歌在 2014 年左右在 Chrome 中实现了差异化隐私匿名化,此后一直致力于将其扩展到谷歌地图和智能助理。 2018 年,Meta 实现了「差分隐私」合规并允许学者访问用户数据以评估社交媒体对选举的影响。苹果在 2017 年发表了一篇深入的研究论文,介绍了其将差分隐私应用于表情符号推荐和查找提示等功能。
如果你有 10 件事要做,如果你有资源可以花在三件事上,你会选择哪些?
但一些消息人士称,问题在于规模和「需求蔓延」,而不仅仅是技术。
「按法规规定,当消费者并不真正了解自己(数据隐私)时,他们的软件/系统会向消费者提示有关其数据隐私方面的提示和提醒。但是这些互联网公司连自己的涉隐私数据如何管制的都不清楚」哈比卜说。
数据治理初创公司 Privacera 的首席执行官兼联合创始人 Balaji Ganesan 表示,公司通常无法了解其数据的使用和存储位置。 Ganesan 告诉我们,数据科学家经常复制数据而不将其传达给更广的组织。因此,当客户随后要求删除他们的数据时——因为他们在 PbD 框架下享有权利——一家大型科技公司甚至可能不知道该怎么做。「真正的挑战是了解用户涉隐私数据在哪里,」Ganesan 说。
为了遵守用户隐私法规,公司需要从头开始构建数据架构和采集管道,Jane Im 博士、密歇根大学计算机科学与工程专业的候选人如是说,「如果他们真的想遵守,他们应该限制他们收集的数据量,」Im 博士告诉我们。
我补充说,Facebook 和其他公司习惯于为他们的业务使用「大量数据」。「Facebook 重新训练模型是否可行?」她大声问道,如果有机会,用户是否会同意「跟踪用户的大量行为,包括场外行为」。
「由于这些隐私法规是在这些系统建成后出台的,因此很难改造现有系统以匹配这些新的数据隐私法律,这些法律非常全面,似乎符合人们对数字隐私的实际需求,」哈比卜说。
对隐私有利的东西通常对企业和业务不利,但不一定非要如此。与该领域的许多情况一样,结果取决于如何实施。
密歇根大学计算机科学与工程系助理教授 Ben Fish 告诉我们:「我们不应该对数据的准确性也取决于上下文这点感到惊讶。」「但不能保证隐私技术会让系统变得更糟糕——它们可以让系统变得更好。」
在泄露的文件中,Meta 工程师表示,解决隐私挑战将「需要对广告和我们的基础设施团队进行额外的多年投资,以控制我们的系统如何采集、处理和提取数据。」作者估计,这项工作需要将大约 600 年的工程时间分配给相关项目。
Meta 的文档显示了对系统进行返工以更加符合隐私要求对的资源投入的密集程度。分配这些资源显然成本高昂,因此监管机构面临的挑战是:对违规者的处罚成本高到足以将隐私权推到产品设计和实施的优先级工作中。
Ganesan 表示,高管们必须在将资源分配给隐私计划和其它业务优先事项之间做出选择,「归根到底,在公司决策的最高层级,如果你有 10 件事要做,如果你手头资源只能花在三件事上,你会选择哪几件?」。 Ganesan 还表示,优先考虑用户隐私数据处理的投资意愿是最不足的。
使投资计算进一步复杂化的是,一些消息人士表示,他们认为从开放系统向封闭系统的转变只是第一步。
「即使是关于数据隐私的控制功能应该放在平台的什么位置使得它们容易被发现、可发现——以便人们知道他们可以在实际操作中做到合规——这也是一个依然没有现成解决方案的研究课题,更不用说要采取什么措施去创建这些控制用户数据的庞大、庞大的数据架构和管道,」Banovic 如是说。
然后,我们看看消费者方面:「我们需要对用户进行更多的教育,这可能会导致更多的集体行动,」Im 说。根据她引用的几篇研究论文,大多数社交媒体用户并不了解在线行为广告商业模式在多大程度上收集他们的数据来牟取利益,「这个事就得追溯到媒体公德的基本面啦」Im 如是说。
(作者:Hirsh Chitkara;封面摄影:Thijs van der Weide)