引言
伴随着数据安全法和个人信息保护法的推出以及滴滴事件的发酵,近期“隐私计算”成为热词,尤其是在创投圈。然而,阳光之下没有新鲜事,隐私计算并非是什么新事物,而是对一系列已有理论从特定应用视角出发的概括与归纳。近年来,随着数字化社会的建设加速,监管机构和各行各业对于数据资产价值和数据隐私的重视度提高,隐私计算作为一个商业概念逐步浮出水面,也涌现了一批隐私计算企业,今年以来,一系列立法和安全事件的发酵更是将它推上了阶段性的小风口。隐私计算对于未来完善的数字化社会体系而言的重要性是毋庸置疑的,厂商们也在积极推动技术的迭代与标准体系的完善,不断的尝试商业化落地,在金融风控、精准营销、医疗等场景上初见成效,然而要想成为一个可以规模化的“生意”,它可能还有挺长的路要走。
一、数字化的世界的“隐私”问题
2020年4月,国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》中,数据与土地、劳动力、资本、技术等传统要素并列。
数据“升格”成为五大生产要素之一。不管是行业的内生动力、政策的推动还是疫情的催化,数字化正在成为不可逆的进程。未来的世界将是数字化的世界。
促进发掘数据使用价值的同时,如何保证数据使用的合法合规,是现阶段全球范围内政府、企业所关注的重点。特别是涉及到重要数据资产以及与个人隐私相关的数据,不管从政府监管还是企业自身的角度都需要:“保护数据提供方不对外泄露敏感数据的前提下,实现数据的计算分析。”也就是我们通常所说的:数据可用不可见、让数据的价值流动。这也是隐私计算所解决的核心需求。
二、隐私计算三大关键技术
隐私计算虽然诞生时间不长,但是其相关的理论与技术支撑实际已经拥有数十年的历史。比如上世纪80年代,姚期智院士提出的百万富翁问题及其“混淆电路”的解决方案。
“隐私计算”这一名词,在《通信学报》2016年发布的《隐私计算研究范畴及发展趋势》中被正式提出,包含了数据科学、密码学、人工智能等众多技术体系的交叉融合。
随后,国家工业信息安全发展研究中心的《中国隐私计算产业发展报告(2020-2021)》中对隐私计算进行了全面定义,提出了其包含了三大关键核心技术:
可信执行环境(TEE)、安全多方计算(MPC)与 联邦学习(FL)。
三大技术之间是互相协作的层级关系:可信执行环境(TEE)为隐私计算提供基础设施;多方安全计算在算法或算子层面,改进或优化安全性与性能;联邦学习主要侧重在应用层。
2020年12月18日,由中国信息通信研究院云计算与大数据研究所牵头,山东省大数据局、中移信息、联通大数据、中国工商银行、中国农业银行、阿里、腾讯、微众银行、百度、京东、华为等近50家单位共同发起成立隐私计算联盟。
同时,由中国信通院牵头,联合各家企业正在不断制定完善隐私计算各方面的测试方法,各类标准也在不断完善,各厂商们也在积极参与标准的制定与测试。
关键技术1:可信执行环境(TEE)
可信执行环境TEE(Trust Execution Environment,TEE):在芯片级硬件中划分一个受保护的区域,用于存放敏感数据与运行程序,保证其机密性。
隔离是其本质属性,以GlobalPlatform宣布的TEE系统体系标准为例,TEE为隐私计算在硬件层进行隔离,为代码的执行和数据的储存提供一个更加安全的地方,以此确保其机密性和不可篡改性。
即使攻击者设法在Rich OS(常规操作系统)中获得完全的管理员权限,它也不能访问TEE内的安全域。
TEE主要由硬件芯片设计厂商主导推进,包括苹果的T安全芯片、ARM的TrustZone、Intel的SGX、华为鲲鹏以及兆芯的TCT等。
TEE的发展历程如下:
TEE的应用场景包括:
-
数字内容保护。从技术能力上来说,TEE可以用来做数字版权管理(DRM),通过TEE,只有拥有特定秘钥或者经过应用开发商同意(比如你付费了)才可以获取到解密后的数据(例如播放电影)。
-
移动金融服务。TEE可以配合手机的NFC,安全元素(Secure Element,如SIM卡)以及可信后台系统来给用户提供安全的操作环境,让金融交易可以安全的进行。
-
认证。TEE可以很好的支持生物ID认证,比如面部识别,指纹传感器和声音验证,这种方式很难被窃取信息,比PIN和密码的认证方式要安全很多。
以认证为例,苹果iPhone的A系列芯片中包含了关于指纹/人脸信息的存储于计算区域,也是采用TEE的应用之一。
关键技术2:多方安全计算(MPC)
安全多方计算(Secure Multi-Party Computation, SMPC/MPC):在无可信第三方且参与方不共享各自数据的情况下,安全的完成约定函数计算,是一套基于密码学的体系。所衍生的算法有各种,包括:同态加密、差分隐私、不经意传输、秘密共享、混淆电路等。
安全多方计算的理论起源自一个著名问题 - 百万富翁问题:由姚期智在 1982 年提出并作出解答。
整体来说多方安全计算是属于算法/算子层面对隐私计算的实现,也分为很多技术路线或流派,同一技术路线也会有不同的具体算法。不同厂商的算法之间肯定存在“兼容”的问题。
我们基于百万富翁问题,从技术路线的角度,简要解释安全多方计算较为常见的几个算法定义,供参考。
(1)同态加密
同态加密定义:是一种允许在加密之后的密文上直接进行计算,且计算结果解密后和明文的计算结果一致的加密算法。
(2)差分隐私
差分隐私定义:通过对数据添加干扰噪声的方式保护所发布数据中潜在的用户隐私信息,即便攻击者已经掌握了除某一条信息以外的其他信息,该攻击者仍然无法推测出这条信息。
(3)不经意传输
不经意传输(Oblivious Transfer ,OT):由Rabin于 1981年首次提出,指数据发送方有n个数据,数据接收方接收其选定的一个数据,且不能获取其他数据,同时数据发送方无法知道接收方的选择。
(4)秘密共享
将秘密以适当的方式拆分,拆分后的每一个份额由不同的参与者管理,单个参与者无法恢复秘密信息,只有若干个参与者一同协作才能恢复秘密消息。
关键技术3:联邦学习(FL)
联邦学习(Federated Learning,FL):通过一个中央服务器协调众多智能终端实现语言预测模型,通过本地对模型进行训练,并将模型的更新内容上传至云端。整个过程数据不离开终端设备。最早是由谷歌提出,并将其实现落地。
其核心思想是:“数据不动、模型动”。
Google的TFF(TensorFlow Federated,2019年8月开源)和微众银行的FATE(2019年2月开源)是国内外联邦学习商业化产品的主要贡献力量之一。从开源社区热度而言,FATE高于TFF,在开源社区内已有超370家企业、164所高校合作,GitHub已获Star超3.4K。
FATE提供了一种基于数据隐私保护的分布式安全计算框架,为机器学习、深度学习和迁移学习算法提供高性能的安全计算支持,支持同态加密、SecretShare等多种多方安全计算协议。
应用场景
谷歌作为FL的最早提出与应用者,很早便用在谷歌输入法的智能拼写以及谷歌语音助手的AI能力训练等方面。例如:所有使用Google Assistant安卓手机正在为Google训练智能语音对话,但不会将用户的语音数据上传至云端。
国内将联邦学习应用较多的场景包括:
1)金融风控场景:单一分行的数据样本不够丰富,通过联邦学习对分行之间,甚至跨行之间进行风控模型的训练。
2)精准营销:用户在不同商户的消费数据,可以进行联合分析,对样本特征进行互补,实现更为精准的营销分析模型。
三、行业格局
海外行业格局
在国外,科技巨头及新兴科技企业很早便开始布局,但整体商业化进程比较有局限,主要以三类玩家为主:
-
科技巨头布局。微软深耕多方安全计算;Google率先推出联邦学习;Intel打造SGX作为硬件设施底座;IBM将云服务结合同态加密;FaceBook提出基于隐私计算的机器学习。
-
新兴公司积极创新。Sharemind、Privitar搭建自研的多方计算平台;Duality基于密码学开发的SecurePlus平台支持病毒基因分析。Zama(AI)、Enigma(区块链)等积极推进多方安全计算、同态加密的技术研发。
-
虚拟货币促进发展。美国的Unbound Tech和丹麦的Sepior集中于将多方安全计算应用于分布式秘钥管理领域。
国内行业格局
国内的隐私计算在政策以及隐私保护的大环境下,各类企业百花齐放,整体从概念验证到全面实施阶段。
几类玩家正在各自从不同路径发力:
-
互联网大厂:阿里巴巴、百度、腾讯、京东、蚂蚁等各互联网巨头凭借自己在技术领域的积累,自 2019 年开始纷纷推出了各自的隐私计算产品,形成了跨业务、多团队、强支撑的发展态势,集团内部不同业务根据自身的业务特点和需求,选择一种或多种技术方案融合的方式进行开发;
-
运营商:作为大规模数据资源拥有者的电信运营商为拓展业务形态,不仅三家运营商均在集团层面开始了隐私计算技术的选型与应用,天翼支付、电信云等子公司还自建平台服务于内部或其他机构的数据流通业务;
-
金融科技:是数据流通与安全应用最主要的需求者,国有银行的研究院或是事业部也均开始了隐私计算技术的研究工作。新心数科、神谱科技、平安科技、百融云创、度小满等金融科技类企业也将传统的数据建模、数据分析等业务拓展到基于联邦学习平台等的隐私计算服务中;
-
大数据厂商:同盾科技、星环科技、Talking Data、京信数科等代表性的大数据技术厂商也快速布局基于隐私计算的数据流通产品或平台。
-
专业隐私计算新兴公司:如华控清交、矩阵元、翼方健数、富数科技、数牍科技、等一批专注于隐私计算产品化的初创企业也不断涌现。
开源项目
同时,作为科技发展的越来越重要的开源生态,国内外众多科技巨头都在大力投入隐私计算开源生态的构建。同时,也将开源作为取得各使用方信任的合作基础。
目前国内外隐私计算领域的主要开源项目情况如下:
四、发展趋势
从技术上来说,隐私计算较数据的直接交换计算而言,毫无疑问增加了计算量,因此在保障安全性的前提下如何提高隐私计算的性能是技术发展的重点之一:
1.软硬件协同优化性能的提升、技术的可用性。硬件加速在隐私计算性能提升方面正在发挥越来越关键的作用,在算法不断优化的基础上,一些专用芯片和控件的使用将进一步提升隐私计算的性能。
2.逐步向大规模分布式计算迈进。2020 年以来,隐私计算逐渐成熟的一个表现就是分布式隐私计算的逐渐应用,为解决隐私计算在计算量方面的瓶颈供了优秀实践。
3.隐私计算作为通用技术设施,会与其他技术不断产生协同。区块链与隐私计算的功能是天然互补的,目前已成为诸多厂商的技术融合方向;隐私计算与云计算的协同,将在支持云端数据存储、处理的同时加强任务过程中的安全与隐私控制;而隐私计算与人工智能的协同,将有力推进数据智能的应用和发展。
隐私计算的目标在于促进多方数据之间的互联互通。但从应用现状看:
-
不同技术路径之间的差异明显;
-
而同一路径下不同厂商产品的实现方案也相互独立。
同类厂商之间尚未完成技术的互通。从长期发展来看,跨技术路径、跨系统平台之间的隐私计算技术工具的互联互通将成为广泛需求。在这种情况下,开源已经成为隐私计算领域不可忽视的力量,甚至可能引领隐私计算的标准与技术发展。
五、还不明朗的未来
隐私计算是属于基础设施类的产品,未来可能会像AI一样,渗透结合到各个应用领域,成为数字化世界的“安全管道”,承载数据的流通与交互;并且,隐私计算具有一定网络效应,同一产品使用者越多潜力越大,行业格局可能会向头部聚集。
目前隐私计算的各种技术路线正在高速迭代,想象空间巨大,但目前商业模式尚未成熟,各厂商都在积极探索落地场景。隐私计算是否会像AI技术一样,变成底层技术开源成为类公共产品,商业机会主要集中在应用端也未可知。
在数据安全与合规的前提下促进数据价值的流通与交换,这是数字化发展到一定阶段的痛点刚需,然而,目前所定义的隐私计算能否成为解决这一痛点的最终方案,是否可能会有新的技术路线产生,尚待时间验证。
数据安全和隐私合规与政策高度相关,各层级法律法规极大的推动了隐私计算的发展。但政策也会成为隐私计算行业发展的一个变量,大数据交易中心、数据交易所等机构的设立以及未来的职能覆盖也将对隐私计算行业格局产生深远影响。