图片来源:图虫创意
投稿来源:陈根
当前,与传统的资本、土地、劳动、技术等一样,数据已成为重要生产要素之一。其与算力、算法组合,作为一种新型社会生产力,在人们的生产生活中发挥显著作用。越来越多的业务场景需要多方数据的流通和共享。
然而,即便社会各界高度认同数据生产要素的重要意义,但合理挖掘、释放和使用数据要素所蕴含的巨大价值,依然需要克服横亘在人们面前的,亟待解决的客观难题。
一方面,在现实世界中,受制于数据的分散性、低复制成本以及价值聚合性,数据仍呈高度分散的状况,“数据孤岛”十分明显;另一方面,蕴藏着巨大价值的数据能够以极低的成本复制和无限使用,这种“野蛮掘金”的诱惑导致了各种各样数据泄露、盗用、滥用等问题案件的发生。
为克服这两大难题,隐私计算应运而生。
双重需求驱动隐私计算
隐私计算,广义上是指面向隐私保护的计算系统与技术,涵盖数据的产生、存储、计算、应用、销毁等信息流程全过程,以期达成使数据在各个环节中“可用不可见”的效果。正如上述,隐私计算的兴起和发展源于数据融合和隐私保护的双重需求驱动。
从数据融合来看,当前,数据流通不畅已成为制约我国大数据产业发展的重要问题。数据拥有者出于数据安全保密的顾虑而不愿共享数据,使得不同企业、不同机构间难以利用对方的数据进行联合分析或建模。
究其原因,数据具有分散性、低复制成本以及价值聚合性,分散性是数据持续不断地从各个途径产生,来源分散,缺乏数据授权、获取、存储、传输、验证及共享等交互标准;分散性叠加数据极低的复制成本,使得很多情况下,各个数据所有方不愿意、不能够共享数据。
因为一旦分享,就失去了对数据的控制权,加上数据互联互通的成本较高,这就形成了“数据孤岛”。即使数据能联通,它们的可信程度也存有疑问。同时,数据又具有价值聚合性,即单一数据源的价值有限,多维数据、海量数据的联合应用的价值更高。
于是,数据的分散性、低复制成本以及价值聚合性,不断构成矛盾——数据需要聚合才能有价值,但数据却分散成一个个“孤岛”。
基于此,隐私计算作为一种由两个或多个参与方联合计算的技术和系统,参与方可以在不泄露各自数据的前提下通过协作对他们的数据进行联合机器学习和联合分析。隐私计算的参与方既可以是同一机构的不同部门,也可以是不同的机构。在隐私计算框架下,参与方的数据不出本地,在保护数据安全的同时实现多源数据跨域合作,可以破解数据保护与融合应用难题。
对于隐私保护来说,数字经济时代下,数据作为生产要素的重要性日益凸显,加之数据的频繁泄露,数据隐私安全成了时下亟待解决之痛。当前,从信息处理过程中的隐私保护方法来看,隐私保护主要分为访问控制技术方法、信息混淆技术方法、密码学技术方法等三类。
但无论是访问控制技术方法、信息混淆技术方法、密码学技术方法的隐私保护方案都主要是针对特定场景局部数据集的具体算法,缺少针对特定场景动态数据集的算法框架,更缺少适应多场景动态数据集的普适性算法框架。
此外,针对多媒体数据需要多个隐私保护算法的组合,而目前也缺少成熟的方案。将不同隐私保护算法互相叠加以获得更好保护效果的方法则仍待开展研究。简单来说,现有的隐私保护以及隐私度量方案零散孤立,还缺乏隐私信息操作审计和约束条件的形式化描述方法。
尚未有将隐私保护与隐私侵犯取证追踪一体化考虑的方案,无法构建涵盖信息采集、存储、处理、发布(含交换)、销毁等全生命周期各个环节的隐私保护和隐私侵犯取证追踪的技术体系。而隐私计算则突破了现有隐私保护的局限,在处理和分析计算数据的过程中能保持数据不透明、不泄露、无法被计算方以及其他非授权方获取。
不论是数据融合还是隐私保护,不论是打通融合多方数据,创造整合多维数据、释放更大数据价值,并保证数据的可靠性,隐私计算都正在成为一个答案。
隐私计算或成关键技术
隐私计算是面向隐私信息全生命周期保护的计算理论和方法。
具体来说,作为面向隐私信息全生命周期保护的计算理论和方法,隐私计算是在处理视频、音频、图像、图形、文字、数值、泛在网络行为信息流等信息时,对所涉及的隐私信息进行描述、度量、评价和融合等操作,形成一套符号化、公式化且具有量化评价标准的隐私计算理论、算法及应用技术,支持多系统融合的隐私信息保护。
隐私计算涵盖了信息所有者、搜集者、发布者和使用者在信息采集、存储、处理、发布(含交换)、销毁等全生命周期过程的所有计算操作,是隐私信息的所有权、管理权和使用权分离时隐私描述、度量、保护、效果评估、延伸控制、隐私泄漏收益损失比、隐私分析复杂性等方面的可计算模型与公理化系统。
2019年,《UN Handbook on Privacy-Preserving Computation Techniques》中提到,隐私保护计算是在提供隐私保护的前提下,实现数据价值挖掘的技术体系。也就是说,隐私保护计算并不是一种单一的技术,它是一套包含人工智能、密码学、数据科学等众多领域交叉融合的跨学科技术体系,并在实践过程中,实现数据的“可用不可见”。
从技术理论来看,隐私数据主要分为密码学和可信硬件两大领域。密码学的技术目前以多方安全计算(MPC)为代表。多方安全计算技术核心思想是设计特殊的加密算法和协议,从而支持在加密数据之上直接进行计算。目前MPC通过秘密分割、不经意传输、混淆电路或同态加密等专门技术实现,通用性相对较低、性能处于中等水平,但近年来性能提升迅速、应用价值极高。
可信硬件技术目前主要指可信执行环境(TEE),其核心思想是构建一个硬件安全区域,数据仅在该安全区域内进行计算。可信执行环境(TEE)通过硬件技术来对数据进行隔离保护,将数据分类处理。支持TEE的CPU中,会有一个特定的区域,该区域的作用是给数据和代码的执行提供一个更安全的空间,并保证它们的机密性和完整性。
TEE将信任机制交给硬件方(Intel的SGX、ARM的TrustZone、AMD的SEV等产品),严格来讲并不属于“数据可用不可见”,但其通用性高、开发难度低,使得在数据保护要求不是特别严苛的场景下存在价值发挥的可能。
此外,国内外还衍生出了联邦学习、共享学习、知识联邦、联邦智能等一系列“联邦学习类”技术。这类技术以实现机器学习、数据建模、数据预测分析等具体场景为目标,通过对上述技术加以改进融合,并在算法层面进行调整优化而实现。
其联邦学习作为近些年新崛起的新兴人工智能技术,在2016年由谷歌最先提出。其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多个参与方或多个计算节点之间开展高效率的机器学习。
隐私计算不泄露原始数据,可以在保护数据安全的前提下实现数据多元跨域融合,有助于破解数据保护与利用之间的矛盾。Gartner在2019年技术成熟度曲线报告中首次将隐私计算(其称为机密计算)列为处于启动期的关键技术。世界经济论坛也在2019年9月发布的白皮书中认为,隐私计算技术将成为释放金融服务行业新价值的关键技术。
建久安之势,成长治之业
近两年来,伴随着技术的不断成熟,国内外隐私计算产业化应用的步伐明显加快。
国外隐私计算技术产品创新活跃,但仍处于发展初期。从整体发展情况来看,国外的隐私计算产品形态仍处于较为初步的阶段,未形成产业生态圈,也尚未形成垄断格局。
2019年以来,国外科技巨头快速布局隐私计算产业。2019年4月微软新发布的两项专利申请表明,其正考虑在拟推出的区块链产品中使用TEE。2019年8月,谷歌发布消息称,将推出新型MPC开源库,以隐私安全的方式进行数据协作。麻省理工学院背景的初创公司Enigma也推出了基于MPC的新加密系统。
在国内,从2018年开始,无论是BAT等大厂,还是成熟的大数据公司,或是初创型科技企业,也已接连入局隐私计算。蚂蚁金服、腾讯云、百度在2019年纷纷推出了各自的MPC产品。阿里巴巴、微众银行、京东等企业也在各自的技术领域形成一定优势。
目前,各互联网巨头企业均在隐私计算领域加快布局,形成跨业务、多团队、强支撑的发展态势。此外,华控清交、富数科技、矩阵元、数牍科技、锘崴科技、光之树科技、零知识科技等一批专注于隐私计算产品化的初创企业也不断涌现。诸多区块链企业、数据安全企业、金融风控企业、电信企业等也纷纷拥抱隐私计算技术。
资本市场也动作频频,成立不到两年的华控清交已完成多轮融资,投资方包括清华大学、中国互联网金融协会、北京市海淀区创业扶持基金、香港交易及結算所有限公司(港交所)、联想集团和高榕资本等。可以说,在大数据产业快速发展的牵引下,我国隐私计算技术产品正在逐步成熟、应用场景快速扩充。
尽管隐私计算被市场广泛看好,但从技术研究、产品开发、实际应用落地到最后商业化,隐私计算产业在走向成长的过程中依然面临着一系列问题和影响因素,进而制约了大范围推广和商业化进程。
首先,技术和解决方案还不够完全成熟,与客户的需求有一定差距。隐私计算的技术效率还有待进一步提升。比如,MPC和联邦学习技术都受制于网络传输的带宽、通信速率和网络稳定性,计算和建模效率尚不够令人满意;同态加密的计算有严重的性能瓶颈。
由于计算效率和安全性等问题,现有系统产品还比较复杂,工程化程度还不够完善,会产生一定维护成本,但客户对复杂系统的维护费用支付意愿较弱,可是单纯售卖系统的毛利较低甚至不足以覆盖成本。
其次,技术的安全可靠性有待提高,且目前缺乏可靠的技术标准认定,导致客户对采纳技术有疑虑。也就是说,隐私计算的技术效果和安全性仍然不够让人信服。TEE技术因为中心化可信程度和硬件的安全性、依赖性、内存容量等问题而饱受质疑;联邦学习需要模型梯度传递,但梯度也有可能泄露一些信息;差分隐私的计算结果准确度有较大不确定性。
在这种情况下,国家缺乏明确的监管文件和技术标准认可隐私计算的安全可靠性。所以,很多客户都对如何证明技术的安全合理性有疑虑,只能在小范国内测试和监管沙箱内应用。
其三,现有法律法规未对隐私计算地位进行明确定位。例如,《中华人民共和国网络安全法》中规定“未经被收集者同意,网络运营者不得向他人提供个人信息”,同时设置了“经过处理无法识别特定个人且不能复原”的例外条款。将个人信息用于隐私计算是否属于这一例外条款,法律法规及相关标准等并无明确界定。
然而,由于隐私计算仅仅避免了原始数据转移的过程,但仍然完成了基于多方数据的计算,使得其在某种程度上依然破坏了消费者的隐私。这正在成为制约隐私计算发展的无法回避的问题。
最后,市场对于隐私计算的认知度、认可度仍然不足。市场需求尚未充分展现,还缺乏明确的拉动性政策和标杆性示范项目。此外,很多行业的数字化程度低,数据管理方式较为粗放,尚未建立成熟的数据管理体系,制约了数据价值挖掘的需求。
隐私计算是服务于数据的技术,为满足数据分享流通的需求而生也为解决该需求与隐私保护等监管规制的矛盾而生。但在前几年,技术的扩散主要依靠厂商自行推动,宏观环境上缺乏打开市场需求的助力。
在数字时代,数据的重要性不言而喻。随着各行各业的数字化深入,数据的融合应用也成为一个重要趋势。在这个过程中,如何打破数据孤岛的壁垒,实现数据共享,也是整个行业亟待解决的难题。隐私计算应运而生,或将成为释放数据价值的一个答案。因此,只有建久安之势,才能成长治之业。