数据交易正红火,隐私计算成数据背后最大的“赢家”

微观人 2022-02-18

大数据信息安全

3539 字丨阅读本文需 9 分钟

大数据交易迎来一波热潮。今年1月,湖南大数据交易所在长沙试运营。这是继贵州、陕西、北京、上海之后,国内最新设立的新型大数据交易所。与此同时,多地政府和企业也在积极筹建数据交易场所。

作为新的生产要素,数据被称为数字经济时代的“石油”,价值巨大不容忽视。大数据交易升温背后的底层逻辑是什么?挖掘这一宝贵资源需要做好哪些准备?

北京、上海等地发力数据交易

据不完全统计,自2014年以来,我国先后有40多个城市宣布筹建或正在筹建数据交易场所。此外,还存在大量以某个企业为主开展数据交易的场所。

在新一轮技术和产业变革下,每天、每分钟都在不断产生的数据,与土地、劳动、资本等一样被列为生产要素,对经济社会发展发挥着日益重要的作用。

数据被誉为数字经济时代的“石油”。专家表示,如同石油驱动了工业化时代的发展,大数据将驱动信息与智能化时代的发展。正因如此,数据的商品属性也日益凸显。

不过,据大数据流通与交易技术国家工程实验室常务副主任、复旦大学教授黄丽华观察,每年全社会数据量增长率约40%,但真正被利用的数据量增长率只有5.4%。

“我们需要让数据流动起来,真正让数据发挥价值。而要流动起来,就意味着需要有中间环节。”黄丽华说。

2020年4月,《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》发布,提出加快培育数据要素市场。各地纷纷出台与数据有关的条例和办法。近期,多地迎来大数据交易市场建设热潮。

2021年年底,上海数据交易所在浦东新区揭牌成立,首批签约“数商”为100家,登记挂牌的数据产品为20个。

2021年3月成立的北京国际大数据交易所,被业界称为开启全国数据交易所2.0时代的标志性机构。这家机构采用“数据可用不可见,用途可控可计量”新型交易范式,目前已入驻100多家单位。

“我们类似于一家大型超市。”北数所负责人李岷用这一比喻,来解释数据交易内容,“既有出售原始数据的‘生鲜区’,也有成品类数据产品的‘食品百货区’,还有‘订餐加工区’,能满足不同类型、层次客户多样化的交易需求。”

据介绍,北数所交易的产品包含数据、算法、算力等三类。如以“宫保鸡丁”来打比方,交易的不仅有“鸡肉或黄瓜”这样的数据原材料,也有“宫保鸡丁菜谱”这样的算法,还有制作成品菜的“厨房”——算力。

数据交易的基本流程是怎样的?

据介绍,“数商”先要找律师事务所进行合规审查,确认数据来源是否合法、加工是否得当,同时由质量评估机构进行质量评级,确认无误后,数据产品可在交易所挂牌。

那么,数据的价值如何评估?

黄丽华提出,数据产品可分为公共数据和非公共数据(商业数据),从具体定价方法来讲,公共数据定价一般采用加工成本加适当利润的方法,形成政府指导价格;商业数据产品定价常用的有成本加成定价法、需方收益定价法和市场定价法。

值得注意的是,并非所有数据都可交易。“只有可被计算机计算、具有一定通用性、可描述清楚、重复交易、符合国家法律规定的数据产品才能交易。”黄丽华说。

无场景不交易,个人隐私不碰

业内人士提醒,按下“快行键”的同时不能忘记系上“安全带”。目前,我国数据流通交易市场的建设仍处于探索期,很多人担心个人数据被交易,产生法律风险。

上海市经济信息化委信息化推进处副处长山栋明介绍,目前上海数交所的原则是不合规不挂牌、无场景不交易,个人隐私不碰,涉及国家安全、违背公共利益的都剔除在外。

如果将数据比喻为菜场里的土豆,在传统交易中,卖主不会关心买土豆是要做什么。而在数据交易市场,买方必须说明“土豆买来是为了炸薯条还是做炖菜”。

据了解,上海数交所会在数据产品挂牌前进行合规审查,专业机构对法律风险进行认证,分级分类确定数据安全等级。不同级别的数据将对应不同级别的交付方式。

对于事后数据购买方违约使用数据产品的行为,数据卖方可通过数据仲裁中心维权,确保数据购买方依法依约使用。此外,上海数交所目前还在探索建立诚信管理制度,将违约使用数据的企业列入上海数交所失信名单中。

李岷说,北数所正引入数据审计机制,如果第三方数据审计机构发现购买方违规使用数据,将向北数所及相关部门提供材料。

目前,全球多国已意识到数据资产的价值,纷纷出台相关法规。我国已形成个人信息保护法、网络安全法、数据安全法的合规“三驾马车”,也有多部涉及数据合规的法律法规、规章制度和国家标准。但专家坦言,数据合规审查在制度上仍存挑战。

国务院办公厅近期印发的要素市场化配置综合改革试点总体方案中提到,建立健全数据流通交易规则。探索“原始数据不出域、数据可用不可见”的交易范式,在保护个人隐私和确保数据安全的前提下,分级分类、分步有序推动部分领域数据流通应用。

“数据流通交易市场建设是复杂的系统工程,需从制度体系、市场体系、基础设施和监管体系建设等方面通盘考虑。在坚持边创新发展边优化体系的同时,还要加强理论与方法研究,指导我国数据交易市场有序健康快速发展。”黄丽华说。

数据要素市场改革 加速隐私计算兴起

伴随着数据要素市场改革加速,隐私计算技术成为数据价值安全释放的关键突破口,有望在金融、政务、医疗等行业实现快速应用,其千亿蓝海市场有望开启。

一方面,2020年出台的《关于构建更加完善的要素市场化配置体制机制的意见》,为推进数据要素市场化改革指明了方向,此后,深圳、北京、广东等地相继发文,规划设立交易场所进行大数据交易。

另一方面,《数据安全法》将于2021年9月1日正式实施,《数据安全法》将与《网络安全法》及正在立法进程中的《个人信息保护法》一起,为保护数据资源安全提供了法律依据。隐私计算技术是解决数据开放安全问题的重要突破口,在隐私计算框架下,参与方的数据不出本地,在保护数据安全的同时实现多源数据跨域合作,可以破解数据保护与融合应用难题。根据Gartner数据,到2024年,隐私驱动的数据保护和合规技术支出将在全球突破150亿美元以上,即达到千亿人民币以上。

隐私计算三大技术路径

常见的实现隐私计算的技术路径包括联邦学习、安全多方计算、可信计算等,此外区块链也是隐私计算的重要补充。

联邦学习

联邦学习是一种分布式机器学习技术和系统,包括两个或多个参与方,这些参与方通过安全的算法协议进行联合机器学习,可以在各方数据不出本地的情况下联合多方数据源建模和提供模型推理与预测服务。

在联邦学习框架下,各参与方只交换密文形式的中间计算结果或转化结果,不交换数据,保证各方数据不露出。

联邦学习可以通过同态加密、差分隐私、秘密分享等提高数据协作过程中的安全性。

联邦学习首先由谷歌公司于 2016 年提出,2018 年由微众银行引入国内,恰好遇到隐私保护、信息安全监管趋严,该技术很快就得到各大互联网公司、科技巨头、人工智能公司重视。

安全多方计算

安全多方计算是一种在参与方不共享各自数据且没有可信第三方的情况下安全地计算约定函数的技术和系统。

通过安全的算法和协议,参与方将明文形式的数据加密后或转化后再提供给其他方,任一参与方都无法接触到其他方的明文形式的数据,从而保证各方数据的安全。

安全多方计算的基本安全算子包括同态加密、秘密分享、混淆电路、不经意传输、零知识证明、同态承诺等。解决特定应用问题的安全多方计算协议包括隐私集合求交、隐私信息检索及隐私统计分析等。

由于安全多方计算需要消耗大量的计算和通信资源,目前应用更加适用于小规模数据量,并且应用主要是聚焦相对简单的统计、查询等类型的计算,而基于安全多方计算的联合建模框架只能支持相对简单的机器学习模型,如逻辑回归模型等。

可信计算

可信计算指借助硬件 CPU 芯片实现可信执行环境(TEE),从而构建一个受保护的“飞地”(Enclave),对于应用程序来说,它的 Enclave 是一个安全的内容容器, 用于存放应用程序的敏感数据与代码,并保证它们的机密性与完整性。

可信计算(TEE)是基于硬件和密码学原理的隐私计算方案,相比于纯软件解决方案,具有较高的通用性、易用性和较优的性能。其缺点是需要引入可信方,即信任芯片厂商。

此外由于 CPU 相关实现属于 TCB,侧信道攻击也成为不可忽视的攻击向量,需要关注相关漏洞和研究进展。

由于技术路径的不同,各类隐私计算技术均有其更加适用的场景:多方安全计算技术不依赖硬件且具备较高的安全性,但是仅支持一些相对简单的运算逻辑;可信执行环境技术具备更好的性能和算法适用性,但是对硬件有一定依赖;联邦学习技术则可以解决复杂的算法建模问题,但是性能存在一定瓶颈。

隐私计算进入蓬勃发展阶段

自2018年开始,隐私计算的技术和产品成熟度迅速提升,在我国加快培育发展数据要素市场、数据安全流通需求快速迸发的推动下,隐私计算技术的应用场景越来越多。

在金融领域,隐私保护计算为金融机构间甚至跨行业的数据合作、共享提供可能。

PSI 技术可以解决数据对齐时造成客户名单泄露的问题,联邦学习可以保证各方数据不出本地的情况下实现联合建模、预测等。

国内隐私计算在金融场景应用方面,以营销、风控端(反欺诈、反洗钱等)等为主要落地场景。

在政务领域,通过隐私保护计算和其他技术的结合,可以有效保护各政府部门的数据,在一定程度上解决政务数据孤岛问题,提高政府治理能力。

在医疗领域,医疗机构想要使用人工智能对某一疾病进行早期发现或临床诊断,一方面需要收集不同维度的数据包括临床数据、基因数据、化验数据等,另一方面也需要收集来自不同群体、不同地区的样本数据,单个医疗机构无法积累足够的数据来进行模型训练。

通过隐私保护计算,可以对不同的数据源进行横向和纵向的联合建模,保证各方医疗数据安全。

另外,对于 DNA 测试,用户可以通过 PSI 等技术将某段 DNA 序列和数据库进行匹配,实现遗传疾病诊断。

文章来源:金融界,新华每日电讯,远瞻智库

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:微观人
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...