莱斯大学的计算机科学家发现了一种廉价的方式,让科技公司在使用或共享大型机器学习数据库时实施严格的个人数据隐私形式。
赖斯计算机科学副教授 Anshumali Shrivastava 说:“如果可以确保数据隐私,那么在很多情况下机器学习可以使社会受益。” “例如,如果我们可以训练机器学习系统在大型医疗或财务记录数据库中搜索模式,那么改善医疗或发现歧视模式的潜力巨大。今天,这基本上是不可能的,因为数据隐私方法无法扩展。 ”
Shrivastava 和 Rice 研究生 Ben Coleman 希望通过他们本周在 CCS 2021 上展示的一种新方法来改变这种状况,CCS 2021 是计算机协会关于计算机和通信安全的年度旗舰会议。Shirvastava 和 Coleman 使用一种称为局部敏感哈希的技术,发现他们可以创建一个庞大的敏感记录数据库的小摘要。他们的方法被称为 RACE,它的名字来自这些摘要,或“计数估计器的重复数组”草图。
Coleman 表示,RACE 草图既可以安全地公开使用,又可用于使用内核总和的算法(机器学习的基本构建块之一)以及执行分类、排名和回归分析等常见任务的机器学习程序。他表示,RACE 可以让公司既获得大规模分布式机器学习的好处,又维护一种称为差异隐私的严格数据隐私形式。
被不止一家科技巨头使用的差分隐私是基于添加随机噪声来掩盖个人信息的想法。
“今天有一些优雅而强大的技术可以满足不同的隐私标准,但它们都没有规模,”科尔曼说。“随着数据维度的增加,计算开销和内存需求呈指数增长。”
数据的维度越来越高,这意味着它包含许多观察结果和每个观察结果的许多单独特征。
他说,用于高维数据的RACE 草图比例尺。草图很小,构建它们的计算和内存要求也很容易分布。
“今天的工程师如果想使用内核总和,要么牺牲他们的预算,要么牺牲用户的隐私,”Shrivastava 说。“RACE 改变了发布具有差异隐私的高维信息的经济学。它简单、快速且运行成本比现有方法低 100 倍。”
这是 Shrivasta 和他的学生的最新创新,他们开发了许多算法策略,使机器学习和数据科学更快、更具可扩展性。他们和他们的合作者已经:为社交媒体公司找到了一种更有效的方法来防止错误信息在线传播,发现了如何将大规模深度学习系统训练到“极端分类”问题的速度高达 10 倍,找到了一种更准确的方法并有效地估计在叙利亚内战中遇难的已确认受害者人数,表明训练深度神经网络是可能的在通用 CPU(中央处理单元)上的速度比 GPU(图形处理单元)快 15 倍,并减少了搜索大型宏基因组数据库所需的时间。
参与评论
登录后参与讨论 0/1000