数据共享或将开创新未来,漫谈我国实践数据共享的“道”与“术”

IT干货铺 2022-11-17
7845 字丨阅读本文需 18 分钟

“对于全球科技期刊来讲,开放科学带来了学术交流模式的变革,从原来传统的学术交流模式,转向新型的学术交流模式。”8月25日,中国科学院文献情报中心副主任、研究馆员张智雄在第十七届中国科技期刊发展论坛“开放科学与科学数据共享下的我国科技期刊新格局、新业态”高峰论坛上表示。

我国科技期刊在开放科学与数据共享背景下,将呈现何种新格局与新业态?如何在保障国家数据安全共享的同时,融入国际开放数据和传播平台?这是本次高峰论坛重点探讨的问题。

为什么要发展开放科学

自2002年《布达佩斯开放获取倡议》正式提出开放获取的概念以来,开放科学已成为集各种运动和实践于一体的包容性架构。为什么要发展开放科学,开放科学能解决什么问题?在张智雄看来,开放科学肩负时代使命,需要解决4个维度的问题,以实现全球发展。

直观来看,开放科学要解决的问题是期刊涨价危机。寻找一种非常高效和可负担得起的策略来支持科学研究,既让学术研究论文可以开放获取,又让开放获取出版能够在经济上实现自我维持。

张智雄表示,从科学数据共享角度来看,开放科学要解决的是科研数据的公众拥有问题。科学研究所产出的数据为公共所有,应免费提供给公众,以鼓励研究和发展,并使其对社会的利益最大化。

此外,在学术交流体系建设进程中,开放科学要解决学术研究中的规范诚信问题。利用开放的力量促进科研过程透明、科研诚信、学术规范、研究可重复性。从科学事业发展角度来看,开放科学要解决知识的商业占用问题,解决人类公平享有科学权的问题。

“开放科学正在成为新的科学研究范式,也是全球发展大势。”张智雄表示,这一趋势不仅是实现可持续发展的一个变革性的重要战略,主要科技国家(地区)也正在将开放科学作为提升科研质量、效率、诚信的战略举措。

开放科学呼唤科学数据共享

近年来,科研组织积极推进开放科学相关措施的落实,全球各个学科已经深处开放环境之中。但开放科学及其重要组成部分——科学数据共享,正面临着许多强有力的挑战。

“自己产生的大量数据由别人管理,给我国数据安全和转化应用带来不可预测性。”中国科学院北京基因组研究所(国家生物信息中心)工程师、国家基因组科学数据中心副主任赵文明回忆,过去中国是一个测序大国,但也是一个数据弱国。在生物科学领域,生物信息数据目前是一个“卡脖子”难题。

中国科学院计算机网络信息中心副主任、科学数据总中心主任周园春表示,科学数据是全球公认的战略科技资源,发达国家普遍强调科学数据的长期战略储备。我国逐步重视科学数据,数据目前成为五大生产要素之一。在开放科学时代背景下,科学数据已成为新型出版生态的关键要素之一。

尽管政府部门、国际组织、科技期刊等一直呼吁并积极推动数据共享,但期刊的数据共享实践进展缓慢。中华医学会杂志社副社长刘冰指出,一方面,多数研究者虽然认为科学数据共享对科学研究具有重要意义,但在共享自己的数据时存在诸多顾虑,不愿意共享。另一方面,部分数据的管理方式导致数据较分散,研究人员很难发现数据来源,不利于数据的重复利用。

与此同时,数据期刊已经成为一种全新的数据共享模式,不仅是一种便捷地发现、获取数据的途径,还能引导科研人员分析、研究和再利用数据索引,力求科学数据资源的最大化使用。

现场多位专家表示,科学研究需要一种开放的模式,包括开放数据、科学出版物的开放存取。目前数据已经成为科技界和出版界的“一等公民”,成为学术期刊的基本要求。数据出版作为推动科学数据开放共享的重要手段,在大数据时代面临紧迫需求。开放数据的承载服务平台在支撑能力、基础设施保障等方面仍有待提高。

数据共享的意义显而易见,不仅是在科学领域,对企业而言,也有重要的意义。

那么,我国的数据开放共享应该怎么做呢?

中国数据开放共享的“道”

在小编看来,需要从三个方面发力:

1.以安全为数据开放保驾护航,以开放促进数据应用

国际国内对数据安全的重视程度都在提高,公众对隐私泄露的关注度也在上升。数据泄露事件,往往会严重打击平台的公信力,进而动摇其生存根基。因此,数据安全和隐私保护,是数据开放和共享的基础。要推动数据开放共享,必须要解决数据安全和隐私保护问题。同时,数据的最终价值在于应用,所以要处理好数据安全、数据开放和应用之间的关系。

那么,如何提升数据安全保护、数据开放和应用水平呢?数据猿认为需要从以下几个方面着手:

加快完善数据安全保护的法律法规。在数据安全立法方面,欧美走在全球前列。中国已经建立了以国家安全为核心的数据安全和个人信息保护的法律框架。并出台了一系列相应的法律法规和标准,涵盖国家网络安全、数据安全、个人隐私保护等方面。但是,总体上我国的数据安全法律法规在落地实操方面还不健全,需要进一步明晰和细化。且要符合中国数字经济的发展需要,安全与发展并举。

建立、健全数据安全立法的主要目标,是不仅要通过惩戒数据泄露的主体起到警示作用,还要有对被损害方的补偿机制,进而建立消费者的信心。例如,需要健全公诉机制,一个互联网平台泄露了大量用户的隐私,损害了用户权益,那就要对被损害的用户给出相应的赔偿;一个云计算公司,泄露了企业客户的数据,客户也应该有权要求获得相应的赔偿。需要建立完善的机制和法律法规体系,来保障数据所有方的权益,这样才能解除企业数据上云的后顾之忧。

除了法律体系建设外,数据安全技术的发展,也发挥着关键的作用。我们要以更大力度推动数据安全保护技术的发展,为数据打造坚不可摧的“盾牌”。数据安全不仅仅是个机制和法律问题,也是个技术问题,绝大部分的数据安全问题都可以找到技术解决方案。例如,以隐私计算为代表的新技术(包括多方安全计算、联邦计算、可信执行环境、同态加密等),可以实现数据的“可用不可见”,这从根本上缓解了对数据泄露的担忧。有效利用这些新技术,夯实数据安全保护的基石,可为数据开放共享奠定一个良好的基础。

需要注意的是,要以辩证和发展的眼光看问题。数据安全和数据开放应用是辩证的,温室的花朵经不起风雨,不用就不知道哪里容易出现问题。要在数据开放和应用过程中发现安全隐患,堵上安全漏洞。从这个角度上看,数据开放和应用是保障数据安全的必要基础。安全需要与发展并举,并不存在100%的安全,也不能因为怕出现数据安全事故就阻碍数据开放和数据应用。“开放”和“应用”是数据作为生产要素的天然属性,数据作为一种新的生产要素,要通过流通和应用才能真正发挥出价值。必须要清楚,我们的目标是通过数据应用来实现价值,而不是为了规避风险而将数据束之高阁。

而且,数据安全有两层含义:第一层是数据本身的安全,第二层是通过数据应用去提升其他行业领域的安全水平,比如通过风控、反洗钱提升金融行业安全,通过欺诈识别、犯罪数据分析提升公共安全等。例如,励讯集团旗下的律商联讯风险信息(以下简称“律商风险”)40 多年来一直专注于利用数据和分析,服务于政府和经济:在政府领域,律商风险帮助政府防范企业和个人逃税漏税或者冒领退税;防范不法分子冒领政府福利;防范医疗计划中医疗机构的欺诈、滥用、浪费行为;协助警方办案人员既快又准地识别和追踪犯罪分子、查找被拐卖人口、利用预测性模型协助警方优化警力资源部署。在经济领域,律商风险帮助银行和保险公司识别和招徕高质量客户,履行在反洗钱、反贪污贿赂等方面的合规义务,帮助金融机构评估企业和消费者信贷风险,识别欺诈风险、降低赔付风险,提升银行和保险公司债务追偿能力等。

数据安全、数据开放、数据应用构成了价值闭环,不能孤立的看其中某一个环节,而是要借助辩证发展的眼光,以数据开放为抓手,在数据安全和数据应用之间实现很好的权衡,以安全保障应用,以应用促进更广范围、更高水平的安全。

2.完善“政府-行业-企业”数据开放共享链条,形成价值闭环

数据猿认为,要推动全社会的数据开放共享,有三个关键参与方,分别是政府、行业、企业,这三方通力合作才能构建一个完善的数据开放链条。

政府-行业-企业数据开放链条 数据猿梳理

首先,政府要负起主体责任,在数据开放的广度、质量方面,进一步提升。政府掌握的数据无疑是最全面、系统,也是最权威的。有些数据甚至是政府独占,比如社会保障数据、国家经济数据、人口相关数据、气象数据等。政府持有的公共数据的开放,为社会提供了基础的数据集。提供公共资源和服务,是政府的重要职责。传统公共服务主要指的是城市道路、医院、学校、高铁等实体基础设施。在数字经济时代,开放公共数据,将成为政府提供的一项重要公共服务。

以前,主要是政府从市场上各个领域单项的收集数据,作为政府决策的基础。数据只在政府内部的各个部门流通,并没有作为一项公共资源对外输出。接下来,数据将在政府和市场之间双向流动。政府不仅从市场收集数据,还向市场提供数据,取之于民用之于民。

其次,各个行业协会、联盟等行业组织,是数据开放必不可少的重要桥梁。互联网、电信、金融、交通、物流、制造等行业要构建本行业的开放共享数据集,制定本行业的数据开放标准,保护本行业数据安全。同时,推动本行业数据在内部的共享应用,以及跨行业数据之间的开放、共享、应用。政府只能提供一些基础数据,要更加专业的行业数据,则需要该行业的共同努力才行。欧美国家在构建行业数据开放共享平台方面走在全球前列,有大量头部公司牵头构建行业数据共享平台。例如,励讯集团旗下律商风险在全球范围内建立了17 个行业规模保险行业数据共享平台。在美国市场,律商风险的车险理赔数据共享平台C.L.U.E 已经有25 年的历史,覆盖99% 以上的车险行业理赔案件的准确细节信息,广为各家车险公司信任和使用。

最后,政府、行业开放共享出来的数据,需要人工智能、大数据等企业来构建相应的智能应用,进一步释放数据的价值。例如,医疗影像AI是医疗创新的一个重要方向,借助人工智能技术,可以让AI系统“阅度”CT影像、核磁影像等,自动识别出病灶。中国一直受困于医疗资源的匮乏,对各种疾病的早期筛查做的很不够。医疗影像AI可以辅助医生进行各种疾病的诊断,尤其是各种癌症的早期筛查,这大大提升了医疗资源的供给。医疗影像AI的发展取决于两个核心要素:AI算法和医疗数据。以乳腺癌AI为例,一方面要领先的AI模型,另一方面需要大量的乳腺癌医疗影像数据来进行模型训练。然而,高质量的医疗数据并不多,并且不同医院之间的数据并不能很好的共享。由于不同医院的医疗设备供应商、设备型号多种多样,造成医疗影像的数据标准并不统一。这会带来一个严重的问题,用A医院数据训练出来的AI模型能够达到99%的准确率,但将该AI系统用到B医院之后准确率就大打折扣。

可以说,医疗数据的匮乏和不共享已经成为医疗AI发展的关键瓶颈。因此,需要推动医疗行业的数据开放和共享,统一数据标准,构建医疗共享数据集。在乳腺癌AI这个例子中,如果能够将全国大部分医院的乳腺癌相关影像数据实现开放共享,构建一个全国范围内的乳腺癌医疗影像数据集,那么用这个数据集训练出来的乳腺癌AI模型,不仅将有很高的准确率,而且可以应用于不同医院还能保持很高的鲁棒性。

总之,数据开放和应用,需要各方的共同努力:政府为数据开放提供良好的政策环境,并通过政府数据开放为市场提供基础数据;电信、互联网、医疗、金融等各个行业,要依据自身行业的业务特点,推动行业内部企业、机构之间的数据开放,共建行业共享数据集。同时,也注意不同行业之间数据的开放共享,比如电信、金融、互联网之间相互的数据开放,构建跨行业共享数据集;各个领域的企业,则是数据创新应用的主体,基于开放数据集探索应用场景,释放数据的价值。至此,构建了一个数据开放共享的闭环。

3.探索数据要素的价值分配机制,分好1.7万亿的“蛋糕”

要想数据开放和共享具有持续性,建立政府-行业-企业的开放体系还不够,还需要理顺各方的利益机制,让各方都能有从中受益。失去人性失去很多,失去兽性失去一切。通过理顺利益分配机制,让数据开放和共享的各方“有利可图”,才能从根本上带动大家开放和共享数据的积极性。

数据猿认为,数据开放所能获得的收益可以分为两层:

第一层,数据开放共享本身所产生的价值,典型的场景就是数据交易。各个大数据交易所正是为了解决数据交易问题,试图以交易来推动数据的开放共享。然而,以实际运行情况来看,我国的大数据交易市场发展的并不好。依据由国家工业信息安全发展研究中心发布的《2022年数据交易平台发展白皮书》,截至2022年8月,全国已成立44家数据交易机构,平台的注册资本多数介于5000万至1亿元间。

目前我国的大数据交易所还面临一系列挑战,诸如数据产权不清、数据交易活跃度不高、新技术支撑不充分、出现平台同质化竞争苗头等问题。一个重要的原因是,目前还没建立起科学合理的数据价值评估体系,数据不好定价,而价格是市场交易的核心,当买卖双方给出的价格存在巨大差距时,交易就很难进行下去。要解决这个问题,就涉及到数据价值的第二层。

第二层,基于开放共享数据所衍生的一系列应用所产生的价值。相对于数据交易本身的价值,来自于数据应用的价值要大很多。数据作为一种生产要素,要参与“生产”过程才能释放其价值。就像资本作为一种生产要素,如果只是存放在银行当中,价值是很有限的,但如果将资本用来建工厂进行商品生产,则其产生的利润要大很多。

因而,要改变以前那种直接一次性交易数据的方式,不是“卖数据”,而是“卖数据的使用价值”。通过数据开放和共享,将散落在各个角落的数据汇聚起来,再借助AI、大数据、SaaS等技术进行数据分析和数据挖掘,用数据赋能业务,提升企业的决策、运营、生产、营销效率,让数据产生“剩余价值”。然后依据共享数据相关方的贡献,来分配数据应用所产生的“剩余价值”。

数据智能的要素有三个:算法、算力和数据。随着云计算的发展,算力的价值分配方式已经比较成熟了,数据的价值分配方式可以借鉴云计算领域的“按使用量计费”模式,数据要素就像IaaS算力一样,提供基础要素;上层的SaaS、AI应用,调用底层的共享数据集,按照调用的次数、数据使用量来计算费用。比如,基于共享数据集的上层应用,创造了1000万元的应用价值,那下层数据集则获取200万(20%)的价值。共享数据集的各个数据贡献方,则依据自身数据的价值以及当初的约定,再分配这200万的价值。

当然,以上的设想只是一个简化的模型,实际情况远比这个更复杂棘手。在实际应用过程中,还需要解决两个方面的问题:数据应用价值评估还是一个亟待解决的难题,数据在应用过程中到底产生了多大的价值,这其中有多少价值是来自于数据,并没有明确的计算方法,业界还在持续摸索过程中;在实际应用过程中并不存在单一的计费方式,数据应用的付费方式多样化。比如,有些企业按数据使用量计费+年保底费用的方案,来收取数据费用。此外,不同行业的数据计费方式可能存在很大差异,比如金融数据可能与交通数据在收费模式、计费公式等方面存在根本的不同。

需要指出的是,虽然实际的商业环境复杂多变,但并不意味着我们上述数据应用付费模型没有价值。从复杂的表象中抽象出简洁的模型,往往是建立理论体系的关键一步。在应用过程中,可以再结合实际情况对简化的模型进行修正,得出更合理的结果。

接下来,让我们算一笔总账,看看数据要素能在整个数字经济中分到多大“一杯羹”。依据中国信通院的数据,2021年,我国数字经济规模达45.5万亿,占GDP的比重为39.8%。其中,2021年我国产业数字化产值37.18万亿,占数字经济的比重为81.7%,数字产业化规模8.32万亿,占比18.3%。产业数字化的核心,就是通过数字化赋能,实现制造业的转型升级。

中国数字产业化与产业数字化的内部结构 数据来源:信通院 数据猿整理

这上万亿的价值如何分配的呢?我们知道,在市场经济当中,各类生产要素都要参与价值分配,资本、人力、土地、技术都要依据自身的贡献来分配收益。同样的,在数字经济当中,数据作为一种生产要素,也应该要参与整个价值的分配过程。

在整个数字经济当中,占比最大的产业数字化的价值主要由实现数字化转型的企业本身获得,提供算力、算法和数据的企业主要参与“数字产业化”这部分价值的分配,即划分8.3万亿的蛋糕。其中,人工智能、大数据等提供数据智能技术产品的企业占比最大,假设分走50%(4.2万亿)的份额;剩下的提供算力的企业分走30%(2.5万亿);提供数据要素的企业,分走20%,即1.7万亿。也就是说,数据作为生产要素,每年就应该获得1.7万亿的价值,并且这个数据还在快速增长。这1.7万亿的蛋糕,再在开放共享数据的各个企业、机构之间进行分配,谁开放共享的数据量越多、数据质量越高,谁就获得更多的收益。

数据要素的利益分配机制 数据猿梳理

只要理顺数据价值链的利益分配机制,让数据开放和共享的各方真正能从数据应用当中分一杯羹,将极大地调动各方开放共享数据的积极性。从上面的计算过程可知,在理想情况下,分配给数据要素的价值可达到1.7万亿。作为对比,国内各类大数据交易所不超过100家,而交易所一年的平均交易金额不超过1亿,全国数据交易产生的价值在1000亿以下。

可以发现,数据本身的价值是比较小的,更大的价值在于数据的应用。只有将数据用起来,并让数据要素参与应用过程中产生的价值分配,才能创造足够大的蛋糕。与不到1000亿的数据交易市场相比,超过1.7万亿的数据应用市场才更有吸引力。

最后,需要指出的是,就像市场经济由“看不见的手”和“看得见的手”共同调节一样,数据开放共享市场除了完善利益分配机制这双“看不见的手”之外,还需要一些不以利益为导向的“看得见的手”。在整个市场中,依然有一些机构或企业是以公益的心态来推动数据应用。

以励讯集团为例,其旗下的爱思唯尔推出的免费的、开放获取的新型冠状病毒资源中心, 2021年的下载量就超过1.75亿次;励讯集团旗下的律商风险免费为美国交警提供交通事故报告生成、分发和分析工具箱,目前已经为美国各地800多个地方警察局所采用。将数据与数据分析工具结合应用,律商风险协助警方预判同一违法分子下一次作案的时间和地点,使得警力可以有的放矢的现场拦截违法行为。举一个有趣的真实案例:在美国某地区发生了加油站的连环抢劫案,律商风险通过分析数据发现,犯罪分子总是在夜里11、12 点左右,集中性的在某个地点附件抢劫,所以建议警察精准部署警力,在夜里相同时间去蹲守已经被抢劫过的加油站附近的几个加油站,果然很快就逮住了这个惯犯。

中国数据开放共享的“术”

1.云计算共创共享数据

云完全颠覆了这一过程。数据共享不再需要数据移动,为数字原生代、知名品牌等提供了更高的可见性和规模。

这已经在整个行业中如火如荼地发生。

CPG公司卡夫亨氏便是利用外部数据来创新产品,并通过全面了解客户的购买模式来更好地为客户服务。

云以多种方式改变规则。

它增加了可用数据的类型和数量,并且它为如何共享数据提供了新方法。

随着世界以越来越多的方式实现数字化,人类的流动性、信用卡交易、招聘趋势变化和空气质量等新数据源可以进行更方便的深入分析。

2.利用外部数据还只是开始

购买外部数据是入门的一种方法,但还只是一个开始。

现在是时候重新构想整个价值链在数据共享方面实现的可能性了,这意味着利用区块链技术,建立数据共享生态系统。

而作为企业决策者需要考虑数据交接问题,谁来捕捉数据,以及如何连接数据,以在整个客户生命周期中创建增值数字生态系统。

在英国,Pet at home通过共享零售、兽医和忠诚度等宠物相关数据创建了一个独特的生态系统。

到2021年,企业总收入共增长18%。而其他宠物连锁店的增长幅度很小,比如PetSmart,在同一时期只增长了9%。

无论哪个行业,企业利用共享数据建立行业领导者优势,这一趋势正在加速。

例如,在汽车领域,福特等汽车制造商可以通过共享从汽车传感器收集的数据来改善驾驶员的安全性,和其他汽车制造商一起预警道路危险。

想象一下,你正在驾驶一辆奔驰,而防刹车系统因为一棵树挡住了道路而启动。而如果数据达成共享后,便可以警告您身后几英里的宝马司机。

当数据共享时,几乎对每一方都有利。

3.BI工具开启数据共享新时代

开始利用数据共享和其他关键数据趋势,并通过BI工具建立数字化平台实现数据共享,让数据价值最大化。

而在众多BI中,搜索式云BI软件DataFocus成为中小企业首选。

它涵盖了一体式湖仓、ELT、下一代智能搜索式 BI 系统,数据链接器和转换器,提供全功能的一站式数据分析服务。

平台能容纳亿级数据,团队可以轻松协作,还设置好数据权限,选择性共享。

尾声

总体上,需要建立一个分层、结构化的数据开放体系,让政府、行业、企业以及大数据交易中心等主体都能有效参与进来。政府要加快完善法律政策环境,同时开放基础数据;各个行业要推动行业内数据的开放共享,构建内部数据集;企业要有效利用已经开放的数据,充分探索数据应用场景,让数据真正创造价值。要着力理顺数据产业的价值分配机制,让开放数据的企业和机构能够相匹配的收益,让“看不见的手”成为推动企业主动开放共享数据的强劲引擎。同时,政府数据开放、机构和企业公益式的数据开放作为“看得见的手”,培育全社会数据开放的良好氛围。

应该看到,数据开放共享是数字经济的关键基石之一,我国的数据开放事业已经相对滞后于数字经济的发展了。接下来,需要各方通力合作,在保障数据安全的前提下扩大数据开放的规模,提升数据开放程度,构建有序的数据开放市场秩序,以数据应用带动数据开放,以数据开放促进数据应用,为我国数字经济的高水平、可持续发展奠定坚实的数据基础。

文章来源: 数据猿,科学网,DataFocus

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:IT干货铺
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...