2020-01-09 3260课程
课程回放:
https://vzan.com/live/tvchat-441305307?v=0.7247801994266312
CNGBdb组学/数据库系列课程开讲啦!
2020年1月7日<第11讲>上线
课程名称:区块链技术如何保障基因大数据应用过程中的数据安全和隐私
讲师:李士森,华大基因区块链产品负责人。11年互联网/移动互联网/互联网金融/医疗健康领域产品设计、研发经验,涉及政务系统、基金、证券、股票、基因数据、医疗健康大数据、区块链等领域,专注基因大数据结合区块链、隐私计算及人工智能等新技术的创新应用。
Q:如果数据需求者通过数据持有者的授权获取了数据,这个数据会传播出去吗?
A:
以基于区块链技术的“生命周期表”项目为例,某个物种测序后的基因数据权益属于你,后续有数据需求方申请使用物种数据时,使用密码学技术,拿到的不会是明文数据。我们利用区块链技术首先需要解决的就是数据“孤岛”的问题,让数据流通起来;然后基于隐私计算技术,让数据最小化利用,即授权一次只能使用一次。
目前的做法是把隐私数据加密后再做授权,授权一次使用一次,不会出现申请一次后不断二次传播的情况。
Q:对方有了密钥,解析后会得到明文数据吗?
A:目前隐私计算领域也存在这样的问题,即获得授权的数据后是否会复制给他人。现在有两种解决方案:1)数据的解密和计算在特定“沙箱环境”里进行,“沙箱”外无法获得明文数据;2)使用代理重加密技术,即授权的秘钥只能使用一次,使用后原数据会重新加密。
Q:区块链数据安全性还将从哪些方面改进?
A:单独的区块链技术难以彻底解决隐私问题,需要结合密码学、隐私计算等技术来解决数据安全和隐私保护问题。
Q:请问下区块链适合哪些基因大数据?如果所有人都要备份副本的话,像reads这类数据就会占用很大的空间。
A:目前实际应用中海量数据不会直接上链,而是把数据的特征值上链,如数据位置、传输路径等上链,把数据流通过程 “透明化”,利于数据监管。
另外,数据不直接上链也是出于数据安全的考虑,例如数据授权给第三方机构使用时,第三方机构把数据直接上链,可能涉及多节点使用的情况。
Q:请问按区块链原理,那如果某一条链上因某种原因输入的数据出错了,过了一段时间后才被发现,后期要改正岂不是很麻烦?又或者,区块链有没有可以设置某一链拥有最高权限,可以通过该链一次性就可以更正数据的?
A:区块链技术具有不可篡改的特性,前期出现的错误无法修正,没有可修改的最高权限。
Q:区块链在慢病管理方面可以应用吗?比如化疗病人的肠道菌群重建过程中的应用。
A:是可以在慢病管理方面应用的,慢病管理是一个持续的过程,非常需要把相关信息存储上链,后续通过追溯链上的数据,进行分析做慢病的改善和管理。深圳市政府有一个慢性病管理平台项目就是利用了区块链平台,大家感兴趣可以上网查询。
Q:涉及加密的话,这些加密算法复杂性如何,如何保证不会被破解?
A:加密技术一般分类两类:1)传统的加密技术,其相对成熟稳定,有各种国际/国家标准支持,安全系数一般是128位或者更高等级,关于复杂度的衡量,这些算法本身是开源的,可以在标准中查询获取,这些算法在20年之内可以保证其安全性,但是20年后随着技术的发展,就有破解的可能。目前想提高安全性,可以通过提高复杂性实现,例如把基本的128位升级到256位,但是这样性能可能会有些下降。这一类加密技术是标准成熟的,安全性是可以保障的,只是选择安全等级的时候决定了其安全期(10年/20年/30年);2)相对传统技术来说,比较新的加密技术,例如同态加密等,这些算法在理论界证明相对成熟,但是在商用上应用较少,由于其没有经过大规模的商业化应用,所以无法完全保证其安全性,但是理论上证明是安全的(一般数学算法论文提出后的5年内没有提出漏洞即可证明其可行性)。
Q:基因大数据用了区块链的什么优势?像比特币是大量的电脑分布式竞争写来达到去中心化的可信写入。刚刚讲的应用大多数依赖授权这种中心化操作,直接通过版本迭代可以不?
A:我们基因数据使用区块链主要解决互信的问题。不同机构之间进行数据交换和交流,如果使用中心化系统,各个机构应该都不会很放心,因为中心化系统可以直接修改自己的数据,无法监测修改记录;而使用区块链技术,任何节点和数据的流通都会将使用记录上链,这样可以提高可信度。另一个是共识算法的问题,基因数据一般是有限机构,节点不会很多,对算法选择也会比较多,例如PBFT、Raft等性能比较高的算法,可防止少量节点的恶意修改,这也是性能和安全的平衡。
Q:如不排除恶意行为,那么区块链上存在错误数据的话,那如果都上传错误数据,岂不是会有很大数据冗余。如果存在这个问题的话,那么如何解决?存在错误数据,对于客户如何区分正确性?
A:目前从区块链的使用场景和应用来看都存在一个比较大的挑战:链上数据和链下实物的对应正确性。上传错误数据区块链技术无法区分和解决,上传数据者如果存在恶意上传,需要上传者自己承担这个恶意上传的成本(例如由于上传错误数据较多造成的可信度下降),这个需要从区块链运营规则来解决这个问题而不是一个纯技术问题。存在错误数据,需要从业务层面做数据校验来区分其正确性。
Q:选择超级账本作为架构的理由是什么?为什么没有选择BCOS和CITA呢?
A:我们是在2017年进行区块链项目的研发的,那个时间节点最成熟的区块链技术就是Fabric0.6版本,作为开源框架,到目前为止差不多3年时间了,就目前来看运营最好的联盟链架构还是Fabric;没有选择BCOS的原因是2017年还未开源,BCOS是在2018年开源的;目前我们的做法是国外项目支持Fabria、国内项目即支持Fabric,也支持BCOS架构
课程PPT:
https://db.cngb.org/dc_assets/media/science/weike20200107.pdf
审核:李士森 图片来源:微赞直播平台页面