人工智能与大数据相伴相随,因此,如果没有大数据,人工智能恐怕不复存在。现实是,数据孤岛、小数据的存在,以及必须保护用户隐私,保护数据安全,这些都是人工智能进一步发展需要解决的挑战。
国际人工智能联合会理事会主席杨强近日在南京软博会全球软件产业高峰论坛上,阐述了以上挑战的解决之道,这就是联邦学习。“保证数据不动,模型动。(通过联邦学习)模型在不同企业移动的过程中保护用户隐私。”
联邦学习(Federated Learning)是近年来一种新兴的人工智能基础技术,2016年由谷歌最先提出,用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。有观点认为,联邦学习有望成为下一代人工智能协同算法和协作网络的基础。
某种角度,可以把欧盟《通用数据保护条例》理解为联邦学习产生的催化剂。由于全球各国在数据确权、数据保护、信息安全等方面各种问题的存在(将长期存在),使得AI工程师必须要客服数据安全问题,开发新的解决方案。因为训练一个强大的机器学习模型需要大量的数据,并且是安全、合规的数据。
随着互联网在消费端、产业端应用的深入,数据孤岛的问题也逐渐浮出水面。在很多场景,如法律应用、银行贷款、医疗分析、机器视觉等领域,数据都以孤岛形式、以小数据的形式存在,远远不足以训练一个深度学习模型。这无疑为机器学习的进一步发展形成桎梏。
谷歌用联邦学习来保护手机用户隐私的原理是,基于手机终端模型受到本地数据的影响,但是在云端看不到用户隐私数据,因此,通过一种加密条件,在手机终端和云端进行模型的沟通,最终使模型在云端能够不断地壮大,从而避免了数据的安全风险。
“他们可以在云端更新他们模型。整个这个学习的过程,是一个循环的过程,同时是一个加密的过程。”杨强说。
那么企业级应用怎么样做到数据不动模型动呢?事实上是,对于提供数据的双方,数据可能存在互补性,具有不同的特征,但是双方都不想告诉对方己方数据的特征内容,更不要说用户特质了。而通过联邦学习,在数据不出库情况下,在同态加密机制下,双方合作建立一个共享模型(当然也可以是多方),同时严格地保护用户隐私。这就解决了数据安全以及数据量不足的问题。
资料显示,联邦学习具有几个显著的优势: (1)数据隔离,数据不会泄露到外部,满足用户隐私保护和数据安全的需求;(2)保证模型质量无损,不会出现负迁移,保证联邦模型比割裂的独立模型效果好;(3)参与者地位对等,公平合作;(4)参与各方在保持独立性的情况下进行信息与模型参数的加密交换,并同时获得成长。
杨强表示,联邦学习在AI学术界已经成为一个趋势,在工业界也成为趋势。 |