Federated Learning Challenges, methods, and future directions
前人笔记:https://blog.csdn.net/liuzeyao_Newton/article/details/127027990
文章链接:https://ieeexplore.ieee.org/abstract/document/9084352/
文章的论述入手点:边缘计算-分布式系统(注:以下仅用于学习记录!!!)
分布式网络中的设备的计算能力不断增强,加之对隐私信息的担忧,使得本地存储数据并将网络计算推到边缘越来越有吸引力。
联合学习有潜力在不降低用户体验或泄露私人信息的情况下实现智能手机上的预测功能。
相较于传统分布式计算,后者需要在隐私、大规模机器学习和分布式优化等领域取得根本性的进步,并在机器学习和系统等不同领域的交叉领域提出了新的问题。
具体应用:下一个单词预测器、医院等隐私性要求高的系统、打破隐私问题对物联网设备连接的限制。
标准的联邦学习问题:涉及从存储在数千万甚至数百万个远程设备上的数据学习单个全局统计模型。我们的目标是在以下约束条件下学习这个模型:设备生成的数据在本地存储和处理,只有中间更新定期与中央服务器通信。目标通常是最小化以下目标函数:
m表征设备数目,表征各设备的权重,表征第k个设备的本地目标函数。
关键挑战:
(此处内容说明,注意从数学/建模角度,该方案并非唯一解,且存在着相应的问题,需要仔细分析)Devices frequently generate and collect data in a highly nonidentically distributed manner across the network, e.g., mobile phone users have varied use of language in the context of a next-word prediction task. Moreover, the number of data points across devices may vary significantly, and there may be an underlying statistical structure present that captures the relationship among devices and their associated distributions.
这种数据生成范式(不同设备间的用户差异)违反了分布式优化中经常使用的独立和同分布(i.i.d)假设,并可能增加问题建模、理论分析和解决方案的经验评估方面的复杂性。
而针对单一全局优化模型,相应还有其他替代方案,例如通过多任务学习框架同时学习不同的局部模型。类似问题:metalearning:Differentially private meta-learning Learning:https://arxiv.org/abs/1909.05830
相关研究及当前工作:
同类看似相似的问题处理方法,在联邦学习框架中适用性存疑,其面临的问题不可忽略。(文中提到:联邦学习框架的规模、异构性、基于统计-平均处理的隐私保护在系统统计特性变化时并不能明确保证)考虑如下几点:(略去具体细节,略去其所提及的现实依据及存在的问题,仅表述其思想,具体请细看原文)
如下表述的思想,可能是源自已有的分布式系统实践、也可能是数据中心的集中训练中的实践,任何的改进,一者是看新问题带来了什么,二者是看如何将旧有的知识加以兼容运用。--感想
作为训练过程一部分的模型更新信息,也可能泄露敏感的用户信息:例如. Carlini等人证明,人们可以从针对用户语言数据训练的循环神经网络中提取敏感的文本模式,例如,特定的信用卡号码。https://www.usenix.org/system/files/sec19-carlini.pdf
-
回顾机器学习中的隐私研究(大规模机器学习场景中会带来大量额外的通信和计算成本)
具体见链接,细节太丰富了
-
-
-
-
在联邦学习中的隐私研究
通常可分为全局隐私和本地隐私:全局私密性要求在每一轮生成的全局模型更新信息对除中央服务器之外的所有不受信任的第三方都是私有的,本地私密性进一步要求本地模型更新信息对服务器也是私有的。
联邦学习中不同的隐私增强机制的说明。M表示用于私有化数据的随机机制。图(a)没有附加隐私保护机制的联邦学习,图(b)全局隐私-假设有一个受信任的服务器,(c)本地隐私-中心服务器可能是恶意的。
10/21/2022 9:28:33 PM
未来的发展方向:
围绕着前面所讨论挑战和一些其他的说明。
-
极端的通信方案:以确定联邦学习框架下的系统的必要通信下界,寻找最优方案(技术)
-
新的异步通信模型:在联邦网络中,每个设备通常都不是专用于手头的任务,且设备在模型算法的迭代中不一定都处在连接状态。因此,值得研究这种更现实的以设备为中心的通信方案的效果,在这种方案中,每个设备自身可以决定何时"唤醒",这时它从中心节点提取一个新任务并执行一些本地计算。
-
异构性诊断:相较于利用本地/局部不相似来度量统计异构性,然而这些指标在没有训练之前无法定义,由此便可以引出如下问题:
-
Do simple diagnostics exist to quickly determine the level of heterogeneity in federated networks a priori
-
Can analogous diagnostics be developed to quantify the amount of systems-related heterogeneity?
针对单个设备,简单而易行的评判标准,可以解决大规模设备连接情况下的算法局部/全局模型更新信息的采用与否问题(若是过于异质的数据点,应当加以舍去,如何舍去,又成了一个问题)
-
Can current or new definitions of heterogeneity be exploited to design new federated optimization methods with improved convergence, both empirically and theoretically?
新问题,往往都是带有两面性,一面是旧技术的兼容,一面是解决的新思路。
什么是无监督学习?-最好举出常见的 有监督学习 和 无监督学习 的算法https://www.zhihu.com/question/23194489/answer/2614496341
其提及上述的讨论都大致可以归于设备用户对于一个已知模型的优化更新,有着明确的运算目标,其期望着各设备用户都有着相同"标签"的数据,而实际中的用户数据也许特异性超过了"标签"的界定;或者说,如何利用"弱标签"的用户设备数据,去探索、似无目的去寻找,发现,也许是联邦学习的另一个有趣的前景。(上边链接提及 监督/无监督学习,可以作为参照解释)
未来的发展方向:
该文章概述了联邦学习,定义其为分布式网络中对统计模型进行边缘训练的一种学习模式。从传统分布式计算角度出发,分析讨论联邦学习的特性及相关挑战。
。我们提供了关于经典算法的广泛调研,以及更近期的专门关注联邦设置的工作。概述了一些值得未来研究的开放问题。为这些问题提供解决方案将需要多的研究团体的跨学科努力。
-----
Federated Learning Challenges, methods, and future directions-----完毕
联邦学习/联盟学习 (Federated Learning) 的发展现状及前景如何?https://www.zhihu.com/question/329518273 (推荐,看看公司在干什么!)
10/22/2022 10:03:27 PM