【联邦学习贡献评估-数据评估指标的介绍】

跨机构联邦学习

企业或机构作为参与方的联邦学习称为跨机构联邦学习, 也称为企业对企业联邦学习(business-to-business, B2B FL). 跨机构联邦学习呈现参与方数量少、算力充足、单个参与方数据量大、存在商业风险顾虑等特点.

案例

典型案例是 FATE 联邦学习平台, 为金融等行业提供数据隐私保护的联邦学习方案. 在跨机构联邦学习中, 参与方一般期望通过联邦合作获得性能更高的任务模型或者根据贡献获得金钱等回报. 为了避免低贡献参与方窃取联邦合作成果 , 以及恶意参与方通过复制数据等策略以期望提升回报, 需要研究公平、有效且免疫低贡献或恶意参与方攻击的贡献评估方案.

1参与方贡献评估

1.1目的

为了激励参与方加入到联邦学习中来，需要公平合理地评估参与方在联邦合作中的贡献，并根据贡献给予各参与方相应的回报。

给定联邦学习的参与方 $N=\{1,...,n\}$ ，参与方贡献评估定义为计算参与方的贡献 $\Phi=\{\phi_1,...,\phi_n\}$ ,其中， $\phi_i$ 表示参与方i的数据对联邦合作的贡献大小。

评估参与方需要解决的三个子问题

数据价值度量
- 设计数据估值指标v，度量参与方组合 $S\subseteq N$ ,即 $v:2^N\rightarrow \mathbb{R}$ ,即每个参与方的数据集的各自组合，一共有 $2^N$ 种
- 指标的话可以选用在联邦服务器测试集上的准确率、召回率、F1等指标来衡量
- 数据价值度量指标评估的是参与方组合的数据价值, 而不是参与方数据对联邦合作的贡献.
参与方贡献度量
- 基于数据估值指标v，制定贡献评估方案，评估参与方 $i\in N$ 在联邦学习中的贡献 $\phi_i(v)$ ，简写为 $\phi_i$ 。联邦学习参与方贡献评估上一个合作博弈问题，很容易想到的方案是将参与方个体的数据价值作为联邦的贡献，即 $\phi_i=v(\{i\})$ 。但这无法有效代表参与方对联邦合作所带来的边际价值增益, 需要探索更加公平合理的参与方贡献评估方案
贡献评估优化
- 基于联邦学, 优化参与方贡献评估计算. 与经典的合作博弈问题不同[25], 联邦学习的数据价值度量更加复杂, 需要考虑横纵联邦设定、恶意参与方、需要训练评测模型来度量不同数据价值等问题.

1.2 数据估值指标

根据分类如图所示：
请添加图片描述

1.3 测试集依赖指标

在理想的情况下, 联邦拥有机器学习任务的完备测试数据集, 可以基于训练数据在测试场景中的表现来度量数据价值.

测试准确率
- 基于数据训练模型, 通过联邦模型测试准确率来度量数据价值。
- 对于分类任务和回归任务的处理方式略有区别
- 基于测试准确率的价值度量同时适合于横向与纵向联邦.
测试不确定性
- 适合纵向联邦学习
- 最典型的是直接基于参与方的特征为测试数据标签减少的不确定性来度量数据价值, 测试标签减少的不确定性越大, 数据特征价值越高.

1.4 测试集无关指标

在通常的实际情况中, 联邦对任务应用场景了解有限, 很难获取到(完备的)测试集, 此时需要设计不依赖于测试集的数据估值指标。

1.4.1 数据统计指标

数据统计指标是一类直观且易于实现的方法, 它通过数据的某些统计指标特性来度量数据的价值。这类的指标很多：

自助度量

理想情况下, 若所有数据独立同分布, 在不具备其他知识的情况下, 认为数据价值与数据量正相关, 数据量越大, 数据价值越高, 或者根据自主报告的数据质量度量数据价值。

缺陷：各参与方持有数据来源不同, 数据收集、清洗与融合的过程也不同, 从而导致各参与方提供的数据质量也不同.

数据多样性度量

在不存在恶意参与方提供虚假数据时, 数据分布的多样性一定程度上可以反映数据的价值, 即数据分布多样性越高, 数据价值越大.

缺陷：参与方可以通过大量复制自己所提供的数据, 从而增大自身数据价值度量结果.
解决办法：一种变体的多样性度量通过简单地将 d 维欧式空间进行网格划分, 用各个子空间的数据样本均值代表该子空间, 然后再基于各子空间进行分布多样性的价值度量. 该方法同时设置衰减系数项, 当同一个子空间内数据量增多时, 衰减系数也同时增大, 从而一定程度避免数据的无限复制

多指标复合

当联邦对于模型的应用背景足够了解, 对于所需的数据统计特征建模也足够完善时, 可以依据具体应用需求, 基于多种数据统计指标设计复合价值度量指标.

例如, 若某一特征列的取值与数据价值有直接关联, 可以直接通过计算 DS 中该特征的取值的均值、方差等统计量来度量数据价值.

以上基于数据统计指标的价值度量指标适用于横向联邦下的数据价值度量, 它不依赖于任务、模型和测试集, 在一定程度上可以反映参与方组合的数据价值.

1.4.2 模型相似度

在假定联邦参与方的数据均对任务有利、不存在低贡献或者恶意参与方的情况下, 可以认为全体参与方参与下, 联邦合作训练的全局模型最优.此时, 采用模型相似度指标衡量数据训练的模型与全局模型相似度, 可实现比数据统计指标面向任务更加具体准确的价值度量. 模型相似度最直接的比较方式是对比参与方组合数据训练联邦模型与联邦全局模型的参数相似度来衡量数据价值。比如 L2 范数距离, 距离越小, 则数据价值越大. 但实际上, 最优模型在不同随机训练条件下, 可能有多种差异很大的模型参数能够实现类似的局部最优, 因此直接比较不合理, 优化的模型相似度价值度量方式通过不同轮次的梯度相似度或者模型参数的统计不确定性来度量数据价值

梯度相似度

梯度相似度通过参与方组合 S 的数据与全体参与方合作训练全局联邦模型的梯度相似度进行比较来度量组合 S 的数据价值。
从优化角度来看, 联邦机器学习模型的主要目标是拟合一个未知函数的近似解, 其求解方法依赖于最优化一个或多个损失函数(loss function), 以使得拟合函数尽可能地与真实的未知函数相近 .
而拟合未知函数所采用的梯度在一定程度上反映了拟合优化的方向, 因此, 如果组合数据产生的训练梯度与假定最优梯度方向越相近, 认为其与最优模型越相似, 即数据价值越大.

具体而言, 梯度相似度将组合 S 数据训练联邦模型的梯度更新与全体参与方数据训练全局联邦模型梯度更新之间的余弦相似度作为 S 在该轮次的贡献, 聚合多轮次训练中 S 的梯度相似度, 即获得 S 的数据价值。
请添加图片描述
其中 $u_S^t,u_N^t$ 分别为组合S和全体参与方N训练联邦模型在第t轮机器学习训练中正则化后的梯度向量，iter表示总的梯度迭代轮次。

缺点：需要注意的是, 由于随机梯度下降算法、梯度剪枝和正则化的随机性, 可能会存在某些轮次对数据真实价值反映不准确甚至高价值数据价值为负的情况。对于高度非凸难以优化的目标函数及联邦模型对任务应用效果差等情况下, 存在价值度量偏差和度量不稳定性

参数不确定性

基于参与方数据对联邦任务有利的假定下, 价值最高的参与方数据组合可以最大限度地优化联邦任务的目标函数, 降低模型参数的不确定性, 因此可以基于模型参数信息增益来度量数据价值, 以避免梯度相似度指标的不稳定性, 提高价值度量可靠性。
基于模型参数信息增益的价值度量公式如下:
在这里插入图片描述
其中 $\mathbb{H}$ 表示随机出实话下模型参数的信息熵（即不确定性）， $\mathbb{H}(\theta|D_S)$ 表示经过参与方组合S的数据 $D_S$ 训练后模型的信息熵。两者之差度量的数据价值代表着 $D_S$ 数据训练给模型参数减少的不确定性. 模型训练后, 参数后验分布 $p(\theta|D_S)$ 的不确定性越小, 则 $\mathbb{H}(\theta|D_S)$ 越小, 即数据价值越大.

在不确定性度量下, Lv 等人进一步实现了基于参数信息增益的数据价值度量[35], 即通过模型参数压缩的技术 [37], 将深度学习模型离散化, 并度量模型参数的统计不确定性.

缺点：
参数信息增益需要度量模型参数的不确定性, 即任务模型需要采用为贝叶斯统计模型或通过参数压缩离散化对参数的统计概率建模。

当任务数据分布复杂时, 或者实际应用中采用非贝叶斯机器学习模型时, 信息增益的价值度量准确性可能存在偏差.

优点：信息增益可以一定程度上放宽对参与方数据均对任务有利的限制, 即存在少量低价值或者恶意参与方时, 仍然能够根据高价值参与方组合最大限度地减少联邦任务模型参数不确定性来有效地度量数据价值

总结：以上模型相似度相关指标在不依赖于联邦测试集的前提下, 尽可能任务相关地实现了数据价值的度量. 当全部参与方数据均对联邦任务有利, 或者不存在很多策略性的恶意参与方时, 模型相似度能够较为准确、有效地反映数据对联邦任务的价值.

1.4.3 合成价值指标

合成价值指标是一种简化的参与方组合价值度量指标. 它通过设定某种博弈规则来给不同参与方组合赋予不同的价值. 由于合成价值指标计算简单, 避免了基于真实任务和数据度量价值的高昂计算代价, 它可以用于与实际任务及数据价值无关的参与方贡献评估方案或者相关优化技术性能评估.

合成价值函数主要用于合作博弈理论中参与方贡献评估方案与相关优化技术性能评估, 其优势在于高效度量参与方组合的价值, 避免了理论技术的性能评估引入数据集、任务模型和训练设定等假设对技术性能验证产生的实验偏差, 是一种很好的理想化技术理论验证方式.

一致性表决
一致性表决贡献度是指在联邦学习或者分布式学习中，参与者通过投票来决定某个决策或者选择某个模型时，每个参与者对于达成一致决策的程度。这种贡献度度量通常用于评估每个参与者在达成共识时的重要性或者贡献。

具体来说，一致性表决贡献度可以通过参与者的投票行为来确定。当一个参与者的投票对于决定最终的一致决策具有较大的影响力时，可以认为该参与者的一致性表决贡献度较高。这通常意味着该参与者的投票更符合大多数其他参与者的观点，或者该参与者的投票对于达成一致决策至关重要。

下面是一个示例来说明一致性表决贡献度：

假设有三个参与者 A、B 和 C，他们正在协作进行联邦学习任务。他们需要决定是否采纳某个全局模型更新。每个参与者都对这个决策进行投票，投票结果如下：

参与者 A：支持采纳全局模型更新
参与者 B：支持采纳全局模型更新
参与者 C：反对采纳全局模型更新
在这个示例中，参与者 A 和 B 的投票是一致的，都支持采纳全局模型更新，而参与者 C 的投票与之相悖，反对采纳全局模型更新。因此，如果要根据一致性表决来决定是否采纳全局模型更新，参与者 A 和 B 的贡献度会被认为比参与者 C 的贡献度更高，因为他们的投票更符合多数参与者的观点，对于达成一致决策起到了积极的作用。

展望和总结

此外, 目前测试集无关的数据估值指标仍存在主观性过强 , 而有效性和可靠性不够等问题, 对于不依赖于测试集或者结合不完善测试集的数据估值指标有待进一步的研究
在这里插入图片描述

当联邦能够获得有效测试数据集时, 直接通过测试准确率可以反映数据对任务测试场景最准确的价值高低.
当联邦无法获得(完备的)测试数据集时, 需通过数据统计指标或者训练模型相似度对数据进行侧面的价值度量.但是当联邦中存在过多低价值或者恶意参与方时, 这些指标可能存在无法准确而有效地反映数据价值的情况.
 纵向联邦目前只能通过测试准确率和测试不确定性来度量数据价值, 其他面向纵向联邦的不依赖于测试集的价值度量指标仍有待进一步研究.
 当联邦希望价值度量结果具有跨模型鲁棒性时, 可以采用模型无关的价值度量指标, 基于多种任务模型来度量数据价值.