MMoE论文中Synthetic Data生成代码(控制多任务学习中任务之间的相关性)

卡卡南安

分类：机器学习

发布时间 2024.02.01阅读数 505 评论数 0

一. 前言

在MMoE论文中，作者人工生成了可以控制不同任务之间相关系数的数据集，并观察不同模型在不同相关系数的多任务学习中的模型效果，如下所示：

文中作者给出了数据集生成的数学表达：

下面用程序实现以上过程。

二. 程序实现

from scipy.linalg import *
import numpy as np
from tqdm import *
import matplotlib.pyplot as plt

2.1 生成一条数据

1.生成正交单位向量

d = 512 #维度

'''随机生成两个单位向量'''
np.random.seed(10)
u1 = np.random.randn(d)
u1 = u1 / np.linalg.norm(u1)

np.random.seed(22)
u2 = np.random.randn(d)
u2 = u2 / np.linalg.norm(u2)

u = np.vstack((u1,u2)).T #(d,2)

'''向量正交化'''
o = orth(u)
u1 = o[:,0]
u2 = o[:,1]
print(np.linalg.norm(u1))
print(np.linalg.norm(u2))
print(np.matmul(u1.T,u2))
'u1,u2为一组正交单位向量'

输出：
1.0000000000000002
1.0000000000000002
1.97758476261356e-16

2.生成权重向量

c = 1 #常数
p = 0.5 #相关系数 [-1,1]

w1 = c*u1
w2 = c*(p*u1 + np.sqrt(1-p*p)*u2)

3.随机生成自变量x

np.random.seed(2022)
x = np.random.randn(d)

4. 随机生成m组正弦函数参数

m = 10 #组合正弦的数量

'''随机生成生成m组正弦函数参数'''
np.random.seed(42)
ab = np.random.randn(2,m)
a = ab[0,:] #(m,)
b = ab[1,:] #(m,)

5. 生成数据标签

y1 = np.matmul(w1.T,x)
y2 = np.matmul(w2.T,x)
for i in range(m):
    y1 = y1+np.sin(a[i]*np.matmul(w1.T,x)+b[i])
    y2 = y2+np.sin(a[i]*np.matmul(w2.T,x)+b[i])
y1 += np.random.normal(0,0.01,1)
y2 += np.random.normal(0,0.01,1)
y = np.hstack((y1,y2))

这样我们就得到了相关系数为p的一条数据，其中 x 的长度为d，y 的长度为2。

接下来将上面的步骤整理一下生成一组完整的相关系数为p的数据集。

2.2 生成一组相关系数为p的数据集

1.生成正交单位向量

d = 512 #维度

'''生成两个单位向量'''
np.random.seed(10)
u1 = np.random.randn(d)
u1 = u1 / np.linalg.norm(u1)

np.random.seed(22)
u2 = np.random.randn(d)
u2 = u2 / np.linalg.norm(u2)

u = np.vstack((u1,u2)).T #(d,2)

'''向量正交化'''
o = orth(u)
u1 = o[:,0]
u2 = o[:,1]
print(np.linalg.norm(u1))
print(np.linalg.norm(u2))
print(np.matmul(u1.T,u2))
'u1,u2为一组正交单位向量'

2.生成权重系数矩阵

c = 1 #常数
p = 0.5 #相关系数 [-1,1]

w1 = c*u1
w2 = c*(p*u1 + np.sqrt(1-p*p)*u2)

3. 随机生成m组正弦函数参数

m = 10 #组合正弦的数量

np.random.seed(42)
ab = np.random.randn(2,m)
a = ab[0,:] #(m,)
b = ab[1,:] #(m,)

4.生成长度为L的数据集

l = 5000

for i in tqdm(range(l)):
    '随机生成自变量x'
    np.random.seed(2000+i)
    x = np.random.randn(d) #(d,)

    '生成因变量y1和y2'
    y1 = np.matmul(w1.T,x)
    y2 = np.matmul(w2.T,x)
    for j in range(m):
        y1 = y1+np.sin(a[j]*np.matmul(w1.T,x)+b[j])
        y2 = y2+np.sin(a[j]*np.matmul(w2.T,x)+b[j])
    y1 += np.random.normal(0,0.01,1)
    y2 += np.random.normal(0,0.01,1)
    y = np.hstack((y1,y2)) #(1,2)

    '保存生成的x和y'    
    if i==0:
        X = x
        Y = y
    else:
        X = np.vstack((X,x))
        Y = np.vstack((Y,y))
print(X.shape)
print(Y.shape)

输出：
(5000, 512)
(5000, 2)

下面比较一下权重系数的余弦相似度和label之间的皮尔逊相关系数：

'计算w1和w2的余弦相似度'
cos_sim = w1.dot(w2) / (np.linalg.norm(w1)*np.linalg.norm(w2))
print("cos(w1,w2)=",cos_sim)

'计算label之间的皮尔逊相关系数'
corr = np.corrcoef(Y[:,0],Y[:,1])
print("person(y1,y2)=",corr[0,1])

输出：
cos(w1,w2)= 0.5000000000000002
person(y1,y2)= 0.39918604117923223

可以看到权重系数的余弦相似度与标签的皮尔逊相关系数并不完全相同，因为 y 是关于 x 的非线性函数，下面探究一下两者之间的关系。

2.3 权重系数的余弦相似度与标签相关系数之间的关系

在原文中，作者提到二者之间的关系如图所示：

1.生成正交单位向量

'1. 生成正交单位向量'
d = 512 #维度

'''生成两个单位向量'''
np.random.seed(10)
u1 = np.random.randn(d)
u1 = u1 / np.linalg.norm(u1)

np.random.seed(22)
u2 = np.random.randn(d)
u2 = u2 / np.linalg.norm(u2)

u = np.vstack((u1,u2)).T #(d,2)

'''向量正交化'''
o = orth(u)
u1 = o[:,0]
u2 = o[:,1]
print(np.linalg.norm(u1))
print(np.linalg.norm(u2))
print(np.matmul(u1.T,u2))
'u1,u2为一组正交单位向量'

2.随机生成生成m组正弦函数的参数

m = 10 #组合正弦的数量

np.random.seed(42)
ab = np.random.randn(2,m)
a = ab[0,:] #(m,)
b = ab[1,:] #(m,)

3.循环得到不同p时对应的权重和标签的相似度

c = 1 #常数
l = 5000 #数据长度

cs=[]
pc=[]
for p in np.arange(-1,1.1,0.1).round(1):
    print("***** p={} *****".format(p))
    w1 = c*u1
    w2 = c*(p*u1 + np.sqrt(1-p*p)*u2)

    for i in tqdm(range(l)):
        '随机生成自变量x'
        np.random.seed(2000+i)
        x = np.random.randn(d) #(d,)

        '生成因变量y1和y2'
        y1 = np.matmul(w1.T,x)
        y2 = np.matmul(w2.T,x)
        for j in range(m):
            y1 = y1+np.sin(a[j]*np.matmul(w1.T,x)+b[j])
            y2 = y2+np.sin(a[j]*np.matmul(w2.T,x)+b[j])
        y1 += np.random.normal(0,0.01,1)
        y2 += np.random.normal(0,0.01,1)
        y = np.hstack((y1,y2)) #(1,2)

        '保存生成的x和y'    
        if i==0:
            X = x
            Y = y
        else:
            X = np.vstack((X,x))
            Y = np.vstack((Y,y))

    '计算w1和w2的余弦相似度'
    cos_sim = w1.dot(w2) / (np.linalg.norm(w1)*np.linalg.norm(w2))
    cs.append(cos_sim)
    '计算label之间的皮尔逊相关系数'
    person_corr = np.corrcoef(Y[:,0],Y[:,1])
    pc.append(person_corr[0,1])

4.绘制图像

plt.plot(cs,pc,linewidth=1.5)
# 设置横轴标签
plt.xlabel('weight cosine similarity')
# 设置纵轴标签
plt.ylabel('label correlation')
plt.show()

可以看到二者确实不是线性关系，但是呈正相关，因此可以用设置的相关系数p表示任务之间的相关性。

人工智能深度学习 Pytorch 多任务学习

转载原出处：

打赏 0

上一篇：【EasyExcel】Java将不同的.csv文件数据存入同一个.xlsx文件的不同sheet当中

下一篇：【阅读笔记】多任务学习之MMoE(含代码实现)

MMoE论文中Synthetic Data生成代码(控制多任务学习中任务之间的相关性)

卡卡南安

一. 前言

二. 程序实现

2.1 生成一条数据

2.2 生成一组相关系数为p的数据集

2.3 权重系数的余弦相似度与标签相关系数之间的关系

为你推荐

浅析扩散模型与图像生成【应用篇】(九)——Pix2pix-zero

【目标检测】kera-yolo3模型计算mAP

机器学习——Python实现KNN识别MNIST手写数字体

Tensorflow实现fashion-mnist数据集的图片识别项目代码

Tensorflow学习——猫狗大战

【目标检测】基于YOLOv3的海上船舶目标检测分类（Tensorflow/keras）

关于作者

卡卡南安

47

0

452

3

精选PaddleOCR基于PPOCRv4的垂类场景模型微调——手写文字识别

精选Java基于正则化批量将String类型的数字转化为Double类型

SSH密钥认证登陆流程(Vscode连接到远程)

相关推荐

Cuda—— Atomic Functions

深度学习（一）：ubuntu18.04配置pytorch框架并进行fcn网络并训练

pytorch-tensorboard论文数据分析流程

卷积神经网络（DenseNet）识别Fashion-MNIST数据集（Pytorch版）

几种常见模式识别算法整理和总结

AD2. 模仿学习(Imitation Learning)

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

TA的专栏

OpenCV学习笔记

给作者打赏

MMoE论文中Synthetic Data生成代码(控制多任务学习中任务之间的相关性)

卡卡南安

一. 前言

二. 程序实现

2.1 生成一条数据

2.2 生成一组相关系数为p的数据集

2.3 权重系数的余弦相似度与标签相关系数之间的关系

为你推荐

浅析扩散模型与图像生成【应用篇】(九)——Pix2pix-zero

【目标检测】kera-yolo3模型计算mAP

机器学习——Python实现KNN识别MNIST手写数字体

Tensorflow实现fashion-mnist数据集的图片识别项目代码

Tensorflow学习——猫狗大战

【目标检测】基于YOLOv3的海上船舶目标检测分类（Tensorflow/keras）

评论（0）

关于作者

卡卡南安

47

0

452

3

精选PaddleOCR基于PPOCRv4的垂类场景模型微调——手写文字识别

精选Java基于正则化批量将String类型的数字转化为Double类型

SSH密钥认证登陆流程(Vscode连接到远程)

相关推荐

Cuda—— Atomic Functions

深度学习（一）：ubuntu18.04配置pytorch框架并进行fcn网络并训练

pytorch-tensorboard论文数据分析流程

卷积神经网络（DenseNet）识别Fashion-MNIST数据集（Pytorch版）

几种常见模式识别算法整理和总结

AD2. 模仿学习(Imitation Learning)

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

TA的专栏

OpenCV学习笔记

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板