在有监督机器学习算法越来越强大之时,数据便成了限制模型performance的最关键因素了。所以不少国内外学者的研究方向都开始转向数据增强了。

今天看了一篇来自《计算机应用》的期刊文章(好久没看journal了,而且还是国内的),不过这篇期刊还是有点货的。国内的journal,咱并不期待能当算法风向标,但可以当综述看,也可以有一定的价值。
放一下论文链接:
《基于生成式对抗神经网络的数据增强方法》
文章还是很新的,发表于2018/07/09的14:35

数据增强分为生成式数据增强和非生成式数据增强

  1. 仿射变换

仿射变换是经典的非生成式数据增强方法,是一种二维坐标 (x, y)到二维坐标 (u, v) 的线 性变换。θ 为图像旋 转的角度,为图像平移的横坐标移动距离,b 为图像平移的 纵坐标移动距离。

SMILES Enumeration as Data Augmentation for Nerual Network Modeling of Molecules
https://arxiv.org/abs/1703.07076.pdf
2. GAN和CGAN

显然,GAN是可以进行数据增强的。对GAN和CGAN原理不清楚的,可以看我之前的博文。

3. GMM-CGAN
GMM:高斯混合模型(Gaussian Mixed Model)指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况(或者是同一类分布但参数不一样,或者是不同类型的分布,比如正态分布和伯努利分布)。
这篇文章就是把高斯混合模型和CGAN做了一个结合。

我们知道,CGAN在生成器G生成的时候,feed的信号是一串随机数(准确地说,符合高斯分布的一串随机数)。其实高斯分布在现实情况中,显得特别单一,用符合单一分布的随机信号去feed生成器,生成的数据也比较单一,variance比较小。

所以用高斯混合模型加强的GAN就是解决随机信号的单一分布问题。

这里使用z=μi+σiδ来代替之前的z,随机变量δ~N(0,1))。这里的μi和σi都是trainable的。做了一个稍微的改进,就让数据增强效果好出很多。

总结

journal的内容大部分都是综述,创新内容并不比会议论文多什么。。