码字不易,欢迎点赞! BatchNorm作为一种特征归一化方法基本是CNN网络的标配。BatchNorm可以加快模型收敛速度,防止过拟合,对学习速率更鲁棒,但是BatchNorm由于在batch上进行操作,如果使用不当可能会带来副作用。近期Facebook AI的论文Rethinking "Batch" in BatchNorm系统且全面地对BatchNorm可能会带来的问题做了总结,同时也
自动编码器(Autoencoder,AE) 变分自动编码器(Variational Autoencoder,VAE) CVAE VAE的代码实现 总结 参考 2022年第一篇文章,码字不易,求star! “What I cannot create, I do
记得点赞,欢迎start基于detectron2的SwinT实现:xiaohu2015/SwinT_detectron2 最近,微软亚研院提出的Swin Transformer在目标检测和分割任务上取得了新的SOTA:在COCO test-dev 达到58.7 box AP和51.1 mask AP,在ADE20K val上达到53.5 mIoU。Swin Transformer的成功恰恰说明了
近日,FAIR的最新论文Masked Autoencoders Are Scalable Vision Learners(何恺明一作)提出了一种更简单有效的用于ViT无监督训练的方法MAE,并在ImageNet-1K数据集上的top-1 acc达到新的SOTA:87.8%(无额外训练数据)。自从ViT火了之后,一些研究者就开始尝试研究ViT的无监督学习,比如Mocov3用对比学习的方法无监督训练V
FixRes是Facebook在19年提出的一个应用于图像分类的简单优化策略,论文名是Fixing the train-test resolution discrepancy,在这篇论文中作者发现了在ImageNet数据集上的分类模型中常采用的数据增强会导致训练和测试时的物体分辨率(resolution)不一致,继而提出FixRes策略来改善这个问题:常规训练后再采用更大的分辨率对模型的class
码字不易,欢迎给个赞! 基于CPVT的PVT在目标检测上表现还是不错的: https://github.com/xiaohu2015/pvt_detectron2github.com/xiaohu2015/pvt_detectron2 对于transformer来说,由于self-attention操作是permutation-invariant的,所以需要一个 positional
2017 年 6 月, Google 公司开放了 TensorFlow Object Detection API 。 这 个项目使用 TensorFlow 实现了大多数深度学习目标检测框架,真中就包括Faster R-CNN。 本系列文章将 (1)先介绍如何安装 TensorFlow Object Detection API; (2)再介绍如何使用已经训练好的模型进行物体检测 ; (3)最
一个模型的性能除了和网络结构本身有关,还非常依赖具体的训练策略,比如优化器,数据增强以及正则化策略等(当然也很训练数据强相关,训练数据量往往决定模型性能的上线)。近年来,图像分类模型在ImageNet数据集的top1 acc已经由原来的56.5(AlexNet,2012)提升至90.88(CoAtNet,2021,用了额外的数据集JFT-3B),这进步除了主要归功于模型,算力和数据的提升,也与训练
内容列表 LeNet 模型训练 d2l库中常用函数介绍 LeNet 总体来看,LeNet(LeNet-5)由两个部分组成: 卷积编码器:由两个卷积层组成; 全连接层密集块:由三个全连接层组成。 每个卷积块中的基本单元是一个卷积层、一个sigmoid激活函数和平均汇聚层(即池化层)。请注意,虽然ReLU和最大汇聚层更有效,但它们在20世纪90年代还没有出现
欢迎点赞detectron2实现的fcos:GitHub - xiaohu2015/ddetection 相比two-stage方法,one-stage的目标检测算法更受追捧。one-stage的模型目前可以分为两大类:anchor-based和anchor-free方法。基于anchor-based的检测模型包括SSD,YOLOv3,RetinaNet等,这些模型需要在每个位置预先定义一系
对于实例分割来说,主流的做法还是基于先检测后分割的流程,比如最流行的Mask RCNN模型就是构建在Faster RCNN基础上。目前基于one-stage的物体检测模型已经在速度和性能上超越two-stage模型,同样地,大家也希望能找到one-stage的实例分割模型来替换Mask RCNN。目前这方面的工作主要集中在三个方向: Mask encoding:对2D mask编码为1D
2017 年 6 月, Google 公司开放了 TensorFlow Object Detection API 。 这 个项目使用 TensorFlow 实现了大多数深度学习目标检测框架,真中就包括Faster R-CNN。 本系列文章将 (1)先介绍如何安装 TensorFlow Object Detection API;Tensorflow Object Detection API安装
无论是CV还是NLP领域,学习一个好的特征或者表达至关重要。对于NLP, 通过无监督方法学习特征已经取得好大的成功,但是在CV领域,目前主流的方案还是采用ImageNet上的有监督pretrain模型。这是因为NLP任务的输入如words属于一个离散空间,而CV任务的输入图片属于一个高维连续空间。不过,目前的一些CV领域的无监督学习方法也取得了一些较大的进展,这里介绍的MoCo就是一种比较流行
知识蒸馏是将一个已经训练好的网络迁移到另外一个新网络,常采用teacher-student学习策略,已经被广泛应用在模型压缩和迁移学习中。这里要介绍的MEAL V2是通过知识蒸馏提升ResNet50在ImageNet上的分类准确度,MEAL V2不需要修改网络结构,也不需要其他特殊的训练策略和数据增强就可以使原始ResNet50的Top-1准确度提升至80%+,这是一个非常nice的work。
本次学习主要参考优酷:Tensorflow tutorial Cats vs. dogs 系列视频 视频连接:http://i.youku.com/deeplearning101 数据集链接:http://pan.baidu.com/s/1dFd8kmt 密码:psor 运行环境:win10,64位,TensorFlow CPU版本,电脑显卡不行,整个过程训练了十个小时(10000个ste
码字不易,欢迎点赞! 基于图像掩码(MIM,Masked image modeling)的自监督方法让ViT实现了更好的微调性能,比如基于MAE预训练的ViT-B可以在ImageNet-1K数据集达到83.6%准确度,这要超过之前基于对比学习的模型,如基于DINO的ViT-B只能达到82.8%。近日微软AI(SwinTransformer原团队)在论文Contrastive Learning
码字不易,欢迎给个赞! 自从ViT之后,关于vision transformer的研究呈井喷式爆发,从思路上分主要沿着两大个方向,一是提升ViT在图像分类的效果;二就是将ViT应用在其它图像任务中,比如分割和检测任务上,这里介绍的PVT(Pyramid Vision Transformer) 就属于后者。PVT相比ViT引入了和CNN类似的金字塔结构,使得PVT像CNN那样作为backbon
本文学习参考视频:http://v.youku.com/v_show/id_XMjY4MjYzNzUwNA==.html?spm=a2h0k.8191407.0.0&from=s1.8-1-1.2 CIFAR-10官网: http://www.cs.toronto.edu/~kriz/cifar.html TensorFlow处理二进制数据格式流程: 读取数据,数据不能一次读进内存中
CIFAR-10下载下来的数据都是二进制文件 (1)CIFAR-10数据集介绍 ① CIFAR-10数据集包含60000个32*32的彩色图像,共有10类。有50000个训练图像和10000个测试图像。 数据集分为5个训练块和1个测试块,每个块有10000个图像。测试块包含从每类随机选择的1000个图像。训练块以随机的顺序包含这些图像,但一些训练块可能比其它类包含更多的图像。训练块每类包含50
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信