论文: MASTER: Multi-Aspect Non-local Network for Scene Text Recognition Github:https://github.com/wenwenyu/MASTER-pytorch https://github.com/jiangxiluning/MASTER-TF 主要贡献: 提出了Global Context(GC)block,Mul
论文:Detecting Heads using Feature Refifine Net and Cascaded Multi-scale Architecture Github:https://github.com/HCIILAB/SCUT-HEAD-Dataset-Release 针对人头这种小目标检测问题,论文提出了特征融合模块Feature Refifine Net (FRN),以及级联
论文:Real-Time Sign Language Detection using Human Pose Estimation Github:https://github.com/google-research/google-research/tree/master/sign_language_detection SLRTP 2020 手语识别任务包括手语检测(Sign language
论文:Sequence to Sequence – Video to Text GitHub:GitHub - AdrianHsu/S2VT-seq2seq-video-captioning-attention: S2VT (seq2seq) video captioning with bahdanau & luong attention implementation in Tenso
论文:MedNeXt: Transformer-driven Scaling of ConvNets for Medical Image Segmentation ConvNeXt网络是一种借鉴Transformer的思想进行了改进实现的全卷积网络,其通过全卷积网络和逆向残差瓶颈单元的设计,可以实现比较大的空间感受野。本文在此基础上提出了新的可伸缩,标准化的网络结构MedNeXt。 MedNeXt
论文: DBNet:Real-time Scene Text Detection with Differentiable BinarizationReal-time Scene Text Detection with Differentiable Binarization DBNet++:Real-Time Scene Text Detection with Differentiable Bi
论文:Learning Transferable Visual Models From Natural Language Supervision Github:https://github.com/OpenAI/CLIP OpenAI出品 论文通过网络爬取4亿(image, text)对,使用对比学习的方法训练得到clip(Contrastive Language-Image Pre-tr
YOLACT: Real-time Instance Segmentation Github: https://github.com/dbolya/yolact 论文提出了基于one-stage的目标检+分割的框架YOLACT。类似于YOLO,主打的亮点在于实时性。精度弱于mask-rcnn,但是速度却比mask-rcnn快很多。在MS-COCO上达到了29.8的map和33fps的速度(Tita
论文:ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation 代码:https://github.com/TimoSaemann/ENet 论文提出了新的语义分割模型ENet (efficient neural network),相比SegNet,速度提升18倍,计算量减少75倍,参数量减少
前沿: CenterNet,一个anchor free的新的检测算法,算是对cornerNet的改进,在cornerNet基础上,引入了中心点的概念,因此,称为CenterNet。 算法亮点, anchor free,大大减少了anchor部分的计算量,并且不需要nms这样的后处理。 一个框架可以做2d检测,3d检测,pose姿态估计,3种不同的任 速度够快,速度和精度的良好平衡,在
EfficientDet: Scalable and Efficient Object Detection Github: https://github.com/google/automl/tree/master/efficientdet https://github.com/zylo117/Yet-Another-EfficientDet-Pytorch CVPR2020,经典,必读,里程
论文:Improving Object Detection With One Line of Code Github:https://github.com/bharatsingh430/soft-nms ICCV 2017 Hard nms VS soft nms: B:候选框 S:候选框得分score,和B一一对应。 D:最终的
论文:Receptive Field Block Net for Accurate and Fast Object Detection Github:https://github.com/ruinmessi/RFBNet ECCV2018 论文基于Receptive Fields (RFs) ,提出了RF Block (RFB) ,然后基于RFB,对以VGG16为基础架构的ssd进行
论文:Bounding_Box_Regression_With_Uncertainty_for_Accurate_Object_Detection Github:https://github.com/yihui-he/KL-Loss CVPR 2019 CMU&&face ++ 论文提出了一种回归边框的不确定性的方法,来实现对于边框的后续矫正。主要包括 修
论文:Scale-Aware Trident Networks for Object Detection Github:https://github.com/TuSimple/simpledet/tree/master/models/tridentnet 图森的工作 论文提出了TridentNet ,基于ResNet-101 的基础骨架网络在coco数据集上达到了单模型48.
faster RCNN选自2015年 NIPS, Faster R-CNN: Towards Real-Time Object Detection withRegion Proposal Networks 正如上图所示,检测不同尺度(scale),不同长宽比(aspect ratios)的目标物通常的3种做法。 (a)Pyramids of images,缩放图像来达到不同的sca
该方法出自2016年的一篇ECCV的oral paper,SSD: Single Shot MultiBoxDetector,算是一个革命性的方法了,非常值得学习和研究。 论文解析: SSD的特殊之处主要体现在以下3点: (1)多尺度的特征图检测(Multi-scale),如SSD同时使用了上图所示的8_8的特征图和4_4特征图。 (2)相比于YOLO,作者使用的是卷
论文解读篇: YOLO出自2016 CVPR You Only Look Once:Unified, Real-Time Object Detection,也是一个非常值得学习的框架,不得不说facebook的技术就是牛啊。 整个训练和检测框架都是端到端,YOLO达到了45帧每秒,Fast YOLO达到了155帧每秒,除了刚开始加载模型有点慢,检测部分确实是非常的快。
DeepLabv1:Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs ICLR 2015 官网:https://bitbucket.org/deeplab/deeplab-public. 优点: 速度快,带空洞卷积的基于VGG16基础结构的DCNN,可
Anchor策略: yolov3延续了yolov2的anchor策略,基本没有变化。 边框的表示方式通过框的中心坐标bx,by,和框的宽bw,高bh这4个变量来表示。实际预测的值为tx,ty,tw,th。 由tx,ty,tw,th得到bx,by,bw,bh的详细公式如上图,其中, cx,cy为框的中心坐标所在的grid cell 距离左上角第一个grid cell的ce
论文:Acquisition of Localization Confidence for Accurate Object Detection Github:https://github.com/vacancy/PreciseRoIPooling ECCV 2018 oral Face++ 论文贡献: 改进传统NMS,提出IoU-guided NMS 改进ROI Pooling
论文:YOLO-LITE: A Real-Time Object Detection Algorithm Optimized for Non-GPU Computers Github:https://github.com/reu2018DL/YOLO-LITE 论文致力于设计一个网络(cpu速度大于10FPS,PASCAL VOC精度大于30%),因此基于YOLO-v2,提出了一个c
论文:LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking Github: https://github.com/Guanghan/lighttrack 京东的一篇cvpr2019 论文提出了轻量级的多目标跟踪框架LightTrack。包含YOLOV3的目标检测,基于CPN_res101,M
出自论文,Holistically-Nested Edge Detection ,ICCV2015,Marr奖提名,非常值得看的一篇。 边缘检测的工作分为以下3个研究方向: (1)传统的检测算子:Sobel ,Canny (2)基于信息理论设计的手工特征:Statistical Edges ,Pb ,gPb (3)基于学习方法设计的手工特征:BEL , Multi-scale
行人重识别简称Re-identification,目前研究这个方向的大神主要有,UTS的郑良,郑哲东,CUHK的xiaotong等。 这里想分析下,2017年的cvpr, Re-ranking Person Re-identification with k-reciprocalEncoding,文章主要提出了基于k阶导数编码的方式,对需要检测的gallery中的图片进行重排序,使得识别结果有所提
论文:Real-time Action Recognition with Enhanced Motion Vector CNNs Github: https://github.com/zbwglory/MV-release 2016 CVPR 论文基于双流法(deep two-stream)的基本结构,提出了使用运动向量(Motion Vector)来代替光流(optical flow
论文:GaitSet: Regarding Gait as a Set for Cross-View Gait Recognition Github:https://github.com/AbnerHqC/GaitSet 什么叫步态识别? 最强大脑中,水哥和小度,挑战的核桃计划项目,本质就是一个步态识别的例子。遗憾的是,水哥被小度完败。 论文提出了步态识别的新网络结构GaitSet,
先说这篇文章,Monza: Image Classification of Vehicle Make and ModelUsing Convolutional Neural Networks and Transfer Learning,该文章使用了3DObject Representations for Fine Grained Categorization这篇文章的车型数据集,一共16185张图
opencv各算法对比: 程序接口: #pip3 install opencv-contrib-python import numpy as np import cv2 import sys class TRACKER(object): def __init__(self): self.trackerTypes = ['BOOSTING',
这篇是face++2017年coco keypoint benchmark 数据集冠军的文章。主要提出了基于CPN(Cascaded PyramidNetwork)结构的人体关键点检测框架。 Top-down pipeline: 整体框架采用Top-down自上而下的检测策略。首先使用行人检测框架,先检测出行人候选框。然后使用本文的CPN网络对每一个检测出来的行人候选框进行人体关键点的回归,进
论文: https://arxiv.org/abs/1612.00137 github: https://github.com/MVIG-SJTU/RMPE https://github.com/MVIG-SJTU/AlphaPose RMPE出自2017ICCV,RMPE: Regional Multi-Person Pose Estimation,是上海交大,卢策吾老师组的作品。 主流的姿
该文章出自2017年的CVPR,Realtime Multi-Person 2D Pose Estimation using Part Affinity Field,是CMU的工作,效果真的amazing。 也许这篇文章的亮点在于,融合了PCM和PAF的级联cascade形网络结构,网络设计思想和RefineNet的网络设计思想很像,以及相应条件约束的偶匹配(bipartite matchings
这是一篇2015年的cvpr,FaceNet: A UnifiedEmbedding for Face Recognition and Clustering,取得了当时人脸识别的state-of-the-art,论文主要提出了tripletloss这一思想。 如上图所示,简单的说,triplet就是一个由(Anchor ,Positive,Negative)组成的三元组。其中,Anchor(表示
light_cnn出自2016 cvpr吴翔A Light CNN for Deep Face Representation with Noisy Labels, 优势在于一个很小的模型和一个非常不错的识别率。主要原因在于, (1)作者使用maxout作为激活函数,实现了对噪声的过滤和对有用信号的保留,从而产生更好的特征图MFM(Max-Feature-Map)。这个思想非常不错,本人将此思想用在
官方链接:http://www.robots.ox.ac.uk/~vgg/data/vgg_face/ 首先去官网下载vgg_face_dataset.tar.gz python3下载程序: #!/usr/bin/python3 #-*- coding: utf-8 -*- import sys import os import threading import socket import u
特征脸Eigenface: Eigenface(特征脸)在人脸识别历史上应该是具有里程碑式意义的,其被认为是第一种有效的人脸识别算法。1987年 Sirovich and Kirby 为了减少人脸图像的表示(降维)采用了主成分分析法(Principle Component Analysis, PCA)的方法,1991年 Matthew Turk和Alex Pentland首次将PCA应用于人脸
论文:Convolutional Pose Machines Github:https://github.com/timctho/convolutional-pose-machines-tensorflow https://github.com/JindongJiang/WeightedLoss_Convolutional_Pose_Machines_PyTorch CMU的工作,和openp
一个人走得快,一群人走得远…… 论文:DeepLabCut: markerless pose estimation of user-defined body parts with deep learning Github:https://github.com/AlexEMG/DeepLabCut 安装: pip3 install opencv-python==3.4.5.20 pip3
论文:Improving Multi-Person Pose Estimation using Label Correction 论文提出了一种openpose人体关键点算法的改进策略。由于官方的coco数据集中存在下面的问题, 图片之后的人体区域没有关键点的标注 遮挡情况下的人体区域没有关键点的标注 有些可见的关键点区域没有进行相应的关键点标注 可以忽略的区域的mask标注缺失 实验证
论文: 3D human pose estimation in video with temporal convolutions and semi-supervised training Github:https://github.com/facebookresearch/VideoPose3D Human3.6M数据集:https://drive.google.com/drive/folde
论文:Joint COCO and Mapillary Workshop at ICCV 2019:Keypoint Detection Challenge Track GitHub:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch ICCV 2019 论文对于高IOU情况下的遮挡问题,比如一个框中有2个物体这
论文:SSR-Net: A Compact Soft Stagewise Regression Network for Age Estimation Github:https://github.com/shamangary/SSR-Net IJCAI2018 论文提出了多stage结构的,紧凑,轻量化的年龄识别网络结构SSR-Net(Soft Stagewise Regression Netw
论文:Deep Facial Expression Recognition: A Survey 资源:http://www.pris.net.cn/introduction/teacher/dengweihong 北邮模式识别实验室,邓伟洪 人脸表情识别facial expression recognition (FER),主要面临2大挑战问题, 1.缺乏高效的数据导致的过拟合2.表情相关变
论文:Suppressing Uncertainties for Large-Scale Facial Expression Recognition Github:https://github.com/kaiwang960112/Self-Cure-Network CVPR 2020,siat乔宇老师组的作品。 Self-Cure Network (SCN),本质就是可以实现自我治愈功能的网络
论文:AgeNet: Deeply Learned Regressor and Classifier for Robust Apparent Age Estimation ICCV2015 论文提出了一种基于人脸的年龄识别网络AgeNet。该网络同时基于分类和回归对年龄进行预测,然后将2个分支的特征进行融合,得到更好的预测结果。并且在ChaLearn 2015 Apparent Age Comp
ICCV,2015, DEX: Deep EXpectation of apparent age from a single image文章3个insight: (1)分享了IMDB-WIKI数据集,包含524230张从IMDB 和Wikipedia爬取的名人数据图片。 具体数据分布如下图: (2)一个新颖的化回归为分类的年龄算法。本质就是在0-100之间的101类分类后,对于得到的分数和0
源自2016 cvpr,Ordinal Regression with Multiple Output CNN for Age Estimation , 文章主要2个贡献: (1)将传统的年龄回归问题转化为多个顺序2分类问题 文章网络的整体结构如下图所示: 在经过3个卷积模块后,接入一个全连接层,然后输出K-1个通道的2分类任务。 例如这里,Task1预测年龄是否大于1,Task2预测年龄是否大
这里主要通过对人脸的分析,得出,年龄,性别,种族,表情,魅力值等属性。 所有的这些问题中,有分类问题也有回归问题,准确的说是一个多标签的分类+回归问题。 对于多标签问题,对于caffe有2种处理思路,一种是使用HDF5格式,另一种就是修改caffe源码。 1.数据准备 这里同时进行2种方式的说明。 (1)修改源码,主要修改cafferoot/tools/convert_imageset.cp
运行环境:VS2008 人脸检测库:于仕琪老师的人脸检测库 程序解析: 程序主要实现了3个卷积层的操作,通过训练获得这3个卷积层的权值。预测的时候就根据这些权值进行相应的分类操作。 前向传播: int CLayer::FeedForward(double* pInput, bool bDisp) { if (!pInput) { return -1; } m_pInput = pI
自2012年深度学习火起来后,AlexNet,vgg16,vgg19,gooGleNet,caffeNet,faster RCNN等,各种模型层出不群,颇有文艺复兴时的形态。 在各种顶会论文中,对年龄和性别的检测的论文还是比较少的。而本文将要讲解的是2015年的一篇cvpr,Age and Gender Classification using Convolutional Neural Netwo
积分
粉丝
勋章
TA还没有专栏噢
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信