论文地址:https://arxiv.org/pdf/2102.03725v2.pdf Introduction Challenge:由于不同的手部姿势和严重的遮挡,目前方法的结果缺乏准确性和保真度。 Main Contribution:提出了一个I2UV-HandNet模型,用于精确的手部姿态和形状估计,以及三维手部超分辨率重建。 具体来说,(1)提出了第一个基于UV的三维手部的形状表示
SegICP: Integrated Deep Semantic Segmentation and Pose Estimation 代码地址:在公众号「计算机视觉工坊」,后台回复「SegICP」,即可直接下载。 尽管机器人的相关技术近年快速发展,但机器人如何在复杂、真实的场景中实现快速、可靠地感知与任务相关的物体仍然是一项十分具有挑战性的工作。为了提高机器人系统的感知速度和鲁棒性,作者提出了
RF-LIO: 面向高动态场景的紧耦合LiDAR惯导融合里程计 单位:西安交通大学 针对问题: 实际场景中动态因素的引入造成基于静态假设的LIO严重位姿漂移 提出方法: 提出基于自适应的多分辨率Range Image的动态点移除算法,并使用紧耦合的激光雷达惯导里程计,首先去除移动物体,然后将激光雷达扫描与子图相匹配,构建基于优先移除的面向高动态场景的LIO。 达到效果: 在不同动
算法思想提出 Deep Many-Tasks 方法来对一个图片进行多任务车辆分析,包括车辆检测,部分定位,可见性描述和 3D维度估计。论文的主要贡献包括三个方面: 使用图像车辆的特征点来编码 3D 车辆信息。因为车辆具有已知的形状,可以用单目图像重构 3D 车辆信息。我们的方法还可以在车辆部件被遮挡,截断等情况下定位到车辆部件,使用回归的方法而不是 part detector. 预测 hidde
一、模型部署简介 近几年来,随着算力的不断提升和数据的不断增长,深度学习算法有了长足的发展。深度学习算法也越来越多的应用在各个领域中,比如图像处理在安防领域和自动驾驶领域的应用,再比如语音处理和自然语言处理,以及各种各样的推荐算法。如何让深度学习算法在不同的平台上跑的更快,这是深度学习模型部署所要研究的问题。 目前主流的深度学习部署平台包含GPU、CPU、ARM。模型部署框架则有英伟达推出的T
如果想要深入学习单目深度估计方面的知识,可以关注我们工坊推出的课程: 单目深度估计方法:算法梳理与代码实现 单目深度估计一直以来都是计算机视觉领域中的一项非常具有挑战的难题。随着计算机技术、数字图像处理算法和深度学习等技术的发展,常用的单目深度估计算法大概可以分为以下几类:基于线索的和机器学习的传统方法、基于有监督的深度学习方法和基于无监督的深度学习方法。 今天和大家重点介绍一下三个传统方法
介绍 Detectron是FAIR推出的一款优秀的物体检测、分割框架,基于caffe2,其中包含了Faster RCNN、Mask RCNN、FPN、RetinaNet、R-FCN、Openpose等常见的模型。可能是由于何凯明的缘故吧,Facebook集成了许多他提出的模型。该框架可以很方便的把这些模型应用到自己的工程和项目中,下面将具体介绍如何安装和配置caffe2和detectron。
前言yolov3是一个很优秀的object-detection模型,其中的anchor box机制在多尺度检测上取得了不错的效果。然而,作者提供的anchor box值是基于voc和coco数据集上的,如果应用到自己数据集可能不完全适用,那么如何基于自己的训练数据聚类anchor box呢?好吧,源代码如下所示。 kemans.py import numpy as np def io
主要思想 基于传统卷积模块设计,提出一种高效空间金字塔卷积模块(ESP Module),有助于减小模型运算量和内存、功率消耗,以提高在终端设备上的适用性。这款模型和MobileNet系列、ShuffNet系列相似,都是轻量级模型,可以部署到移动端。 模型具体结构 如下图所示,模型主要有两个模块构成,一个是Efficient spatial pyramid模块,一个是HFF模块。 Effic
catboost 简介 CatBoost据说是超越LightGBM和XGBoost的一大神器。 catboos的三个贡献点 它自动采用特殊的方式处理类别型特征(categorical features)。首先对categorical features做一些统计,计算某个类别特征(category)出现的频率,之后加上超参数,生成新的数值型特征(numerical features)。这也是我
前言 在竞赛题中,我们知道XGBoost算法非常热门,它是一种优秀的拉动框架,但是在使用过程中,其训练耗时很长,内存占用比较大。在2017年年1月微软在GitHub的上开源了一个新的升压工具–LightGBM。在不降低准确率的前提下,速度提升了10倍左右,占用内存下降了3倍左右。因为他是基于决策树算法的,它采用最优的叶明智策略分裂叶子节点,然而其它的提升算法分裂树一般采用的是深度方向
更多干货请关注公众号【3D视觉工坊】~ 算法基本思想 3d box的长宽高回归 角度回归 注意:论文中的角度回归分支是对cosθ l和sinθ l来进行回归的。 类别判断 这里的类别判断就是简单的多分类。 2d box的回归 这个回归没有在文章图中体现出来,但是确实存在,后面的3d box计算也是要基于2d box的信息,2d box回归应该就是加在confidence
介绍 首先来直观看下所要分类的图像数据: 在这里一共是99种树叶,每种树叶包含16幅图像,因此训练集中一共1584幅图像。然而,我们不对图像直接操作,kaggle为每个图像提供三组特征:形状连续描述符,内部纹理直方图和细尺度边缘直方图。 对于每个特征,每个叶样本给出一个64属性的向量,因此,对于一幅图像来说,一共是64x3=192个向量。kaggle把每个训练图像转化成一个192维向量
作者:Tom HardyDate:2020-3-13来源:基于2.5/3D的自主主体室内场景理解研究 参考链接:https://arxiv.org/abs/1803.03352 主要内容 摘要随着低成本、紧凑型2.5/3D视觉传感设备的出现,计算机视觉界对室内环境的视景理解越来越感兴趣。本文为本课题的研究提供了一个全面的背景,从历史的角度开始,接着是流行的三维数据表示
作者:Tom HardyDate:2020-2-14来源:面向高精度领域的视觉伺服算法汇总 前言 视觉伺服是工业上很重要的一个领域,在自动装配、高精配准上应用非常多。针对近两年常见的算法模式,在这里进行了简单的汇总。 1、Predicting Target Feature Configuration of Non-stationary Objects for Gras
一、 胰腺分割数据集 数据下载链接:http://academictorrents.com/details/80ecfefcabede760cdbdf63e38986501f7becd49数据介绍:包含82个病例的胰腺数据集。 二、MICCAI胰腺分割数据集 数据下载链接:http://medicaldecathlon.com/数据介绍:282个训练病例,139个测试病例,同
前言 计算机视觉是一个对操作性和实战性要求都非常高的领域,对于许多在校的本科生/研究生,接触的项目并不算多,甚至非常单一,有的导师连项目都没有,这个时候想要深入CV领域几乎不可能。不过好在有许多开源竞赛平台,它们可以提供完整的项目需求、整套数据以及开源社区来进行技术交流,并根据代码测试结果对算法性能进行排序评估,参与者可以根据结果对算法做进一步调整优化!下面将会详细介绍下几个质量较高的竞
前言 接着上篇6D姿态估计算法汇总(上),原文请见6D姿态估计算法汇总(下) 10、PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization 论文链接:https://arxiv.org/abs/1505.07427代码链接:http://mi.eng.cam.ac.uk/projects/reloc
前言 本文首发于公众号【3D视觉工坊】,原文请见超详细的计算机视觉数据集汇总 1、KITTI数据集 KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detectio
前言 本资料首发于公众号【3D视觉工坊】,原文请见计算机视觉学习资料汇总,更多干货请关注公众号后台回复关键字获取~ (一)基础操作 Linux 学习网站 Linux中国:https://linux.cn/鸟哥的linux私房菜:http://linux.vbird.org/Linux公社:https://www.linuxidc.com/ 学习书籍 《鸟哥的Linux私房菜》《Lin
主要思想 基于传统卷积模块设计,提出一种高效空间金字塔卷积模块(ESP Module),有助于减小模型运算量和内存、功率消耗,以提高在终端设备上的适用性。这款模型和MobileNet系列、ShuffNet系列相似,都是轻量级模型,可以部署到移动端。 模型具体结构 如下图所示,模型主要有两个模块构成,一个是Efficient spatial pyramid模块,一个是HFF模块。 Eff
前言 CycleGAN是在今年三月底放在arxiv(论文地址CycleGAN)的一篇文章,文章名为Learning to Discover Cross-Domain Relations with Generative Adversarial Networks,同一时期还有两篇非常类似的DualGAN(论文地址:DualGAN)和DiscoGAN(论文地址:DiscoGAN),简单来说,它们的功能
前言 本文首发于公众号【3D视觉工坊】,原文请见6D姿态估计算法汇总(上),更多干货获取请关注公众号~ 1、DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion (CVPR2019) 原文链接:https://arxiv.org/abs/1901.04780代码链接:https://github.com/j96w/D
本博客主要是对“Uncertainty-Driven 6D Pose Estimation of Objects and Scenes from a Single RGB Image”论文的解读。 论文地址:https://www.computer.org/csdl/proceedings/cvpr/2016/8851/00/8851d364-abs.html 1.训练数据的采集 由于是基于
一、单目图像下的3D目标检测 1、YOLO3D 2、SSD-6D 3、3D Bounding Box Estimation Using Deep Learning and Geometry 4、GS3D:An Effcient 3D Object Detection Framework for Autonomous Driving 5、Deep MANTA: A Coarse-to-fi
前言 本文首发于公众号【3D视觉工坊】,原文请见3D人脸重建算法,更多干货获取请关注公众号~ 1、Nonlinear 3D Face Morphable Model(2018) 论文链接:https://arxiv.org/abs/1804.03786项目链接:http://cvlab.cse.msu.edu/project-nonlinear-3dmm.html 主要思想:三维变形模型(
注1:文末附有【自动驾驶】交流群加入方式哦~ 注2:多传感器数据融合系统教程:自动驾驶中的多传感器融合 Self-Driving Cars: A Survey 自驾车自动驾驶系统的体系结构一般分为感知系统和决策系统。感知系统一般分为许多子系统,负责自动驾驶汽车定位、静态障碍物测绘、移动障碍物检测与跟踪、道路测绘、交通信号检测与识别等任务。决策系统通常被划分为许多子系统,负责诸如路径规划、路径
注1:文末附有【自动驾驶、3D检测】交流群加入方式哦~ 注2:计算机视觉系统学习资料获取:链接 前言 前面总结了几种基于激光雷达点云数据的3D目标检测算法,还有一些算法不再单独列出,这里做个简单总结来分享下! 基于激光雷达点云的3D目标检测算法 1、End-to-End Multi-View Fusion for 3D Object Detection in Lidar Point Cl
前言 这一篇的内容主要要讲一点在深度学习的3D目标检测网络中,我们都采用了哪些数据预处理的方法,主要讲两个方面的知识,第一个是representation,第二个数据预处理内容是数据增广。作为本篇博文的引言,我们先给一种博主制作的比较重要的3D检测方法图鉴,如下,就笔者的个人理解,今年的CVPR出现了很多的one-stage的方法,同时出现了很多融合的方法,这里的融合有信息融合,有represe
前言 除了对应点方式,还可以将点云将与整个形状对齐,获得6D姿态。通常,首先进行粗配准以提供初始对准,然后进行密集配准方法,如迭代最近点(ICP),以获得最终的6D姿态。针对点云方式,挑选了一些相关的paper,在这里做下基本思想分享。 1、Go-ICP: A Globally Optimal Solution to 3D ICP Point-Set Registration 迭代最近点(I
注1:文末附有【三维重建】交流群加入方式哦~ 注2:计算机视觉系统学习资料获取:链接 00 前言01 基于传统多视图几何的三维重建算法1.1 主动式(1)结构光(2)TOF 激光飞行时间法(3)三角测距法1.2 被动式(1)单目视觉(2)双目/多目视觉1.3 基于消费级RGB-D相机02 基于深度学习的三维重建算法2.1 在传统三维重建算法中引入深度学习方法进行改进2.2 深度学习重建算法和传
前言 近期读取了一些最新基于RGB图像下的机器人抓取论文,在这里分享下思路。 1、Optimizing Correlated Graspability Score and Grasp Regression for Better Grasp Prediction 本文提出了一种新的深度卷积网络结构,该结构通过引入新的丢失量,利用抓取质量评价来改进抓取回归。除此之外发布了Jacquard+,它是Jac
作者:Tom HardyDate:2020-1-6来源:总结|深度学习实现缺陷检测 前言 缺陷检测是工业上非常重要的一个应用,由于缺陷多种多样,传统的机器视觉算法很难做到对缺陷特征完整的建模和迁移,复用性不大,要求区分工况,这会浪费大量的人力成本。深度学习在特征提取和定位上取得了非常好的效果,越来越多的学者和工程人员开始将深度学习算法引入到缺陷检测领域中,下面将会介绍几种深度学习算法在
更多干货请关注公众号[3D视觉工坊]~ 前言 最近要在ROS下做激光雷达和相机的数据融合,而且要同步,搜了网上一大堆,没有找到特别明确的答案,最终,还是搞出来啦~~~ 这里主要是完成雷达和相机同步映射,需要相机的内参和雷达相机标定的外参。关于雷达和相机的标定请参考我的另一篇博文:雷达和相机的联合标定 代码 把要处理的数据声明为类的私有变量,data_fusion()为数据融合函数~,这里相
介绍 最近要做激光雷达和相机的联合标定,我们使用相机进行二维图像上的object detection,激光雷达可以辅助测距,从而帮助我们判断物体相对于相机坐标系的位置。实现联合标定的框架主要有Autoware、Apollo、lidar_camera_calibration、but_velodyne,具体请参考:激光雷达和相机的联合标定。虽然这些框架已经帮我们实现了,但是框架对使用的雷达和相
介绍 Autoware是一款很不错的自动驾驶开源框架,基于ROS进行开发,在apollo出来之前,Autoware在自动驾驶领域很受欢迎。Autoware的编译官网上说的很是简单,但是尝试了几次,并没有那末友好。 配置条件 1、Opencv(2.4.10以上)2、QT(我安装的是5.8.0) 安装QT时请注意使用权限。 /* 设置权限 */ sudo chmod a+x ./qt-ope
前言 大恒网口相机真的有点坑,api很难用,还好技术支持比较有耐心,一点一点的帮着解决了问题。 驱动安装 首先去大恒官网去下载linux下面的驱动,除了C++版本,还有python版本。一定要注意:linux下面安装驱动时,要看自己的内核版本支不支持相机的驱动,这一点很坑,要问清楚,到后面,也是费了很大劲才更换的内核。这是我这个相机驱动支持的linux内核,然后,安装驱动即可。安装完驱动后
积分
粉丝
勋章
TA还没有专栏噢
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信