9. Zero-shot Image-to-Image Translation 该文提出一种无需训练,即可对图像进行文本驱动编辑的方法。在准确修改目标对象的同时,保证原图的背景和布局等内容不受太多的影响。下图展示了几种文本驱动图像编辑的效果,如将猫变成狗,将马变成斑马等。 该文主要做了以下几点工作,首先将输入的图像\tilde{x}利用Stable Diffusion编码到潜在空间得到
6. Diffusion-based Image Translation using Disentangled Style and Content Representation 本文介绍了一种基于扩散模型的图像转换方法,图像转换就是根据文本引导或者图像的引导,将源图像转换到目标域中,如下图所示。 在图像转换中待解决的一个关键问题就是如何在将语义特征转换到目标域中时保留源图像的结构特征
无监督提取特征 特征提取是无监督学习中很重要且很基本的一项任务,常见形式是训练一个编码器将原始数据集编码为一个固定长度的向量。自然地,我们对这个编码器的基本要求是:保留原始数据的(尽可能多的)重要信息 重构 → 最大化互信息 自编码器:我们怎么知道编码向量保留了重要信息呢?一个很自然的想法是这个编码向量应该也要能还原出原始图片出来,所以我们还训练一个解码器,试图重构原图片,
5. SDEdit: Guided Image Synthesis and Editing With Stochastic Differential Equations 该文提出一种基于SDE扩散模型的引导图像生成和编辑方法。通过使用者在原图上给出一些引导,比如在图像上涂鸦或者增加一个图块,甚至可以不给定原图,直接纯手工绘制一个涂鸦作为输入,模型就能够根据输入的带有引导信息的图像生成对应的结
4. Palette: Image-to-Image Diffusion Models 该文提出一种基于扩散模型的通用图像转换(Image-to-Image Translation)模型——Palette,可用于图像着色,图像修复,图像补全和JPEG图像恢复等多种转换任务。Palette是一种条件扩散模型,目的是根据输入的条件x来构建分布p(y|x),其中x和y都是图像的形式。作者采用了25
8. BBDM: Image-to-Image Translation with Brownian Bridge Diffusion Models 本文提出一种基于布朗桥(Brownian Bridge)的扩散模型用于图像到图像的转换。图像到图像转换的目标是将源域A中的图像I_A,映射到目标域B中得到图像I_B。在一般的扩散模型中(如DDPM),是从目标域B中采集样本作为起点x_0对其进行扩
3. Residual Denoising Diffusion Models 该文提出一种残差去噪扩散模型(RDDM)可用去图像生成和图像修复(如去除阴影、去雨、暗光提升等)。该文最大的特点是提出一种双扩散模型,在扩散过程中不仅包含噪声\epsilon扩散,还包含残差信息I_{res}的扩散,这里的残差信息就是退化图像I_{in}和I_0之间的差值。例如去雨任务中,带有雨的图像就是I_{i
7. Prompt-to-Prompt Image Editing with Cross Attention Control 本文提出一种利用交叉注意力机制实现文本驱动的图像编辑方法,可以对生成图像中的对象进行替换,整体改变图像的风格,或改变某个词对生成图像的影响程度,如下图所示。 之前的文本驱动的图像生成方法很难对图像的内容进行精细地编辑,哪怕只改变了一点文本提示的内容都可能让生成
本系列文章介绍了基于扩散模型在图像生成领域应用相关的论文,排名不分先后 1. ILVR:Conditioning method for denoising diffusion probabilistic models 该文提出一种基于DDPM的条件生成方法,无需额外的训练,仅需一张图像作为参考,就能生成与参考图像具备相似风格的其他图像。并且可以通过改变一些超参数,来控制生成样本与参
2. Diffusion Models Beat GANs on Image Synthesis 该文基于扩散模型主要做了两方面的工作:一是通过多种方式优化改进了UNet网络结构以提升扩散模型的生成效果;二是提出一种类别引导的条件生成方法,通过在多个数据集上的实验结果表明,改进后的扩散模型无论在无条件生成还是条件生成任务中都取得了媲美甚至超过GAN的性能。 首先,在网络结构方面作者尝试了以
在研究目标检测算法的时候,通常会遇到如何稀疏化检测框这个问题。无论是anchor-based还是anchor-free的检测算法,输出的检测框在未经处理的时候,都很容易出现很多重复度很高的box, 这样从一定程度上会影响模型的准确率。通常,NMS是比较常用的合并检测框的方法,不了解的可以戳《NMS》。 本文介绍的是WBF,一种加权的检测框合并算法,也适用于与多模型的预测结果合并。论文:https
1 引言 运动学研究操作臂的运动特性,而不考虑使操作臂产生运动时施加的力。在操作臂运动学中,将要研究操作臂的位置、速度、加速度以及位置变量的所有高阶导数(包括对时间或其他变量的导数)。因此,操作臂运动学涉及所有与运动有关的几何参数和与时间有关的性质。操作臂的运动和使之运动而施加的力和力矩之间的关系称为操作臂动力学,将在第6 章进行研究。 在本章中,只研究静止状态下操作臂连杆的位置和姿态。在第
环境如下: VS2015社区版 OpenCV3.4.0 (下载win pack链接:https://www.opencv.org/opencv-3-4.html) Win10 64位,i7-6700 CPU@3.4GHz 3.41GHz. ,内存32G, 无GPU,未装cuda Darknet 工程:https://github.com/muyiguangda/darknet (带视频测试
旋转矩阵: x轴旋转:在3D坐标系中,逆时针方向通常被视为正方向,所以旋转默认是逆时针的。 prediction3dpoint = np.asarray(prediction3dpoint) theta = np.radians(90) # 构建绕X轴旋转的矩阵 rotation_matrix = np.array(
1 引言 机器人操作的定义是指通过某种机构使零件和工具在空间运动。这自然就需要表达零件、工具以及机构本身的位置和姿态。为了定义和运用表达位置和姿态的数学量,我们必须定义坐标系并给出表示规则。我们这里提出了许多关于位置和姿态的描述,这些描述作为我们以后表达线速度和角速度、力和力矩的基础。 我们采用这样一个体系,即存在着一个世界坐标系,我们讨论任何问题都能够参照这个坐标系。我们定义的位置和姿态都
机器视觉与控制——轨迹(下) 前言 轨迹是具有特定时间属性的一条路劲,其中一个重要特征是要平滑(位置和姿态随时间流畅地变化),文章分俩篇将从一维扩展到多维,最后讨论如何生成分段性轨迹,使得机器人不间断地经过一系列中间点。 多段轨迹 对于多轴的情况,很可能在某个特定运动段其中一些轴要比其他轴需要移动更多距离,这时如果各个关节有不同的速度限制时,将会使轨迹生成变得
如果用Python初始化一个长度为n的一维list,很简单,只需: ls = [0] * n 初始化元素为n个0。但是对于二维,如果简单用这个方法扩展就很容易出错: ls = [[0] * n] * m 就会出现问题。把每个一维list当作元素,上面的代码只会把[[0] _ n]的引用复制m倍,并不会开辟m_n个单位的内存空间来。 这个时候,满足ls[0]的地址跟ls[1],…,
opengl安装 pip install -U pyopengl opengl显示bvh https://github.com/chenzhike110/BVH-visualizer opengl pyqt 显示2d骨骼 from PyQt5.QtWidgets import QApplication, QMainWindow, QOpenGLWidget from PyQt5.QtC
本文介绍信息抽取、情感分析、问答系统、机器翻译和对话系统等自然语言处理应用任务。这些任务可以直接或间接地以产品的形式为终端用户提供服务,是自然语言处理研究应用落地的主要技术。 信息抽取 信息抽取(Information Extraction,IE)是从非结构化的文本中自动提取结构化信息的过程,这种结构化的信息方便计算机进行后续的处理。另外,抽取的结果还可以作为新的知识加入知识库中。信息抽取一般
dropout是Hinton老爷子提出来的一个用于训练的trick。在pytorch中,除了原始的用法以外,还有数据增强的用法(后文提到)。 首先要知道,dropout是专门用于训练的。在推理阶段,则需要把dropout关掉,而model.eval()就会做这个事情。 原文链接: https://arxiv.org/abs/1207.0580 通常意义的dropout解释为:在训练过程的前向
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信