论文:Detecting Heads using Feature Refifine Net and Cascaded Multi-scale Architecture Github:https://github.com/HCIILAB/SCUT-HEAD-Dataset-Release 针对人头这种小目标检测问题,论文提出了特征融合模块Feature Refifine Net (FRN),以及级联
最大熵模型 1. 最大熵原理 2. 最大熵模型定义 3. 最大熵模型 4. 最大熵模型学习 (1)转化为无约束优化问题 (2)求解内部极小化问题 (3)求解外部极大化问题 4. 最大熵模型与逻辑回归 总结 1. 最大熵原理 最大熵(Maximum Entropy)原理是概率模型学习的一个准则,认为在所有可能的概率模型(分布)中,熵最大的模型就是最好的模型,在1957年由
1.准备知识 参考:带你玩转 3D 检测和分割 (二):核心组件分析之坐标系和 Box - 知乎 1.1 坐标系介绍 激光雷达坐标系通常定义如下左图所示,其中x指向前方,y指向左方,z指向上方。 相机坐标系通常定义如上右图所示,其中x指向右方,y指向下方,z指向前方。 1.2 3D边界框的定义 一般来说,对于自动驾驶目标检测任务而言,一个3D边界框可以由7个参数决定:位置(x
词性标注词性是词语在句子中扮演的语法角色,也被称为词类(Part-Of-Speech,POS)。例如,表示抽象或具体事物名字(如“计算机”)的词被归为名词,而表示动作(如“打”)、状态(如“存在”)的词被归为动词。词性可为句法分析、语义理解等提供帮助。词性标注(POS Tagging)任务是指给定一个句子,输出句子中每个词相应的词性。例如,当输入句子为: 他 喜欢 下 象棋 。 则词性标注的
论文:Real-Time Sign Language Detection using Human Pose Estimation Github:https://github.com/google-research/google-research/tree/master/sign_language_detection SLRTP 2020 手语识别任务包括手语检测(Sign language
自然语言处理的核心任务即是让计算机“理解”自然语言所蕴含的意义,即语义(Semantic)。前文介绍的文本向量表示,可以被认为隐性地蕴含了很多语义信息。而一般意义上的语义分析指的是通过离散的符号及结构显性地表示语义。根据待表示语言单元粒度以及语义表示方法的不同,语义分析又可以被分为多种形式。 从词语的粒度考虑,一个词语可能具有多种语义(词义),例如“打”,含义即可能是“攻击”(如“打人”),还可
自然语言处理的一大特点是任务种类纷繁复杂,有多种划分的方式。从处理顺序的角度,可以分为底层的基础任务以及上层的应用任务。其中,基础任务往往是语言学家根据内省的方式定义的,输出的结果往往作为整个系统的一个环节或者下游任务的额外语言学特征,而并非面向普罗大众。本文和后文介绍几种常见的基础任务,包括词法分析(分词、词性标注)、句法分析和语义分析等。 中文分词词(Word)是最小的能独立使用的音义结合体,
论文:Sequence to Sequence – Video to Text GitHub:GitHub - AdrianHsu/S2VT-seq2seq-video-captioning-attention: S2VT (seq2seq) video captioning with bahdanau & luong attention implementation in Tenso
写在前面:本人正在学习MMDetection3D的过程中,可能有理解错误,欢迎指正。 参考视频链接:4小时入门深度学习+实操MMDetection 第二课 官方中文文档:MMDetection 文档 一、模型推断 在官方github上下载所需模型(预训练模型参数文件/pth文件)及其配置文件(后面会讲配置文件的内容/py文件)。 然后使用下列代码进行单张图片的推断: from mmdet im
论文:MedNeXt: Transformer-driven Scaling of ConvNets for Medical Image Segmentation ConvNeXt网络是一种借鉴Transformer的思想进行了改进实现的全卷积网络,其通过全卷积网络和逆向残差瓶颈单元的设计,可以实现比较大的空间感受野。本文在此基础上提出了新的可伸缩,标准化的网络结构MedNeXt。 MedNeXt
前言 上一篇《win10系统下Yolov5目标检测环境搭建(Anaconda3+Pytorch+Yolov5,CPU,无GPU)》中,介绍了win10系统下yolov5的环境搭建步骤,本篇在此环境下,实现吸烟行为识别检测。 一、数据集smoke_data 1、Annotations文件夹 存放labelimg标注工具生成的.xml标注文件,每一张图片对应一个xml文件 2、ImageSets/
论文: DBNet:Real-time Scene Text Detection with Differentiable BinarizationReal-time Scene Text Detection with Differentiable Binarization DBNet++:Real-Time Scene Text Detection with Differentiable Bi
分类目录:《自然语言处理从入门到应用》总目录 无论是基于神经网络语言模型还是word2vec的词向量预训练方法,本质上都是利用文本中词与词在局部上下文中的共现信息作为自监督学习信号。除此之外,另一类常用于估计词向量的方法是基于矩阵分解的方法,例如潜在语义分析(参考《自然语言处理从入门到应用——文本的表示方法》)等。这类方法首先对语料进行统计分析,并获得含有全局统计信息的“词–上下文”共现矩阵,然
目录 蒙特卡罗法 (Monte Carlo Method) 随机抽样 (random sampling) 数学期望估计 (estimation of mathematical expectation) 定积分的近似计算 (Monte Carlo integration) 马尔可夫链的性质 不可约 非周期 正常返 遍历定理 可逆马尔可夫链 马尔可夫链蒙特卡罗法 要解决的问题
《自然语言处理从入门到应用——自然语言处理的语言模型(Language Model,LM)》中介绍了语言模型的基本概念,以及经典的基于离散符号表示的N元语言模型(N-gram Language Model)。从语言模型的角度来看,N元语言模型存在明显的缺点。首先,模型容易受到数据稀疏的影响,一般需要对模型进行平滑处理;其次,无法对长度超过N的上下文依赖关系进行建模。神经网络语言模型(Neural
一、基本概念 聚类是把一个数据对象划分成多个组或簇的过程,使得簇内对象相似度很高,而簇间对象相似度很低。聚类属于无监督分类方式。主要得的聚类方法主要有:基于划分的方法,基于层次的方法,基于密度的方法,基于网格的方法,基于模型的方法。 二、基于划分的方法 1.划分的思想 给定一个有n个数据对象的集合,基于划分的方法会构建数据的k个分组,其中每个分组表示一个簇。对于给定的分组数k,算法会首先给
语言模型(Language Model,LM)(也称统计语言模型)是描述自然语言概率分布的模型,是一个非常基础和重要的自然语言处理任务。利用语言模型,可以计算一个词序列或一句话的概率,也可以在给定上文的条件下对接下来可能出现的词进行概率分布的估计。同时,语言模型是一项天然的预训练任务,在基于预训练模型的自然语言处理方法中起到非常重要的作用,因此这种预训练模型有时也被称为预训练语言模型。本文将主要介
若要利用计算机对自然语言进行处理,首先需要解决语言在计算机内部的存储和计算问题。字符串(String)是文本最自然,也是最常用的机内存储形式。所谓字符串,即字符序列,而其中的一个字符本质上就是一个整数。基于字符串的文本表示方式可以实现简单的字符串增删改查等编辑任务,并能够通过编辑距离等算法计算两个字符串之间的字面相似度。在使用字符串表示(也叫符号表示)计算文本的语义信息时,往往需要使用基于规则的方
一、惰性学习法与急切学习法 急切学习法:指在利用算法进行判断之前,先利用训练集数据通过训练得到一个目标函数,在需要进行判断时利用已经训练好的函数进行决策。惰性学习法:在最开始的时候不会根据已有的样本创建目标函数,只是简单的把训练用的样本储存好,后期需要对新进入的样本进行判断的时候才开始分析新进入样本与已存在的训练样本之间的关系。 典型的惰性学习法是KNN,它不会根据训练集训练一个模型,而是将训练集
论文:Learning Transferable Visual Models From Natural Language Supervision Github:https://github.com/OpenAI/CLIP OpenAI出品 论文通过网络爬取4亿(image, text)对,使用对比学习的方法训练得到clip(Contrastive Language-Image Pre-tr
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信