随着Word Embedding在NLP很多领域取得不错的成果,人们开始考虑把这一思想推广到其他领域。从word2vec模型的实现原理可以看出,它主要依赖一条条语句,而每条语句就是一个序列。由此,只要有序列特征的场景应该都适合使用这种Embedding思想。下图表示了不同用户在一定时间内查询物品形成的序列图形,可以看出,物品形成的序列与词形成的序列(语句)有很多相似的地方,因此,人们把Word E
传统机器学习的输入数据中一般含有分类特征,对这些特征或字段的处理是特征工程的重要内容之一。分类(Categorical)特征也被称为离散特征,而机器学习模型通常只能处理数值数据,所以需要将分类数据转换成数值数据。 有序(Ordinal)类型 有序类型的分类特征存在自然的顺序结构,所以可以对该类型数据进行升序或者降序排列,比如关于衣服型号特征的值可能有S (Small)、M (Middle)、L
前面的文章介绍了由Word Embedding延伸出的Item Embedding等,这些延伸都建立在它们有序列特性的基础上。其实,可延伸的领域还有很多,有些初看起来与序列无关的领域,通过适当变化后,也同样适用。如下图所示,左边是人们在电商网站浏览物品的轨迹,这些轨迹呈图结构,通过一些算法计算后,可以把左图转换为右图这样具有序列样本特征的格式: Graph Embedding与Word Em
分类目录:《深入理解深度学习》总目录 前文介绍了因word2vec而流行的Word Embedding,这种表示方法比离散的独热编码要好很多,因为它不仅降低了维度,还可以反映出语义空间中的线性关系,如“国王-王后≈男-女”这种相似关系。因此word2vec及其他类似方法几乎是所有深度模型必备的方法。但是,这类表示方法是根据语料库生成的字典,一个单词对应一个固定长度的向量,如果遇到一词多义的情况,
分类目录:《深入理解深度学习》总目录 近些年基于深度学习的NLP技术的重大进展主要包括NNLM(2003)、Word Embedding(2013)、Seq2Seq(2014)、Attention(2015)、Transformer(2017)、GPT(2018)、BERT(2018)、XLNet(2019)、GPT-2(2019)、GPT-3(2020)等,主要预训练模型的大致发展脉络
针对随机采样技术的缺点,人们陆续开发出了一些更为高级的采样算法,这类算法均或多或少地利用了样本的局部先验分布信息,并利用这些信息,通过人工干预的方式来移除多数类样本或添加人工合成的少数类样本,从而达到了提升分类性能的目的。在此,我们将此类算法统称为“人工采样技术”。本文及后续文章将对此类技术中最具代表性的五种算法做展开介绍。 SMOTE(Synthetic Minority Oversampli
随机采样是最为简单也是应用最为广泛的一类采样技术,主要分为以下两个类别:随机降采样(Random Under-Sampling,RUS)及随机过采样(Random Over-Sampling, ROS)。其中,前者通过随机移除一定数量的多数类样本来缓解类分布不均衡的影响,而后者则通过简单复制少数类样本的方式来达成不同类在训练样本规模上的平衡。下面将分别对上述两类算法的流程及特点进行简要介绍。 随
分类目录:《深入理解机器学习》总目录相关文章:机器学习中的数学——信息熵(Information Entropy)基于决策树的模型(一)分类树和回归树 基于树的模型(二):集成学习之Bagging和Random Forest基于树的模型(三):集成学习之GBDT和XGBoost基于树的模型(四):随机森林的延伸——深度森林(gcForest)基于树的模型(五):从零开始用Python实现ID3决
相关文章:· 机器学习模型的性能度量 性能评价测度是用于评价分类模型“好坏”的一种量度。对于绝大多数了解分类问题的读者来讲,可能接触最多的一种性能评价测度就是分类准确率(Accuracy)。假设有一个具有m mm个样本的数据集D={(x1,y1),(x2,y2),⋯,(xm,ym)},其中y i 是示例x i 的真实标记,则对于分类模型f,其在该数据集上的分类准确率可由下式计算得到:
自20世纪90年代末,研究人员开始注意到类别不平衡问题起,已有多种学习技术被开发并用于解决此问题,主要包括以下几种。 样本采样技术 样本采样,也称数据层处理方法,顾名思义,即通过增加少数类样本或减少多数类样本的方式来获得相对平衡的训练集,以解决类别不平衡问题。增加少数类样本的方法被称为过采样(Oversampling),而减少多数类样本的方法则被称为降采样或欠采样(Undersampling)
分类目录:《深入理解机器学习》总目录 对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准,这就是性能度量(Performance Measure)。性能度量反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果;这意味着模型的“好坏”是相对的,什么样的模型是好的,不仅取决于算法和数据,还决定于任务需求。在预测任务中,给定样例
从《类别不平衡分布对传统分类器性能的影响机理》文章可以看出,类别不平衡分布是会对各种传统分类算法的性能产生负面影响的。然而,这种负面影响的大小却与很多因素有关,本文和大家探讨这些影响因素。 类别不平衡比率 如《类别不平衡分布对传统分类器性能的影响机理》所述,在不平衡分类问题中,类别不平衡比率(Imbalanced Ratio, IR)是一个较为重要的概念,其具体可表示为多数类样本数与少数类样本
机器学习算法是一种能够从数据中学习的算法。卡耐基梅隆大学计算机科学学院机器学习系主任Mitchell给出了机器学习算法的定义:对于某类任务T 和性能度量P,一个计算机程序被认为可以从经验E 中学习是指,通过经验E 改进后,它在任务T 上由性能度量P 衡量的性能有所提升。 经验E ,任务T 和性能度量P的定义范围非常宽广,我们会在接下来的文章中提供直观的解释和示例来介绍不同的任务、性能度量和经验,
积分
粉丝
勋章
TA还没有专栏噢
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信