集成学习 集成学习是目前来说使用最广泛的算法,比赛中常见的XGBoost、LightGBM、Adaboost等,都属于集成模型,都是由一系列弱模型组合而来,常见的就是决策树,我们称弱分类器为基学习器,如果想要一个集成模型效果比较好,则基学习器就应该满足“好而不同”。好代表分类或者回归的效果较好,至少不能差,不同代表不同的基学习器之间不能非常相似。而在集成学习中最重要的内容,就是将基学习器进行组合
前言 本章的决策树旨在了解最基础的决策树知识以及常见的几个决策树算法,至于更近阶的集成学习则不加以介绍。 1、决策树思想 决策树是机器学习一个非常重要的分支,作为最重要的机器学习算法之一,掌握决策树成为学习机器学习的重要目标。 首先需要明确的是,决策树可以解决回归和分类问题,但是这里主要讨论的是分类问题。决策树的学习的基本形式是一种树型结构,和svm、感知机这类的机器学习算法不同,决策
集成学习与Adaboost 集成学习在上一节已经介绍过了,集成算法-随机森林,一般来说集成算法可以分为两类:Boosting和Bagging,而上次我们详细介绍了Bagging中的代表算法随机森林。但是Boosting中的算法却一个也没有提,于是这篇文章,就主要介绍Boosting的最常见的一个集成算法:Adaboost。 Adaboost算法的核心思想就将多个弱学习器进行组合成一个强学习器,
SMO序列最小最优化算法中关于解析方法的证明 在SMO这篇文档中,我们已经详细介绍了SMO从0实现的详细步骤,当时在学习到生成α2new,unc时,我们只给出了定理内容,并没有介绍定理的详细证明。即如下定理: 这里只给出了定理的结果,下面将针对这个定理给出详细的证明。 证明:首先引进记号: 到这里所有的证明过程已经结束,其实细看证明步骤并不难,就是一些代换和无约束求导求极值的
文章目录 SMO序列最小优化算法 前言 SMO算法介绍 SMO算法实现 1.变量的选择方法 1.1 第一个变量的选择 1.2.第二个变量的选择 2.变量的解析方法 3.更新中间变量 SMO算法的实现 前言 在支持向量机这篇文章中详细叙述了支持向量机的理论推导部分,其中在实现支持向量机的部分,我们说到支持向量机最后就是求解一
前言 终于到支持向量机这一分类算法了,支持向量机是所有入门机器学习小伙伴必须掌握的算法之一,我希望这篇文章能涵盖支持向量机SVM的绝大部分,如果有遗漏或者没有学习到的地方,后续我会加以补充。本文也是沿着《统计学习方法》这本书的主线来进行介绍,详细的部分都会加以解释。 一、支持向量机介绍 第一点我们需要明白,SVM最初只是为了解决二分类问题而提出,后续才有用SVM来解决回归问题和多分类问题
非线性支持向量机实现假设我们面对的非线性问题是下面的二分类问题: 要求我们找到一个合适的曲线能够正确区分红色和蓝色样本点,毫无疑问,线性支持向量机是无法解决此类问题的,我们可以借助非线性支持向量机来求解问题,那么下面的核心问题就是找到合适的核函数,在不知道什么核函数合适的时候,优先使用高斯核函数是个好办法。即: 其实和线性支持向量机相比最大的差别就是将原来特征向量的内积换成了核函数的形
线性不可分支持向量机的实现 在支持向量机这篇文章中,我们已经详细推导了线性不可分支持向量机的数学模型,并将原始问题转换成待求解的对偶问题,重温对偶问题如下: 线性不可分支持向量机对偶问题最终形式: 对比两种支持向量机的数学模型可以发现,两者的目标函数都是一致的,唯一有差别的就是约束条件部分,这个约束条件其实也只有支持向量才会有作用,对其他的样本点是没有太大影响的,所以我们也可以认为,线性
决策树调参 记录一下决策树调参,在所有模型进行调参前,都应该熟悉算法的思路流程,这样才能进行更好的调参。决策树分为回归树和分类树,回归树与分类树在Python的sklearn中分别对应着两个不同的函数,其中回归树为:DecisionTreeRegressor 分类树为:DecisionTreeClassifier。虽然说函数名字不同,但是这两个函数的参数其实大差不大。 参数名
Adaboost调参 Sklearn中的Adaboost接口是在sklearn.ensemble中,ensemble是集成的意思,在这个包中含有很多集成模型,Adaboost就是封装在ensemble中,我们需要做的就是知道如何对模型进行调参,要知道Adaboost使用的基学习器就是决策树,如果解决分类问题那就是分类树,如果解决回归问题就是回归树,对应的函数就是AdaBoostClassif
前言 层次聚类和K-means聚类以及DBSCAN聚类又截然不同。层次聚类的核心思想是试图在不同层次对数据集进行划分,形成树形的结构。本章主要介绍层次聚类的思想,算法具体步骤和Matlab编程实践。 算法原理 层次聚类有两种思路:自底向上和自顶向下,这两种思路带来的是两种不同的算法。本文主要介绍AGNES(自底向上)。 自底向上如果从树状图中看,就是从树的最底端不断向上搜索。先
算法介绍 K-means聚类算是机器学习无监督学习的经典算法了,最早接触的时候是在数模比赛中,那个时候还只停留在使用API上,对K-means算法的核心步骤没有完全搞懂,本文打算详细介绍K-means聚类算法,并给出选择k值的两个方法:手肘法和轮廓系数法,以及所有的code。 K-means原理 原理非常简单,在了解Kmeans算法之前,得知道什么是无监督学习,在机器学习中,无监督学
密度聚类:DBSCAN 前面一节介绍了K-means聚类算法,但是K-means算法不能解决非球形的簇和不同大小的,比如说下面这种情况 如果使用K-means来对上述样本进行聚类,那么肯定没法运行,因为笑脸的外围轮廓是圆形,如果使用K-means算法这一圈一定不会聚类成一类。 如果遇到这种情况,就需要引入一个新的算法:密度聚类 密度聚类顾名思义就是基于密度的聚类,在了解密度聚类
统计图表 类别数据 条形图:条形图是用宽度相同的条形来展示各类频数的图形; 帕累托图:帕累托图将各类别数据出现的频数按从大到小排序后绘制的条形图; 饼图:饼图是用圆形及园内扇形的角度来表示一个样本(或总体)中各类别的频数占总频数数比例大小的图形; 环形图:环形图可以显示多个样本各类别频数占其相应总频数的比例; 数值数据 直方图:直方图是用来展示数值数据分布的一种常用图形;
前言 假设检验是推断统计的一项重要内容,它是先对总体参数提出一个假设值,然后利用样本信息来判断这个假设是否成立。本章主要介绍了假设检验的基本原理和如何针对不同的数据集选择合适的检验方法。 假设检验的基本原理 基本概念 假设检验先对总体参数提出某种假设,然后利用样本信息来判断假设是否成立的统计方法,称为假设检验 假设一般包含两种假设:原假设和备择假设。研究者想搜集证据和资料来推翻的假设
前言 激活函数值域关于零对称的问题在激活函数那篇文章中未详细介绍,在那里说到,当激活函数的值域不关于0点对称,会导致梯度下降的速度下降,关于这一点,过去我只是将其记下,却并未理解背后的原因。此篇谈谈背后的原因。要探讨为什么Sigmoid函数会影响学习效率这个问题,需要找到影响梯度的因素。 权重更新 深度学习一般的学习方法是反向传播,简单来说,就是通过链式法则,求解全局损失函数 L 对
最大熵 在学习最大熵模型前,我们需要知道熵是什么,在前面决策树那一节,我们介绍了决策树在选择特征时所采用的三种策略:信息增益、信息增益比和基尼指数,其中信息增益和信息增益比都是基于熵计算的,在那里介绍了熵是表示随机变量不确定性的度量,如果设随机变量 X X X的概率分布为:P ( X = x i ) = p i , i = 1 , 2 , ⋯ , n 则随机变量 X 的熵定义
前言 本文是对神经网络中常见的激活函数的一个总结,我会介绍各种激活函数的基本形式和优缺点等。 什么是激活函数 激活函数可以说是神经网络的基础,假设默认你已经了解过神经网络的基础结构,那么在神经网络中,输入层与隐含层或者隐含层与隐含层之间都会存在激活函数,其最主要的功能就是向神经网络中引入非线性因素。 1.Sigmiod函数 Sigmoid型函数是一类S型曲线函数,也叫两端
前言 相关与回归分析是分析变量之间关系的统计方法,本章只介绍简单的相关分析和一元线性回归。 变量间关系的度量 变量之间存在的不确定的数量关系,称为相关关系即当给定一个自变量 x ,其对应的因变量 y 值可能有好几个,这种关系不确定的变量显然不能用函数关系来描述,但也不是没有规律可循,相关分析就是分析这类数据的方法。 相关系数 相关系数是反映两个数值变量之间关系的指标。对于数值变量 x 和
前言 机器学习笔记-朴素贝叶斯分类这篇文章中已经对朴素贝叶斯分类器做了详细的介绍,从原理,模型和例题各方面介绍了朴素贝叶斯。但是那篇文章中针对的全部都是离散属性,并没有说明如何处理连续属性。本文给出贝叶斯分类处理连续属性的方法。 连续特征 连续属性,即连续的数值,且数值之间存在顺序关系,即1,2,3等等,这种属性称为连续属性,在常规的机器学习任务中,连续属性要比离散属性更好处理,例如在G
前言 前面一段时间整理了很多关于树模型的文章,而接下来的篇章,主要是介绍关于概率模型的知识。 在这章中,将会出现各种各样新的名词,例如朴素贝叶斯、贝叶斯估计、极大似然估计等等,这些都是概率模型最基本的知识点,也是重中之重的基础部分。 深入理解朴素贝叶斯 将朴素贝叶斯拆解为两个不相关的名词:朴素 和 贝叶斯。为了更好的理解这两个概念,我们先来了解一些概率论的基础知识。 1.贝叶斯定
前言 本章不会对时间序列所有的内容进行一个全方位的介绍,只会简单的整理部分时间序列的基础知识点。 时间序列的成分 时间序列:按时间顺序记录的一组数据,称为时间序列 而一条时间序列通常可以分解为下面四个部分:趋势、季节波动、循环波动、不规则波动,又可以将上述的三个部分称作为:趋势性、季节性、周期性和随机波动性。组合这四种成分的方式主要有两种:乘法模型和加法模型。 乘法模型:Y t
积分
粉丝
勋章
TA还没有专栏噢
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信