机器学习A-Z~先验算法Apriori
本文将会讲述关联规则学习中的一个基本算法,叫做先验算法。所谓先验算法,就是找出不同事件之间的联系。比如一个人在超市买了产品A,他可能会买货物B。这里我们看一个例子。 这里有七笔交易,那么根据这些数据我们可以得出一些猜测,当有货物A时可能有货物B。比如有汉堡的时候可能有薯条,如果有蔬菜可能就有水果等等。当我们的商店越来越大,交易记录越来越多,那么通过…
机器学习A-Z~K平均聚类算法
本文来讲讲K平均聚类算法(K-Means Clustering),K Means算法是所有聚类算法中最经典的一种,因为它不断在直觉上容易理解,而且它的计算效率也是非常的高。 原理 在讲K-Means算法前我们先看看,这个算法能做什么。下面有一组数据,我们想要把数据分成若干个类,在某一类当中,这些数据的彼此之间的距离比较近。对于这个大问题,我们有两个…
机器学习A-Z~分类模型性能评价及选择
本篇文章将给大家介绍一些宏观的核心概念和测度来评价分类算法和分类器的表现,尤其是如何评价分类器预测中会产生的一些错误。 伪阳性(False Positives)和伪阴性(False Positives) 首先讲的是伪阳性和伪阴性,英文叫做False Positives和False Negatives。先回到之前逻辑回归的例子,下图画出了sigmod…
机器学习A-Z~决策树与随机森林
决策树 有的人可能听过一个词:CART,这个代表的意思是Classification And Regression Tree。它是一个分类和回归的决策树。它被分为两类,一类是分类决策树(Classification Trees),另一个类是回归决策树(Regression Trees)。也就是我们要用这个决策树解决两类问题,一个分类问题一个回归问题…
机器学习A-Z~朴素贝叶斯
本文要讲述一个古老的机器学习算法,叫做朴素贝叶斯。这个算法比较简单明了,没有使用非常复杂的数学定理。用到的核心的数学理论就是概率中的一个定理,叫做贝叶斯定理(Bayes' Theorem)。 贝叶斯定理 现在我们看一个例子,假设有一个生产扳手的工厂,有两台机器。这两台机器分别生产了很多扳手,而且每个扳手都能看出是哪个机器生产的。现在有了很多很多生产…
机器学习A-Z~支持向量机
本文将介绍机器学习中一个非常重要的算法,叫做SVM,中文翻译支持向量机。首先看一组例子来解释这个算法。 基本概念 有一组数据如图所示,有红色的点和蓝色的点,代表了两种分类的数据,现在我们要做的是如何将这两种数据准确的分隔开来。看图像其实很简单,可以横着画一条直线或者竖着画或者斜着画都能将其分隔开来。那么svm要做的就是找到最佳的一条直线。 那么这条…
机器学习A-Z~Logistic Regression
机器学习A-Z~Logistic Regression 之前的课程谈论的都是线性回归问题,现在开始看看分类问题。首先讲的是逻辑回归,英文叫做Logistic Regression。看一下下面的图像,因变量不再如同线性回归那样相对来说比较连续,这里的数据点是离散的。 比如我们现在是一家媒体公司,有一些广告投放,为了让客户购买产品。现在收集了客户的年龄…
机器学习A-Z~评估回归模型的表现
本文开始讲解关于如何评估回归模型的表现的几个方式。 R平方 首先来讲一下前面也有提到的R平方的概念。来看下面这个例子。下面红色的是数据对应的点,黑色的直线是我们拟合出来的一条简单线性线性回归。 怎么拟合这条直线呢?实际上就是假设平面上有一条直线,我们将这些数据点向这条直线上做投影,那么这些投影和实际值的差的平方和最小时就能得到这条直线。这个也有个专…
机器学习A-Z~多项式回归
之前的文章中已经学习过多元线性回归,现在来讲讲多项式回归。首先说说多项式线性回归,表达式可以表示为: $$ y = b_0 + b_1x_1 + b_2x_1^2 + ... + b_nx_1^n $$ 这个表达式和多元线性回归非常像,唯一的区别就是多项式线性回归中存在很多次方项,而多元线性回归中是多个变量。实际上这里可以把多元线性回归中的多个变量…
机器学习A-Z~多元线性回归
机器学习A-Z~多元线性回归 之前的文章已经讲述了简单线性回归的概念和代码实现,现在来继续看看多元线性回归。所谓多元线性回归其实就是自变量的个数变多了,之前的简单线性回归方程可以表示为:$y=b_0 +bx$,那么在多元中则是$y=b_0+b_1x_1+b_2x_2+...+b_nx_n$。 线性回归的几个前置条件 在正式使用多元线性回归之前,我们…