分类:机器学习

27 篇文章

关联规则挖掘与Apriori算法
关联规则挖掘是数据挖掘中常用的手段,一般指的是从交易数据库、关系数据库以及其他的数据集中发现项或对象的频繁的模式(frequent patterns)、关联(association)的过程。此方法一般用于在购物篮分析(market basket analysis)中。最早是用于发现超市销售数据库中不同商品之间的关联关系,最经典的莫过于啤酒与尿布的这…
机器学习A-Z~Thompson抽样算法
本文继续讲一个强化学习的算法,叫做Thompson抽样算法。这个算法的数学理论基础要用到的是贝叶斯推断(Bayesian Inference)。我们先谈谈这个算法的基本原理。 Thompson抽样算法基本原理 我们依然使用之前的多臂老虎机的问题。如图所示,横轴代表奖励,越往右边表示奖励越多。三条竖线代表三个不同的老虎机它们的平均奖励。 在算法开始前…
机器学习A-Z~置信区间上界算法 Upper Confidence Bound or UCB
本文将要开始介绍机器学习中的强化学习, 这里首先应用一个多臂老虎机(The Multi-Armed Bandit Problem)问题来给大家解释什么是强化学习。 多臂老虎机问题 如图所示,我们有几个单臂老虎机,组成一起我们就称作多臂老虎机,那么我们需要制定什么样的策略才能最大化得到的奖励。这里假设每个老虎机奖励的随机分布是不一样的。 比如第一个分…
机器学习A-Z~先验算法Apriori
本文将会讲述关联规则学习中的一个基本算法,叫做先验算法。所谓先验算法,就是找出不同事件之间的联系。比如一个人在超市买了产品A,他可能会买货物B。这里我们看一个例子。 这里有七笔交易,那么根据这些数据我们可以得出一些猜测,当有货物A时可能有货物B。比如有汉堡的时候可能有薯条,如果有蔬菜可能就有水果等等。当我们的商店越来越大,交易记录越来越多,那么通过…
机器学习A-Z~K平均聚类算法
本文来讲讲K平均聚类算法(K-Means Clustering),K Means算法是所有聚类算法中最经典的一种,因为它不断在直觉上容易理解,而且它的计算效率也是非常的高。 原理 在讲K-Means算法前我们先看看,这个算法能做什么。下面有一组数据,我们想要把数据分成若干个类,在某一类当中,这些数据的彼此之间的距离比较近。对于这个大问题,我们有两个…
机器学习A-Z~分类模型性能评价及选择
本篇文章将给大家介绍一些宏观的核心概念和测度来评价分类算法和分类器的表现,尤其是如何评价分类器预测中会产生的一些错误。 伪阳性(False Positives)和伪阴性(False Positives) 首先讲的是伪阳性和伪阴性,英文叫做False Positives和False Negatives。先回到之前逻辑回归的例子,下图画出了sigmod…
机器学习A-Z~决策树与随机森林
决策树 有的人可能听过一个词:CART,这个代表的意思是Classification And Regression Tree。它是一个分类和回归的决策树。它被分为两类,一类是分类决策树(Classification Trees),另一个类是回归决策树(Regression Trees)。也就是我们要用这个决策树解决两类问题,一个分类问题一个回归问题…
机器学习A-Z~朴素贝叶斯
本文要讲述一个古老的机器学习算法,叫做朴素贝叶斯。这个算法比较简单明了,没有使用非常复杂的数学定理。用到的核心的数学理论就是概率中的一个定理,叫做贝叶斯定理(Bayes' Theorem)。 贝叶斯定理 现在我们看一个例子,假设有一个生产扳手的工厂,有两台机器。这两台机器分别生产了很多扳手,而且每个扳手都能看出是哪个机器生产的。现在有了很多很多生产…
机器学习A-Z~支持向量机
本文将介绍机器学习中一个非常重要的算法,叫做SVM,中文翻译支持向量机。首先看一组例子来解释这个算法。 基本概念 有一组数据如图所示,有红色的点和蓝色的点,代表了两种分类的数据,现在我们要做的是如何将这两种数据准确的分隔开来。看图像其实很简单,可以横着画一条直线或者竖着画或者斜着画都能将其分隔开来。那么svm要做的就是找到最佳的一条直线。 那么这条…
机器学习A-Z~Logistic Regression
机器学习A-Z~Logistic Regression 之前的课程谈论的都是线性回归问题,现在开始看看分类问题。首先讲的是逻辑回归,英文叫做Logistic Regression。看一下下面的图像,因变量不再如同线性回归那样相对来说比较连续,这里的数据点是离散的。 比如我们现在是一家媒体公司,有一些广告投放,为了让客户购买产品。现在收集了客户的年龄…