阅读本文大概需要花费三分钟。
引言
上篇文章我们大概了解了人工智能当下的应用情况和学习人工智能的必要性, 从这篇文章开始,我们开始真正的去学习机器学习知识,这篇文章先带大家了解一下机器学习的概念, 然后分别探讨下监督学习和无监督学习。
机器学习
之前有一次一个朋友问我一个问题,涉及到人工智能方面,我反问他懂不懂机器学习和深度学习 是什么,他说机器学习就是学习的时候没有技巧,深度学习就是学习的时候有技巧学的比较有深度,这个回答让我当时 实在觉得不知道该如何纠正才好,气氛一度十分尴尬。不知道有多少朋友还是这么认为,如果有,希望好好阅读下这篇文章,不然以后 当别人像你提起你估计就要出丑了。
其实你每天都在接触各种各样不同的机器学习算法或应用,当你打开淘宝的时候,你会发现淘宝的首页会根据 你以往在淘宝中留下的各种痕迹为你推荐一些你可能感兴趣的商品,这个过程是淘宝的后台推荐算法在起着作用,而这就是机器学习;你的 iPhone中自带的图像分类程序会在你搜索照片时对搜索的关键词进行匹配,这也是机器学习。
其实机器学习和人类的学习是很类似的,比如说在你很小很小的时候,你并没有“狗”和“猫”的概念,你的母亲告诉你,这个是狗、 那个是猫,之后在街上你遇到狗或猫的时候你会将你的判断告诉你的母亲,你的母亲会告诉你你的判断是否正确,久而久之,在你的脑中就对猫和狗这两类动物有了一个比较明确的印象。
类比到机器学习中,计算机里现在有一个数据集里面有成千上万个猫和狗的图片,这些图片都已经标明了种类,算法会分析这些图片的特征,经过长时间的训练之后,你的计算机就拥有了辨别猫狗的能力了。
那么机器学习到底是什么呢?
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,在计算机系统里面,“经验”通常就是“数据”,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。
机器学习根据训练系统是否拥有标记信息,可以将机器学习分为“监督学习”和“无监督学习”。
监督学习
监督学习指的是我们给学习算法一个数据集。这个数据集由“正确答案”组成。我们来对监督学习举几个例子来说明
例一:小明现在打算把在老家的房子买了,打算在北京三环内买一套房子(有钱任性),因为对老家楼市并不了解,所以他请他的AI好朋友帮他预测一下他的房子能卖多钱,小明给他的AI朋友提供了一组几个朋友之前卖房的数据(价格/面积),他的AI好友立马建立了一个直角坐标系,如下图,将小明的数据标出后用二次方程在数据集上拟合了一条线,对应小明的房子的面积很快预测出了小明房子的一个参考价格。(当然,仅仅凭借面积是不能预测房价的,还有很多因素要考虑,这里只是为了说明问题)
在这个问题中,虽然我们的数据是离散的,但是我们可以大致的将数据看作是连续值,再拟合一个函数进行预测,这种问题就是机器学习中典型的“回归问题”。
例二:小明将老家的房子卖出之后,突然身体不舒服,小明去医院做了检查,医生告诉小明他长了一个肿瘤,这可把小明吓得不轻,小明赶紧给他的AI朋友打了一个电话,想知道自己的肿瘤是良性还是恶性,并提供了一组医院提供的肿瘤患者数据(肿瘤性质/肿瘤大小),他的AI朋友拿到数据后还是在直角坐标系中将这些数据标记了出来(y轴为0为良性),如下图。
但是觉得这样不够直观,之后又根据之前绘制的坐标系用另一种方法绘制了这些数据点,如下图(圆圈为良性)。
对应小明的肿瘤大小很快得出了小明的肿瘤是良性的,小明得知这个消息之后非常高兴,但是又想这种事情可千万不可以这么草率,又给他的AI朋友提供了一份数据(肿瘤性质/肿瘤大小、患者年龄),他的AI朋友很快又拟合出了一份数据,并告诉小明他的肿瘤是良性的,如下图(圆圈为良性)。
在这个问题中,我们要预测的结果是一个离散值,这类问题是机器学习中典型的“分类问题”。
无论是分类问题还是回归问题的例子中,我们选取的特征都是有限的,那有很多情况下,我们拥有很多甚至无限多个特征,那么如何存储和处理都是一个问题。此时支持向量机算法就可以排上用场了,它能让计算机处理无限多个特征,这个算法再之后的推文中再详细跟大家介绍。
无监督学习
不同于监督学习,无监督学习中我们已知的数据看上去有点不一样,无监督学习的数据中没有任何的标签。所以我们已知数据集,却不知如何处理,也未告知每个数据点是什么。别的都不知道,就是一个数据集。你能从数据中找到某种结构吗?在无监督学习中比较具有代表性的是聚类算法,针对数据集,聚类算法就能判断出数据有两个不同的聚集簇。这是一个,那是另一个,二者不同。聚类算法可能会把这些数据分成两个不同的簇。事实证明,它能被用在很多地方。我们依然来举例来说明:
许多公司有大型的数据库,存储消费者信息。这些消费者的信息其实有着非常巨大的价值,你如果能检索这些顾客数据集,根据消费者不同的特征,随机的自动发现市场分类,并自动地把顾客划分到不同的细分市场中,这时公司的业务才能更好的定位到一个个细分市场中,甚至很有可能为公司的业务发现全新的一个市场。这就是无监督学习,因为我们拥有所有的顾客数据,但我们没有提前知道有什么细分市场,我们也不知道这些顾客到底能被分成哪几类。我们不知道谁是在一号细分市场,谁在二号市场,等等。那我们就必须让算法从数据中发现这一切。因为我们没有给算法正确答案来回应数据集中的数据,所以这就是无监督学习。
再举个例子,在猫的识别中,我们来尝试提取猫的特征:皮毛、四肢、耳朵、眼睛、胡须、牙齿、舌头等等。通过对特征相同的动物的聚类,可以将猫或者猫科动物聚成一类。但是此时,我们不知道这群毛茸茸的东西是什么,我们只知道,这团东西属于一类,兔子不在这个类(耳朵不符合),飞机也不在这个类(有翅膀)。特征有效性直接决定着算法有效性。如果我们拿体重来聚类,而忽略体态特征,恐怕就很难区分出兔子和猫了。
有些人可能会说,那无监督学习中,我并不知道聚类的结果到底是什么,那这个聚类的意义在哪里呢?这个问题其实不难理解,举例来说,之前Penn Chinese Treebank尝试做中文的自然语言处理,其实就是让计算机理解人说话的内容,该团队在两年内只完成了4000句话的标签,那如果我们使用无监督学习,这个过程会方便得多,当拥有相同特征的话被聚类后,我们只需要给每一类加上标签就可以了。其实这样的例子有很多,现在无监督学习已经被广泛的应用到各个机器学习领域之中了。
总结与预告
在本文中,首先我们对机器学习进行了初步的了解,并且结合日常应用了解了监督学习和无监督学习的区别,这些知识对于了解机器学习来说都是很基础的知识,在下一篇文章中,我将带大家接触我们的第一个学习的算法——线性回归算法。
笔者水平有限,若有错漏,欢迎指正,如果转载以及CV操作,请务必注明出处,谢谢!
版权声明:本文为博主原创文章,未经博主允许不得转载。