机器学习之监督学习VS无监督学习

2024/5/30 来源:不详

对于任何机器学习问题,我们都是从一个由一组样本组成的数据集开始的。每个实例都可以表示为属性的元组。

例如,有一个著名的经典数据集叫做Iris(鸢尾花问题),它首次发表在论文《分类问题中多重测量的使用》中。(Ronald.A.Fisher())鸢尾花数据集包含了个鸢尾花样本的测量结果。每个样本包含其花瓣和萼片的长度和宽度的测量值,以及一个表示鸢尾花类别的类属性,即setosa、versicolor和virginica;这里有一些鸢尾花数据及的样例。样例:

监督式学习在监督学习任务中,数据样本将包含一个目标属性y,也称为地面真值,其实就是一个基础参考值。任务是学习一个函数F,它接受非目标属性X并输出一个近似于目标属性的值,也就是F(X)≈y.目标属性y充当指导学习任务的老师,因为它提供了学习结果的基准。因此,这个任务被称为监督学习。在Iris数据集中,类属性(鸢尾花的类别)可以作为目标属性;带有目标属性的数据通常称为“标记”数据。根据上述定义,对于用标记数据预测鸢尾花类别的任务,可以看出这是一个监督学习任务。

无监督式学习与监督学习任务相反,我们在非监督学习任务中没有事实依据。人们期望从数据中学习底层的模式或规则,而不需要将预定义的地面真值作为基准。人们可能会想,如果没有地面真理的监督,我们还能学到什么呢?答案是肯定的。下面是一些无监督学习任务的例子:案例1:合并分组(Clustering)给定一个数据集,一个集群可以样品分成组,根据数据集内的样本之间的相似之处。比如,一个实例可以是一个客户档案,与属性,如客户购买的物品数量,客户的时间花在购物网站等。可以根据属性的相似性将客户配置文件分组。对于聚集的群体,可以针对每个群体设计特定的商业活动,这可能有助于吸引和留住客户。案例2:关联关系(Association)给定一个数据集,关联任务是发现样本属性之间隐藏的关联模式。例如,示例可以是客户的购物车,其中示例的每个属性都是商品。通过观察购物车,你会发现买啤酒的顾客也经常买尿布,也就是说,啤酒和购物车里的尿布有很强的联系。有了这种学习到的洞察力,超市可以重新安排那些强烈相关的商品到附近的角落,以促进销售。

半监督式学习在一个数据集很大但标记样本很少的情况下,我们可以发现监督学习和非监督学习的应用。我们可以把这个任务称为半监督学习。在许多场景中,收集大量标记数据非常耗时且昂贵,这通常需要手工操作。来自斯坦福大学的一个研究团队花了两年半的时间来管理著名的ImageNet,它包含了数以百万计的图像和数以千计的手动标记的类别。因此,通常情况下,一个人有大量的数据,但很少有准确的“标签”,如视频没有类别,甚至没有标题。通过将有监督和无监督学习结合到一个只有很少标签的数据集中,可以更好地扩展数据集,并获得比单独应用每个数据集更好的结果。例如,我们想要预测图像的标签,但是只有10%的图像被标记。通过应用监督学习,我们训练一个有标记数据的模型,然后我们应用该模型来预测无标记数据。很难说服自己,模型将足够通用,毕竟我们从只有少数的数据集。更好的策略可能是第一个集群的图像组(无监督学习),然后应用监督学习算法在每个单独的组。第一阶段的无监督学习可以帮助我们缩小学习范围,使第二阶段的有监督学习能够获得更好的准确性。

转载请注明:
http://www.3g-city.net/gjyzz/7162.html
  • 上一篇文章:

  • 下一篇文章:
  • 网站首页 版权信息 发布优势 合作伙伴 隐私保护 服务条款 网站地图 网站简介

    温馨提示:本站信息不能作为诊断和医疗依据
    版权所有2014-2024 冀ICP备19027023号-6
    今天是: