机器学习之监督学习VS无监督学习

2024/5/30 来源：不详

对于任何机器学习问题，我们都是从一个由一组样本组成的数据集开始的。每个实例都可以表示为属性的元组。

例如，有一个著名的经典数据集叫做Iris（鸢尾花问题），它首次发表在论文《分类问题中多重测量的使用》中。（Ronald.A.Fisher()）鸢尾花数据集包含了个鸢尾花样本的测量结果。每个样本包含其花瓣和萼片的长度和宽度的测量值，以及一个表示鸢尾花类别的类属性，即setosa、versicolor和virginica；这里有一些鸢尾花数据及的样例。样例：

监督式学习在监督学习任务中，数据样本将包含一个目标属性y，也称为地面真值，其实就是一个基础参考值。任务是学习一个函数F，它接受非目标属性X并输出一个近似于目标属性的值，也就是F(X)≈y.目标属性y充当指导学习任务的老师，因为它提供了学习结果的基准。因此，这个任务被称为监督学习。在Iris数据集中，类属性(鸢尾花的类别)可以作为目标属性；带有目标属性的数据通常称为“标记”数据。根据上述定义，对于用标记数据预测鸢尾花类别的任务，可以看出这是一个监督学习任务。

无监督式学习与监督学习任务相反，我们在非监督学习任务中没有事实依据。人们期望从数据中学习底层的模式或规则，而不需要将预定义的地面真值作为基准。人们可能会想，如果没有地面真理的监督，我们还能学到什么呢？答案是肯定的。下面是一些无监督学习任务的例子：案例1：合并分组（Clustering）给定一个数据集，一个集群可以样品分成组，根据数据集内的样本之间的相似之处。比如，一个实例可以是一个客户档案，与属性，如客户购买的物品数量，客户的时间花在购物网站等。可以根据属性的相似性将客户配置文件分组。对于聚集的群体，可以针对每个群体设计特定的商业活动，这可能有助于吸引和留住客户。案例2：关联关系（Association）给定一个数据集，关联任务是发现样本属性之间隐藏的关联模式。例如，示例可以是客户的购物车，其中示例的每个属性都是商品。通过观察购物车，你会发现买啤酒的顾客也经常买尿布，也就是说，啤酒和购物车里的尿布有很强的联系。有了这种学习到的洞察力，超市可以重新安排那些强烈相关的商品到附近的角落，以促进销售。

半监督式学习在一个数据集很大但标记样本很少的情况下，我们可以发现监督学习和非监督学习的应用。我们可以把这个任务称为半监督学习。在许多场景中，收集大量标记数据非常耗时且昂贵，这通常需要手工操作。来自斯坦福大学的一个研究团队花了两年半的时间来管理著名的ImageNet，它包含了数以百万计的图像和数以千计的手动标记的类别。因此，通常情况下，一个人有大量的数据，但很少有准确的“标签”，如视频没有类别，甚至没有标题。通过将有监督和无监督学习结合到一个只有很少标签的数据集中，可以更好地扩展数据集，并获得比单独应用每个数据集更好的结果。例如，我们想要预测图像的标签，但是只有10%的图像被标记。通过应用监督学习，我们训练一个有标记数据的模型，然后我们应用该模型来预测无标记数据。很难说服自己，模型将足够通用，毕竟我们从只有少数的数据集。更好的策略可能是第一个集群的图像组(无监督学习),然后应用监督学习算法在每个单独的组。第一阶段的无监督学习可以帮助我们缩小学习范围，使第二阶段的有监督学习能够获得更好的准确性。

转载请注明：: http://www.3g-city.net/gjyzz/7162.html

上一篇文章：理解机器学习中的朴素贝叶斯方法,Naiv

下一篇文章：机器学习K近邻KNN

保护好长江的绿色种子长江巡礼

保护好长江的绿色种子长江巡礼