综合比较无监督学习与监督学习
2024/5/30 来源:不详介绍
在人工智能和机器学习中,有两种主要方法脱颖而出:无监督学习与监督学习。这两种方法都有不同的特点和应用,因此对于从业者来说了解它们的差异并选择最合适的方法来解决问题至关重要。
无监督学习涉及在事先不了解所需输出的情况下发现数据中的模式和结构,而监督学习则依赖标记数据来训练模型以进行预测或分类。
本关于无监督学习与监督学习的指南将详细阐述这两种技术的细微差别,使机器学习从业者能够有效地利用自己的优势并解决各种现实世界问题带来的挑战。
什么是监督学习?
监督学习是机器学习的一种,算法从包含输入输出对(也称为标记数据)的数据集中学习。
监督学习旨在创建一个模型,可以根据新的、未见过的输入数据进行准确的预测或分类。学习过程包括使用输入数据集来训练算法模型并调整其权重,直到它们完全适合训练模型。
最终,它缩小了参数之间的差距,以最小化数据集中预测输出和实际输出之间的差异。
监督机器学习的一个典型例子是图像识别。想象一下有两只动物,一只狗和一只猫。为了帮助机器理解差异,它必须首先了解每种动物的长相。
因此,机器通过提供几张狗和猫的图片进行训练,并开始学习每张图像的模式和特征。每个图像都被标记为“狗”或“猫”,因此机器可以理解并更新每个类别的参数。
在更多图像的帮助下,机器可以通过更紧密地提取特征并更准确地识别动物来更好地学习。
这就是为什么选择特征是监督学习的一个重要方面。同样,特征选择和特征工程在监督学习模型的成功中发挥着至关重要的作用,因为它们显着影响模型的学习和准确预测的能力。
随着时间的推移,监督学习会不断从更新的数据集中学习,从而提高机器学习模型的准确性和效率。这就是监督学习在机器人成像和自动化的装配线上成为可行选择的原因之一。同样,它在欺诈检测、自动驾驶汽车和自动化系统中也有应用。
数据集在监督学习中的作用
在监督学习中,每个数据集分为两部分:
训练数据集-用于训练模型。
测试数据集-用于测试模型。
除了性能指标之外,监督学习模型的准确性在很大程度上取决于训练集的大小和质量。
例如,训练数据集的大小决定了它在各种应用程序中预测输出的准确程度。在这里,了解算法的应用至关重要,并且训练集的大小可能会相应变化。
数据集的大小
例如,鸢尾花数据集包含三种鸢尾花品种的个样本。它主要用于测试分类算法、特征选择、降维和数据可视化。
另一方面,谷歌翻译数据集包含数万亿个示例,因为它需要如此庞大的数据来准确预测10多种全球语言的翻译。
数据集质量
数据集质量是另一个重要特征。无论数据集大小如何,数据的质量决定了监督学习模型的精度。如果数据质量不好,无论训练有多少数据,都永远无法产生准确的结果。数据集的质量包含三个基本方面:
可靠性
偏差最小化
特征表示
训练集用于训练模型,测试集用于评估模型的性能。
监督学习模型的性能分析
在分析监督学习模型的性能时,关键指标包括。监督学习模型的性能通常使用以下指标来衡量
准确性
精确
记起
F1成绩
对数损失
这些指标有助于确定模型对新数据的推广程度,并可用于微调模型的参数以获得最佳性能。
此外,由于监督学习是基于预测真假结果,因此引入了混淆矩阵的概念。理解混淆矩阵对于分析监督学习模型的性能指标至关重要。
什么是混淆矩阵?
混淆矩阵是一个NxN矩阵,表示机器学习模型的特定输出的标签。因此,存在实际标签和预测标签。
因此,想象一个2x2混淆矩阵,y轴上有实际标签,x轴上有预测标签。每个标签可能有true或false输出。
模型每次进行预测时,都会显示TP、TN、FP和FN的结果之一。为了更好地理解这些输出,我们假设一个术语:“如果检测到的图像是男孩或女孩”。
阳性-检测到的图像是一个男孩
阴性-检测到的图像是女孩
TruePositive(TP)-预测图像是男孩,实际图像也是男孩。这意味着模型正确预测了结果。它代表预测标签和实际标签都是正的。
TrueNegative(TN)-预测图像是女孩,实际图像是女孩。模型再次正确预测了结果。它表明预测标签和实际标签都是负的。
误报(FP)-预测图像是男孩,但实际图像是女孩。在这种情况下,模型错误地预测了结果。
假阴性(FN)-预测图像是女孩,但实际图像是男孩。模型再次预测了错误的结果。
监督学习的类型
分类
分类是一项监督学习任务,它将输入数据分配给几个预定义的类别或类别之一。因此,当分类模型学习新的观察结果时,它会将输入分类到训练数据集中提供的任何预先存在的类别中。
这就是分类问题产生确定输出的原因。这意味着它可以采用有限数量的离散值。
分类的例子包括:
垃圾邮件检测-将电子邮件分类为垃圾邮件或非垃圾邮件。
图像识别——对图像进行分类,例如动物、车辆或人。
分类任务使用各种算法,包括逻辑回归、支持向量机、决策树和神经网络。这些算法的学习和预测类标签的方法有所不同,但它们都旨在找到在特征空间中分隔不同类的最佳决策边界。
分类模型的性能评估
通常,分类模型使用精度、准确度、召回率和F1分数等性能指标进行评估,因为这些指标评估模型预测和分类新数据点的能力。
此外,考虑数据集中类的平衡也至关重要,因为不平衡的数据集可能会导致偏向多数类的模型。可以采用过采样、欠采样和合成数据生成等技术来解决类别不平衡问题并提高模型性能。
回归
回归是一种监督学习任务,它根据输入数据预测连续数值。
回归模型适用于连续值,即输出(也称为目标变量)是连续数值。这是回归模型和分类模型之间的关键区别。
回归旨在创建一个模型,可以准确预测新的、未见过的输入数据的目标变量。
各种回归模型包括:
线性回归——是一种在因变量与一个或多个自变量之间建立线性关系的统计模型,旨在根据自变量的值来预测或解释因变量。
多项式回归-它是线性回归的扩展,通过将多项式方程拟合到观察到的数据来模拟因变量和自变量之间的关系,适应非线性模式并允许更灵活的预测。
岭回归和套索回归-这些是正则化技术,通过引入额外的惩罚项来防止过度拟合。岭回归使用L2正则化,Lasso回归使用L1在训练期间约束模型的系数。
回归模型在各个领域都有广泛的应用,例如预测房价、预测销售、估计能源消耗以及对科学研究中变量之间的关系进行建模。
常见的监督学习算法
线性回归
线性回归是一种基本的监督学习算法,用于根据一个或多个输入特征预测连续目标变量。该算法假设输入特征和目标变量之间存在线性关系,在单个输入特征的情况下可以用直线表示,在多个输入特征的情况下可以用超平面表示。
线性回归的目标
线性回归旨在找到最小化数据集中预测值与实际值之间的平方差之和的系数的最佳值。该优化问题通常使用梯度下降或标准方程来解决。
虽然线性回归简单且高效,但它也有局限性,例如对异常值的敏感性以及输入特征与目标变量之间线性关系的假设。这就是线性回归模型在复杂的机器学习应用程序中无法有效工作的原因。
因此,它不能有效地处理输入和输出变量之间的复杂关系。线性回归模型有时过于简单,因此无法拟合值。
此外,它们甚至可能过度拟合复杂的模型,因为它们有时过于高效,捕获数据中不需要的噪声。通常,此类问题会出现在具有多种参数的算法中。
逻辑回归
逻辑回归是一种用于二元分类任务的监督学习算法。该算法根据输入特征预测两种可能结果之一。与预测连续值的线性回归不同,逻辑回归预测输入属于特定类别的概率。
它是线性回归的扩展,使用逻辑函数(也称为sigmoid函数)将线性回归输出转换为0到1之间的概率值。
逻辑回归的目标
逻辑回归找到使观测数据的可能性最大化的系数的最佳值。该优化问题通常使用梯度下降或牛顿拉夫森方法来解决。
与线性回归一样,逻辑回归对异常值敏感,并假设目标变量和输入特征之间存在线性关系。此外,在处理多重共线点和数据时,它会夸大标准误差和方差。
然而,逻辑回归模型很有用,因为它们简单、可解释,并且能够处理输入特征和目标变量之间的线性和非线性关系。
支持向量机
支持向量机(SVM)是一种用于分类和回归任务的鲁棒监督学习算法。SVM的主要目标是找到最佳决策边界,称为最大间隔超平面,它分隔不同的类别或以尽可能高的间隔预测目标变量。
最接近决策边界的数据点(称为支持向量)确定最大边缘超平面。支持向量定义边距并影响决策边界的位置。
边际是决策边界和支持向量之间的距离,SVM的目标是最大化这个边际以提高模型的泛化能力。
SVM可以处理输入特征与目标变量之间的线性和非线性关系。
对于非线性问题,SVM使用核技巧,将输入数据映射到可以找到线性决策边界的高维空间。
SVM常用的函数有线性核、多项式核、径向基函数(RBF)核和sigmoid核。
SVM可以处理高维数据而不会过度拟合,并且可以灵活地建模线性和非线性关系。
支持向量机的局限性
SVM的计算成本可能很高,尤其是对于大型数据集,并且其性能对核函数和超参数(例如正则化参数C和特定于核的参数)的选择非常敏感。
通常,SVM用于图像分类、文本分类和生物信息学,因为它可以处理高维数据和复杂关系。
决策树
决策树也用于分类和回归应用。决策树根据输入特征的值不断地将输入数据分割成子集。
最终,它创建一个树状结构,其中内部节点表示决策规则,叶节点表示预测的类别或值。
决策树中的决策规则是通过选择输入特征和导致最高信息增益或最低杂质的分割点来确定的,具体取决于所选标准。
分割的常见标准包括基尼不纯度、熵和均方误差(对于回归任务)。分裂过程持续进行,直到满足停止标准,例如最大树深度、每片叶子的最小样本数或最小信息增益。
决策树具有高度可解释性,因为人类可以轻松地可视化和理解决策规则。该算法可以处理数值和分类输入特征以及缺失数据,使其适合广泛的应用。
决策树的局限性
决策树很容易出现过度拟合,尤其是当树很深或数据集很小时。为了避免过度拟合,有多种技术,例如
修剪
限制树深度
随机森林和梯度提升等集成方法
决策树已成功应用于各个领域,包括医疗诊断、客户细分、欺诈检测和自然语言处理。它们对复杂关系进行建模并提供可解释的决策规则的能力使它们在许多机器学习任务中很受欢迎。
什么是无监督学习?
无监督学习涉及在不事先了解已知或所需输出的情况下从数据集进行学习。与监督学习不同,这里没有标记数据。
无监督学习用于发现数据中的模式、结构或关系,这些模式、结构或关系可以提供有价值的见解或促进进一步分析。
与依赖输入输出对来训练模型的监督学习不同,无监督学习仅