《机器学习40讲》-05模型的分类方式
发布网友
发布时间:2024-10-24 09:50
我来回答
共1个回答
热心网友
时间:2024-10-31 09:57
机器学习研究的是输入与输出之间的映射关系,通过学习得到的映射表现为模型。从今日起,我们将探讨模型的分类方式。
一般而言,机器学习任务旨在求解输入输出概率分布或数量关系。若待求解的分布或关系可由固定参数完全描述,则模型为参数模型;反之,即为非参数模型。
参数模型优势在于用少量参数精确描述数据特性,每个参数具有统计意义。如二项分布B(n,p)和正态分布N(μ,σ),分别由两个参数描述。在参数模型学习中,目标是确定决定特性的参数,从而确定数据分布。
参数模型仅需有限参数描述无限数据,得益于对特定概率分布的先验假设。实际任务中,先验知识指导学习过程,数据仅用于估计参数,参数即为数据的浓缩。
非参数模型则不依赖先验假设,完全基于数据学习,适用于未知或复杂分布情况。这类模型参数数目不固定,可能无限大,学习算法在给定范围内求解最优问题。
参数模型简洁实用,但性能严重依赖先验假设的准确性。正确假设时,模型表现优秀;否则,无论数据量多大,性能均不佳。
非参数模型则强调数据本身,无需假设,统计特性来源于数据。它们的计算复杂度通常高于参数模型,但可*近任意复杂模型,具有强大实用性。
参数模型和非参数模型的区别体现在全局与局部适用性,以及可解释性和精确性。数据模型和算法模型则从模型构造角度进行分类,侧重拟合和预测能力。
布雷曼将学习问题视为黑盒,数据模型关注参数估计,算法模型关注映射学习。数据模型和参数模型类似,但更强调解释性;算法模型和非参数模型强调预测性,但可解释性较低。
线性回归作为数据模型典型代表,明确地通过权重系数表示输入与输出关系。而随机森林作为算法模型,综合多棵决策树,预测精度高但解释性较差。
生成模型学习输入输出联合分布,而判别模型学习条件分布,生成模型在数据量少时表现更优,但复杂;判别模型在分类任务上表现较好,但无法提供生成机制信息。
在具体问题中,生成模型和判别模型可成对出现。例如,朴素贝叶斯和逻辑回归分别代表生成和判别分类器。
总结而言,机器学习模型分类涵盖了全局与局部适用性、可解释性与精确性、数据模型与算法模型、以及生成模型与判别模型的区别。
当前,参数模型主导机器学习领域,非参数模型在应用范围和性能上稍逊一筹。然而,随着大数据的兴起,非参数模型的潜力值得深入探索。