机器学习

2023-10-08 01:30

机器学习 (ML) 是一个致力于理解和构建“学习”方法的研究领域,即使用数据来提高某些任务性能的方法。它被认为是人工智能的一部分。机器学习算法基于样本数据(称为训练数据)构建模型,以便在无需显式编程的情况下做出预测或决策。机器学习算法广泛应用于医学、电子邮件过滤、语音识别、农业和计算机视觉等领域,在这些领域开发传统算法来完成所需任务是困难或不可行的。机器学习的一个子集与计算统计密切相关,其重点是使用计算机进行预测,但并非所有机器学习都是统计学习。数学优化的研究为机器学习领域提供了方法、理论和应用领域。数据挖掘是一个相关的研究领域,专注于通过无监督学习进行探索性数据分析。机器学习的一些实现以模仿生物大脑工作方式的方式使用数据和神经网络。在解决业务问题时,机器学习也称为预测分析。

学习算法的工作基础是,过去行之有效的策略、算法和推理在未来可能会继续发挥作用。这些推论可能是显而易见的,例如,过去一万天太阳每天早上都会升起,所以明天早上它也可能会升起。它们可能是微妙的,例如 X% 的科具有地理上独立的物种具有颜色变化,因此有 Y% 的机会出现未被发现的黑天鹅。机器学习程序无需明确编程即可执行任务。它涉及计算机从所提供的数据中学习以执行某些任务。对于分配给计算机的简单任务,可以使用编程算法来告诉机器如何执行解决当前问题所需的所有步骤;就计算机而言,不需要学习。对于更高级的任务,手动创建所需的算法对人类来说可能是一个挑战。在实践中,帮助机器开发自己的算法可能会比让人类程序员指定每个必需的步骤更有效。机器学习学科采用各种方法来教导计算机执行没有完全令人满意的算法的任务。在存在大量潜在答案的情况下,一种方法是将一些正确答案标记为有效答案。然后,这可以作为计算机的训练数据,以改进其用于确定正确答案的算法。例如,为了训练数字字符识别任务的系统,经常使用 MNIST 手写数字数据集。历史以及与其他领域的关系 机器学习一词由 Arthur Samuel 于 1959 年创造,他是 IBM 员工,也是计算机游戏和人工智能领域的先驱。与此同时,“自学计算机”这一同义词也在这一时期被使用。到 20 世纪 60 年代初,雷神公司开发了一种名为 Cyber​​tron 的带有穿孔磁带存储器的实验学习机,可以使用基本的强化学习来分析声纳信号、心电图和语音模式。它经过人类操作员/老师的反复训练来识别模式,并配备了一个万无一失的按钮,可以让它重新评估错误的决策。 20世纪60年代,机器学习研究的代表书是尼尔森的《学习机器》,主要涉及模式分类的机器学习。

与模式识别相关的兴趣一直持续到 20 世纪 70 年代,正如 Duda 和 Hart 在 1973 年所描述的那样。1981 年,发表了一份关于使用教学策略使神经网络能够学习识别 40 个字符(26 个字母、 10 个数字和 4 个特殊符号)来自计算机终端。 Tom M. Mitchell 为机器学习领域研究的算法提供了一个被广泛引用的、更正式的定义。如果计算机程序在 T 类型任务上的性能(由 P 衡量)随着经验 E 的提高而提高,则可以说它从经验 E 中学习。这遵循阿兰·图灵在其论文《计算机械与智能》 中的建议,以替换问题“Can a机器思考”和“机器能做我们(作为思考实体)能做的事情吗?”现代机器学习有两个目标,一是根据已开发的模型对数据进行分类,二是进行预测。