什么是机器学习?为什么它如此重要?

1844 字丨阅读本文需 5 分钟

机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。

机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。

机器学习是一种数据分析方法,它可以自动分析模型的建筑。通过使用迭代学习数据的算法,机器学习可以使电脑在没有被明确编程看哪里的情况下,发现隐藏的领域。

迭代在机器学习中是非常重要的,由于它的存在,模型在遇到新的数据时,就可以独立地适应数据。它们可以从先前产生的可靠计算,重复的决定和结果中进行学习。机器学习并不是一个全新的学科-而是获得新动力的学科。

由于新型计算技术的产生,如今的机器学习与以往大不相同。尽管很多机器学习算法已经存在了很长时间,但自动将复杂的数学计算应用到大数据的能力(一个又一个,越来越快)是最新的进展。下面这些广泛宣传的机器学习应用程序的例子,你可能非常熟悉:

人们在机器学习方面兴趣的复兴,也是由于同样的因素,即数据挖掘和贝叶斯分析比以往更受欢迎。在类似数量增长和可用数据这方面,计算处理更实惠,更强大,且负担得起数据存储。

以上所有的因素都暗示着:机器学习可以更快且自动的产生模型,以分析更大,更复杂的数据,而且传输更加迅速,结果更加精准——甚至是在非常大的规模中。结果是?在现实中无人类干涉时,高价值( High-value)的预测可以产生更好的决定,和更明智的行为。

自动模型的建立是在现实中生成明智行动的一大关键。分析思想领袖Thomas H. Davenport在华尔街日报上写道,日新月异,不断增长的数据,"…你需要快速移动的建模流( fast-moving modeling streams)来保持。"而你可以通过机器学习做到这些。他还说道"人类通常一周可以创建一个或两个好的模型;而机器学习一周就可以创造出成千上万的模型."

你曾经是否好奇过,一个在线零售商是如何瞬时的为您提供可能感兴趣产品的报价吗?或贷款人如何对你的贷款请求提供近实时的答复?我们的许多日常活动都是由机器学习算法驱动的,包括:

被最广泛采纳的两大机器学习方法是监督学习( supervised learning )和无监督学习(unsupervised learning)。大多数的机器学习(大概70%)是监督学习。无监督学习大概占10%-20%。有时也会使用半监督和强化学习这两个技术。

机器学习与其它统计和学习方法的不同之处,如数据挖掘,是辩论的另一个热门话题。简单来说,虽然机器学习使用了许多与数据挖掘相同的算法和技术,但其中有一个区别在于这两个学科的预测:

目前电脑的能力逐渐增强也刺激着数据挖掘进化用于机器学习。例如神经网络很长一段时间内被用于数据挖掘应用。随着计算能力的增加,你可以创建许多层神经网络。在机器学习语言中,这些被称为“深度神经网络”。正是计算能力的提升确保了自动学习快速的处理很多神经网络层。

进一步说,人工神经网络(ANN)是简单的基于我们对大脑理解的一组算法。ANNs可以-在理论上-模拟数据集中任何种类的关系,但在实践中要从神经网络得到可靠的结果,是非常棘手的。人工智能的研究可以追溯到20世纪50年代——被神经网络的成功和失败打上了标签。

如今,一个被称为“深度学习”的新神经网络研究领域,在许多过去人工智能方法失败的领域,取得了巨大的成功。

深度学习结合了计算能力和特殊类型的神经网络,在大量的数据中学习复杂的模式。深度学习技术目前在识别图像中的目标和声音中的单词方面效果最好。研究人员现在正在寻找方法,将这些成功的模式识别到更复杂的任务,如自动语言翻译,医疗诊断和许多其他重要的社会以及商业问题。

算法

SAS的图形用户界面,可以帮助你建立机器学习模型,并实现一个迭代机器学习的过程。不要求你是一个高级的统计师。我们可以综合选择机器学习算法帮助你快速的从大数据中获取价值,包括许多SAS产品。SAS的机器学习算法,包括:

 

工具和过程

正如我们现在所知道的,它不仅仅是算法。最终,从你的大数据中获得最大价值的秘密在于,将最好的算法与手头的任务配对:

SAS不断寻找和评估新方法。他们在实施统计方法,以最恰解决你面临的问题方面有着悠久的历史。他们将统计和数据挖掘方面丰富的,复杂的遗产与最新的,最先进的结构结合,以确保您的模型尽可能快的运行(甚至是在巨大的企业环境中)。

我们明白,快速的时间值不仅意味着快速,自动化模型的性能,还包括在平台之间数据移动所需要的时间——尤其针于大数据。高性能,分布式的分析技术,受益于结合Hadoop,和所有主要数据基础的大规模并行处理。您可以快速地循环建模过程的所有步骤——在没有移动数据的情况下。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:SAS
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...