机器学习--术语

每个行业都有一些行话，外行人经常是刚接触就一头雾水，今天我们来捋一捋部分机器学习相关的术语。在人工智能界有一种说法，认为> 机器学习是人工智能领域中最能够体现智能的一个分支。我们或许每天都在不知不觉中使用了机器学习的算法每次，你打开谷歌、必应搜索到你需要的内容，正是因为他们有良好的学习算法。谷歌和微软实现了学习算法来排行网页每次，你用 > ****Facebook ****或苹果的图片分类程序他能认出你朋友的照片，这也是机器学习。每次您阅读您的电子邮件垃圾邮件筛选器，可以帮你过滤大量的垃圾邮件这也是一种学习算法。
在进行机器学习研究之前，我们要有数据，假设我们有一组西瓜的数据，例如（色泽=青涩，敲声=清脆）,（色泽=浅白，敲声=浑响）等等一组这样的数据，我们称之为数据集（data set），其中每一条记录是关于一个事件或对象的描述，称为一个示例（instance）或样本（sample）。反应事件或对象在某方面的表现和性质，例如“色泽”，“敲声”，称为特征（feature）,特征的取值，例如“青涩”，“浅白”，称为特征值，属性张成的空间称为样本空间（sample space）。如果我们把特征当做坐标轴，可以构建一个多维空间，每个西瓜🍉都可以找到自己的坐标，这个点也可以使用向量表示，称为特征向量（feature vector）。
在这篇文章中，提到机器学习可以类比为人类的归纳总结过程。经验=数据，归纳=训练。
现在我们要拿着上文的数据，来训练我们选西瓜的模型。这个从数据到模型的过程，称之为训练（training）或学习(learning)。这个过程通过某个学习算法来完成的。训练过程使用的数据，成为训练数据（training data），其中每个样本称为一个训练样本（training sample）。训练样本组成的集合成为训练集（training set）。学习算法通常有参数设置，使用不用的参数值和训练数据，将产生不同的结果。
当然，要建立一个帮助我们买瓜的模型，仅有前面的数据是远远不够的，要建立这样的关于预测的模型，我们需要获得训练样本的结果信息，例如（（色泽=青涩，敲声=浑响）,好瓜），其中“好瓜称为标记(lable)，拥有标记信息的示例，则称为样例（example）。
前面，我们预测的是离散值，例如“好瓜”，“坏瓜”，此类学习任务称为分类（classification）。如果，我们想要预测连续值，比如西瓜成熟度 0.99 0.89 0.56 ，此类任务称为回归（regression）。对于只涉及两个分类的二分类（binary classfication），通常称其中一个类为正类（positive class），另一个类为负类（negative class）,设计多个分类的任务，称为多分类（multi-class calssfication）。

学得模型之后，使用这个模型进行预测的过程称为测试（testing），被测试的样本称为测试样本（testing sample）。
其实，我们还可以对西瓜进行聚类（clustering），也就是将训练集中的西瓜分成若干组。每一组称为一个“簇”（cluster）。聚类产生的分类，我们事前是不知道的，在学习过程中我们的训练集没有标记信息。
根据训练数据是否拥有标记信息，学习任务可大致划分为两大类：监督学习（supervised learning）和无监督学习(unsupervised learning)，分类和回归是前者的代表，而聚类是后者的代表。

最后，需要注意的是，机器学习的目标是使学得的模型能很好地适用于“新样本”，而不是仅仅在训练集上工作得很好。学得的模型适用于新样本的能力，成为泛化（generalization）。泛化能力针对的其实是学习方法，它用于衡量该学习方法学习到的模型在整个样本空间上的表现。
回归问题往往会通过计算**误差（Error）来确定模型的精确性。误差由于训练集和验证集的不同，会被分为训练误差（Training Error）和验证误差（Validation Error）。但值得注意的是，模型并不是误差越小就一定越好，因为如果仅仅基于误差，我们可能会得到一个过拟合（Overfitting）的模型；但是如果不考虑误差，我们可能会得到一个欠拟合（Underfitting）**的模型，用图像来说的话大致可以这样理解：

如果模型十分简单，往往会欠拟合，对于训练数据和测试数据的误差都会很大；但如果模型太过于复杂，往往会过拟合，那么训练数据的误差可能相当小，但是测试数据的误差会增大。好的模型应当平衡于这两者之间。

机器学习下面有很多算法，以及对应的应用场景，在接下来的文章，会慢慢啃完的。

推荐一个网站，它上面有很多数据集供我们选择，如图：

画外音：搜索 UCI

以上只是冰山一角。

（完）

大数据与人工智能的时代
你还在等什么？

你在看吗？

本文参考： 1.《机器学习》-- 周志华.清华大学出版社

吴恩达机器学习课程

# 机器学习--术语

机器学习--术语