机器学习概述

1. 定义

假设用 $P$ 来评估计算机程序在某任务类 $T$ 上的性能，若一个程序通过利用经验 $E$ 在 $T$ 中的任务上获得了性能改善，我们就说关于 $T$ 和 $P$ ，该程序对 $E$ 进行了学习。

2. 分类

机械学习
示教学习
类比学习
归纳学习（主流技术，涵盖监督学习、无监督学习等，相当于「从样例中学习」）

3. 归纳学习

3.1 符号主义

决策树：经典的决策树学习以信息论为基础，以信息熵的最小化为目标，直接模拟了人类对概念进行判定的树形流程。
基于逻辑的学习：ILP（Inductive Logic Programming）使用一阶逻辑（谓词逻辑）来进行知识表示，通过修改和扩充逻辑表达式来完成对数据的归纳。

3.2 统计学习

支持向量机（SVM）
核方法

3.3 连接主义

深度学习

4. 基本术语

一般地，令 $D = \{\boldsymbol{x_1,x_2,\cdots,x_m}\}$ 表示包含 $m$ 个示例的数据集，每个示例由 $d$ 个属性描述，则每个示例 $\boldsymbol{x_i} = (x_{i1},x_{i2},\cdots,x_{id})$ 是 $d$ 维样本空间 $\chi$ 中的一个向量， $\boldsymbol{x_i} \in \mathcal{X}$ ，其中 $x_{ij}$ 是 $\boldsymbol{x_i}$ 在第 $j$ 个属性上的取值， $d$ 称为样本 $\boldsymbol{x_i}$ 的维数。

属性张成的空间称为「属性空间」或「样本空间」或「输入空间」。
从数据中学习得到模型的过程称为「学习」或「训练」；训练过程中使用的数据称为「训练数据」，其中每个样本称为一个「训练样本」，训练样本组成的集合称为「训练集」。
拥有了「标记信息」的示例则称为「样例」；一般用 $\boldsymbol{(x_i,y_i)}$ 表示第 $i$ 个样例，其中 $\boldsymbol{y_i} \in \mathcal{Y}$ 是示例 $\boldsymbol{x_i}$ 的标记， $\mathcal{Y}$ 是所有标记的集合，称为「标记空间」或「输出空间」。

根据预测结果的离散/连续，可将学习任务分为「分类」和「回归」。

根据训练数据是否拥有标记信息，可将学习任务分为「监督学习」和「无监督学习」。

仿射函数：从 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的映射 $x \rightarrow Ax + b$ ，称为仿射变换/映射，其中 $A$ 是一个 $m \times n$ 矩阵， $b$ 是一个 $m$ 维向量。当 $m = 1$ 时，称上述仿射变换为仿射函数。当仿射函数的常数项 $b$ 为 0 时，称仿射函数为线性函数。