优化方法

机器学习优化方法

Posted by Wenjing Liu on 2019-07-30

机器学习算法 = 模型表征 + 模型评估 + 优化算法

无论何种类型的机器学习，最后都归结为求解最优化问题

求一个目标函数的极值=> 最优化问题

数学模型

监督学习

找到一个最佳的映射函数f(x)，使得对训练样本的损失函数最小化（最小化经验风险或结构风险)
$$
min_{W}\frac{1}{N}\sum_{i=1}^{N}L(W,x_{i},y_{i}) + \lambda||W||{2}^2
$$
N为训练样本数，L是对单个样本的损失函数，w是要求解的模型参数，是映射函数的参数 $x{i}$为样本的特征向量, $y_{i}$ 为样本的标签值
一个最优的概率密度函数p(x)，使得对训练样本的对数似然函数极大化（最大似然估计）
$$
max\sum_{i=1}^l\lnp(x_{i};\theta)
$$
$\theta$ 是要求解的模型参数，是概率密度函数的参数。

非监督学习

以聚类算法为例，算法要是的每个类的样本离类中心的距离之和最小化
$$
min_{S}\sum_{i=1}^k\sum_{x \in S_{i}}||x-\mu_{i}||^2
$$
k为类型数，x为样本向量， $\mu_{i}$ 为类中心向量， $S_{i}$ 为第 $i$ 个类的样本集合
强化学习，要找到一个最优的策略，即状态s到动作a的映射函数（确定性策略，对于非确定性策略，是执行每个动作的概率）
$$
a=\pi(s)
$$
任意给定一个状态，执行这个策略函数所确定的动作a之后，得到的累计回报最大化:
$$
max_{\pi}V_{\pi}(s)
$$
使用的是状态价值函数

优化算法分类

批量梯度下降算法
随机梯度下降算法
小批量梯度下降算法
BFGS
L-BFGS
共轭梯度

参考资料