机器学习优化方法

Posted by Wenjing Liu on 2019-07-30

机器学习算法 = 模型表征 + 模型评估 + 优化算法

无论何种类型的机器学习,最后都归结为求解最优化问题

求一个目标函数的极值=> 最优化问题

数学模型

监督学习

  • 找到一个最佳的映射函数f(x),使得对训练样本的损失函数最小化(最小化经验风险或结构风险)
    $$
    min_{W}\frac{1}{N}\sum_{i=1}^{N}L(W,x_{i},y_{i}) + \lambda||W||{2}^2
    $$
    N为训练样本数,L是对单个样本的损失函数,w是要求解的模型参数,是映射函数的参数 $x
    {i}$为样本的特征向量, $y_{i}$ 为样本的标签值
  • 一个最优的概率密度函数p(x),使得对训练样本的对数似然函数极大化(最大似然估计)
    $$
    max\sum_{i=1}^l\lnp(x_{i};\theta)
    $$
    $\theta$ 是要求解的模型参数,是概率密度函数的参数。

非监督学习

  • 以聚类算法为例,算法要是的每个类的样本离类中心的距离之和最小化
    $$
    min_{S}\sum_{i=1}^k\sum_{x \in S_{i}}||x-\mu_{i}||^2
    $$
    k为类型数,x为样本向量, $\mu_{i}$ 为类中心向量, $S_{i}$ 为第 $i$ 个类的样本集合
  • 强化学习, 要找到一个最优的策略,即状态s到动作a的映射函数(确定性策略,对于非确定性策略,是执行每个动作的概率)
    $$
    a=\pi(s)
    $$
    任意给定一个状态,执行这个策略函数所确定的动作a之后,得到的累计回报最大化:
    $$
    max_{\pi}V_{\pi}(s)
    $$
    使用的是状态价值函数

优化算法分类

  • 批量梯度下降算法
  • 随机梯度下降算法
  • 小批量梯度下降算法
  • BFGS
  • L-BFGS
  • 共轭梯度

参考资料