您好,欢迎访问代理记账网站
移动应用 微信公众号 联系我们

咨询热线 -

电话 15988168939

联系客服
  • 价格透明
  • 信息保密
  • 进度掌控
  • 售后无忧

机器学习个人向小结

机器学习小结

  • 前言
      • 决策树
        • ID3 - 最大信息增益
        • C4.5 - 最大信息增益比
          • 信息增益比
          • 处理连续数据
          • 缺失值处理
          • 决策树剪枝
            • 预剪枝
            • 后剪枝
            • Minimal Cost-Complexity Pruning 代价复杂剪枝(后剪枝算法)
        • CART - 最大基尼指数
        • 总结
        • 附:熵
          • 熵的性质
    • 非参数概率密度统计模型
      • Histogram
      • Parzen Kernel
      • Nadaraya-Watson
      • 高斯过程
        • 算法目的
        • 算法理论要点
        • 实验
        • 附:高斯函数的基本性质
      • 回归模型
    • 特征工程
      • 特征归一化
    • 集成学习
      • 偏差与方差,欠拟合和过拟合
      • AUC
      • 集成学习类型
      • AdaBoosting
      • GBDT
      • SVM
        • 线性可分SVM
        • 软间隔SVM:
    • 深度学习
      • 梯度爆炸和梯度消失
        • 梯度裁剪
      • RNN
        • 采样
    • 概率论和数学相关
      • 独立性
      • 强大数定律
      • 最优化
        • 凸函数(Convexe)
      • 中心极限定律
    • 聚类
      • K-Means
      • EM

前言

本文旨在整理一些博主学习中零散的知识点。

决策树

决策树的目标是从一组样本数据中,根据不同的特征和属性,建立一棵树形的分类结构。从顶部根结点开始,所有样本聚在一起。经过根结点的划分,样本被分到不同的子结点中。再根据子结点的特征进一步划分,直至所有样本都被归到某一个类别(即叶结点)中。

直观上,分割的依据,是指分割后子结点的数据是否”纯“,即得益于某一个特征的分割,子数据集更加的同质。熵的值越小,则数据集的纯度越高。

例如百面机器学习中提到的例子,我们希望某一个子节点只包含”见“或者”不见“的信息。

常用的决策树算法有ID3、C4.5、CART,它们构建树所使用的启发式函数各是什么?除了构建准则之外,它们之间的区别与联系是什么?

ID3 - 最大信息增益

特征 A A A对于数据集 D D D的信息增益定义为
Gain ⁡ ( D , a ) = H ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ H ( D v ) \operatorname{Gain}(D, a)=H(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} H\left(D^{v}\right) Gain(D,a)=H(D)v=1VDDvH(Dv)

ID3是采用信息增益作为评价标准,会倾向于取值较多的特征。因为,信息增益反映的是给定条件以后不确定性减少的程度特征取值越多就意味着确定性更高,也就是条件熵越小,信息增益越大。

C4.5 - 最大信息增益比

g a i n R ( D , A ) = g ( D , A ) H A ( D ) gain_{R}(D, A)=\frac{g(D, A)}{H_{A}(D)} gainR(D,A)=HA(D)g(D,A)
其中 H A ( D ) 是 H_{A}(D)是 HA(D)属性熵。
H A ( D ) = − ∑ i = 1 n ∣ D i ∣ ∣ D ∣ log ⁡ 2 ∣ D i ∣ ∣ D ∣ , H_{A}(D)=-\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} \log _{2} \frac{\left|D_{i}\right|}{|D|}, HA(D)=i=1nDDilog2DDi,

相对于ID3算法的改进:

  1. 用信息增益比来选择属性
  2. 在决策树的构造过程中对树进行剪枝
  3. 对连续数据也能处理
  4. 能够对不完整数据进行处理
信息增益比

C4.5用属性熵对ID3的信息增量进行标准化。

在一定程度上可以避免ID3倾向于选择取值较多的属性作为节点的问题。
但是使用增益率可能产生另外一个问题,增益率可能会偏好取值比较少的属性。因此C4.5采用了一个启发式的算法,先从候选属性中找出高于平均水平的属性,再从高于平均水平的属性中选择增益率最高的属性。

处理连续数据

在ID3中,如何处理离散数据?我们自然可以想到将其拆分成若干个区间,然后用布尔值分割数据。问题是,如何选择最优的划分点
C4.5的方法是:对于连续属性 a a a(价格、年龄等)和数据集 D D D,先对 a a a n n n个数值从小到大排列,两两计算中值 T T T,然后根据 T T T划分大于 T T T或者小于 T T T。穷举所有 T T T,选择信息增益最大的 T T T作为划分依据。

同样我们可以注意到,穷举中位数的过程的复杂度也是相当高的。

缺失值处理
  • 如何在属性值缺失的情况下进行划分属性:计算每个样本的权重,即无缺失样本除以总样本数。

Gain ⁡ ( D , a ) = ρ × Gain ⁡ ( D ~ , a ) = ρ × ( Ent ⁡ ( D ~ ) − ∑ v = 1 V r ~ v Ent ⁡ ( D ~ v ) ) \begin{aligned} \operatorname{Gain}(D, a) &=\rho \times \operatorname{Gain}(\tilde{D}, a) \\ &=\rho \times\left(\operatorname{Ent}(\tilde{D})-\sum_{v=1}^{V} \tilde{r}_{v} \operatorname{Ent}\left(\tilde{D}^{v}\right)\right) \end{aligned} Gain(D,a)=ρ×Gain(D~,a)=ρ×(Ent(D~)v=1Vr~vEnt(D~v))

  • 选定了划分属性,对于在该属性上缺失特征的样本的处理:

    若样本 x x x在划分属性 a a a上的取
    值未知,则将 x x x同时划入所有子结点,且样本权值在与属性值 a v a^v av对应的子结点中调整为凡 r v ~ ⋅ w x \tilde{r_v}\cdot{w_x} rv~wx ,直观地看,这就是让同一个样本以不同的概率划入到不同的子结点中去。

决策树剪枝
预剪枝

预剪枝要对划分前后的泛化性能进行估计。

  1. 对于不能使验证集精度提高的分支,不再划分。
  2. 当树到达一定深度的时候,不再划分。
  3. 当到达当前结点样本数量过小时,不在划分。
    优点:降低过拟合,减少时间开销
    缺点:局部无法提升精度并不代表之后的划分无法提升精度,因此有欠拟合风险。
后剪枝

先生成一颗完整的决策树。从叶结点向上地对所有非叶结点,根据是否提高泛化性能,决定是否剪去其子结点。

优点:降低过拟合,结果会通常比预剪枝更好。
缺点:时间开销更大。

Minimal Cost-Complexity Pruning 代价复杂剪枝(后剪枝算法)

算法步骤:

  1. 从完整决策树T0开始,生成一个子树序列 T 0 , T 1 , T 2 , . . . , T n {T_0,T_1,T_2,...,T_n} T0,T1,T2,...,Tn,其中 T i + 1 T_{i+1} Ti+1 T i T_i Ti生成, T n T_n Tn为树的根结点。
  2. 在子树序列中,根据真实误差选择最佳的决策树。

C α ( T ) = C ( T ) + α ∣ T ∣ C_{\alpha}(T)=C(T)+\alpha|T| Cα(T)=C(T)+αT
参数 α \alpha α:参数越大,最优子树越小,越欠拟合;参数越小,最优子树越大,越过拟合。 α \alpha α等于0时,无需剪枝;趋于正无穷时,只保留根节点。

对于结点 t t t剪枝阈值 g ( t ) g(t) g(t)
g ( t ) = C ( t ) − C ( T t ) ∣ T t ∣ − 1 g(t)=\frac{C(t)-C\left(T_{t}\right)}{\left|T_{t}\right|-1} g(t)=Tt1C(t)C(Tt)
α \alpha α大于 g ( t ) g(t) g(t)应该剪枝,剪枝会使整体损失函数减小;反之应该保留当前子树。

最后,只要用独立数据集测试子树序列,试试哪棵子树的误差最小就知道那棵是最好的方案了。

CART - 最大基尼指数

CART(Classification and Regression Tree,分类回归树)。

CART是一颗二叉树,采用二元切割法,每一步将数据,按特征A的取值切成两份,分别进入左右子树。
处理连续性变量:CART 由于其构建时每次都会对特征进行二值划分,因此可以很好地适用于连续性变量。
ID3和C4.5可以在每个结点上产生出多叉分支,且每个特征在层级之间不会复用。CART每个结点只会产生两个分支,因此最后会形成一颗二叉树,且每个特征可以被重复使用。
ID3和C4.5通过剪枝来权衡树的准确性与泛化能力,而CART直接利用全部数据发现所有可能的树结构进行对比。
回归树就用最小平方差。

总结

是否可处理连续变量是否容易过拟合是否对缺失值敏感是否可用于回归是否允许特征重复
ID3
C4,5
CART

决策树是集成学习中常见的基分类器,因为:

  • 决策树可以较为方便地将样本的权重整合到训练过程中。
  • 决策树的表达能力和泛化能力,可以通过调节树的层数来做折中。
  • 数据样本的扰动对于决策树的影响较大,因此不同子样本集合生成的决策树基分类器随机性较大,这样的“不稳定学习器”更适合作为基分类器(如随机森林)。

附:熵

熵最好理解为不确定性的量度,因为越随机的信源的熵越大。即越多的“不确定”,熵的值越大,则数据集的纯度越低。

H ( p ) = − ∑ k = 1 n p k l o g 2 p k H(p) = -\sum_{k=1}^np_klog_2p_k H(p)=k=1npklog2pk
设独立掷出 n n n次骰子,每个面的概率彼此不相等。则获得序列 ( x 1 , x 2 , . . . x n ) (x_1,x_2,...x_n) (x1,x2,...xn)的概率是
p ( ( x 1 , . . . , x n ) ) = ∏ i n p ( x i ) = ∏ k = 1 6 p k n k p((x_1,...,x_n)) = \prod_{i}^n p(x_i) = \prod_{k=1}^6p_k^{n_k} p((x1,...,xn))=inp(xi)=k=16pknk
给定概率向量 p = ( p 1 , . . . , p n ) \bold{p} = (p_1,...,p_n) p=(p1,...,pn),表示 n n n个离散的概率分布, ∑ i = 1 n p i = 1 \sum_{i=1}^n p_i=1 i=1npi=1, p i > 0 p_i>0 pi>0。当 n n n趋于正无穷时,根据大数定理:
lim ⁡ n → ∞ n k = n p k p ( ( x 1 , . . . , x n ) ) = ∏ k = 1 6 p k n k = ∏ p k n k = 2 n ∑ p k l o g 2 p k = 2 − n H ( p ) \begin{aligned} \lim_{n\to \infty} n_k &= np_k \\ p((x_1,...,x_n)) &= \prod_{k=1}^6p_k^{n_k} \\ &= \prod p_k^{nk}\\ &= 2^{n\sum p_k log_2 p_k}\\ &= 2^{-nH(\bold{p})} \end{aligned} nlimnkp((x1,...,xn))=npk=k=16pknk=pknk=2npklog2pk=2nH(p)
H ( p ) H(\bold p) H(p)越大,序列发生的概率就越小。反之,序列更有可能发生。

熵的性质
  • H ( p ) ≥ 0 H(\bold{p})\geq0 H(p)0
  • 给定 p \bold{p} p q \bold{q} q 两个维度相等的概率向量,恒有:
    − ∑ i = i n p i l o g ( p i ) ≤ − ∑ i = 1 n p i l o g ( q i ) -\sum_{i=i}^n p_i log(p_i) \leq -\sum_{i=1}^n p_i log(q_i) i=inpilog(pi)i=1npilog(qi)
  • H ( p ) ≤ n H(\bold{p})\leq n H(p)n n n n p \bold p p的维度。

参考资料:

机器学习 - 周志华

决策树之C4.5算法

统计学习方法 - 李航

sklearn Decision Trees

集成学习复习笔记

非参数概率密度统计模型

Histogram

Parzen Kernel

Nadaraya-Watson

高斯过程

  • 高斯过程可以直接推断目标函数的分布。
  • 高斯过程非常适用于小数据集。
  • 高斯过程也可用于分类问题。
  • GPyTorch, sklearn等比较成熟的库

  • 在计算逆矩阵时,复杂度在 O ( n 3 ) O(n^3) O(n3)。甚至有时逆矩阵无法求解。
  • 高斯过程假设数据满足多元正态分布和高斯噪声(有兴趣的读者可以谷歌 non gaussian likelihood)。

算法目的

求: P ( y ∗ ∣ D , x t ) P(y_*\mid D,\mathbf{x_t}) P(yD,xt),即已知训练数据 D D D,测试数据X_test x t \mathbf{x_t} xt,求 y_test 的条件分布。

算法理论要点

高斯过程假设 y_train、y_test和每个向量的噪声先验服从高斯分布,即 [ y 1 y 2 ⋮ y n y t ] ∼ N ( 0 , Σ ) \begin{bmatrix} y_1\\ y_2\\ \vdots\\ y_n\\ y_t \end{bmatrix} \sim \mathcal{N}(0,\Sigma) y1y2ynytN(0,Σ) ϵ ∼ N ( 0 , σ y 2 I ) \boldsymbol\epsilon \sim \mathcal{N}(\mathbf{0}, \sigma_y^2 \mathbf{I}) ϵN(0,σy2I)

已知后验的 X_train,y_train,X_test数据,我们有:
μ y ∗ ∣ D = K ∗ T ( K + σ 2 I ) − 1 y Σ y ∗ ∣ D = K ∗ ∗ − K ∗ T ( K + σ 2 I ) − 1 K ∗ . \mu_{y_*\mid D} = K_*^T (K+\sigma^2 I)^{-1} y\\\Sigma_{y_*\mid D} = K_{**} - K_*^T (K+\sigma^2 I)^{-1}K_*. μyD=KT(K+σ2I)1yΣyD=KKT(K+σ2I)1K.
最终结果
Y ∗ ∣ ( Y 1 = y 1 , . . . , Y n = y n , x 1 , . . . , x n ) ∼ N ( K ∗ ⊤ ( K + σ 2 I ) − 1 y , K ∗ ∗ + σ 2 I − K ∗ ⊤ ( K + σ 2 I ) − 1 K ∗ ) . Y_*|(Y_1=y_1,...,Y_n=y_n,\mathbf{x}_1,...,\mathbf{x}_n)\sim \mathcal{N}(K_*^\top (K+\sigma^2 I)^{-1}y,K_{**}+\sigma^2 I-K_*^\top (K+\sigma^2 I)^{-1}K_*). Y(Y1=y1,...,Yn=yn,x1,...,xn)N(K(K+σ2I)1y,K+σ2IK(K+σ2I)1K).

Σ i j = K ( x i , x j ) \Sigma_{ij}=K(\mathbf{x}_i,\mathbf{x}_j) Σij=K(xi,xj) K K K是核函数。表示数据点之间的相似度。

实验

源码可以在krasserm blog上获取。

先验
在这里插入图片描述

  • X_test = np.arange(-5, 5, 0.2).reshape(-1, 1),shape == (50,1)
  • 中线蓝线为X_test的均值,高斯过程假设其处处为0。mu.shape == X_test.shape。
  • X_test的协方差由核函数计算。cov.shape == (50,50)
  • 蓝色区域称为不确定区域(uncertainty region,包含置信区间)。表示X_test每处数据点的方差浮动。数据点的方差越小,则我们越能确定其值的浮动区间。
  • 三条从多元正态分布 N ( 0 , Σ ) \mathcal{N}(0,\Sigma) N(0,Σ)抽取的样本,shape == (3,50)。**表示当前的y_test在均值为0,uncertainty region内上下浮动。y_test处处满足高斯分布。**有时曲线会超出不确定区域,这是因为不确定区域包含自定义的置信区间。

后验
在这里插入图片描述

  • 后验过程,接受训练集X_train,y_train。对于每处X_train数据点(红色叉),限制其周围的不确定区域。我们可以观察到,样本Sample,即y_test,曲线能够活动的空间越来越小,在训练集足够多的情况下,可以基本确定y_test的曲线。即,此时y_test的每一个数据点,我们有较精确的概率分布 P P P

  • RBF核/径向基函数核,参数 l l l越大,越不容易过拟合。因为 l l l越大,分母越大, K K K值越小,点和点之间的相似度越低。 l l l取正无穷,则所有数据点都彼此不相关。

最大似然
log ⁡ p ( y ∣ X ) = log ⁡ N ( y ∣ 0 , K y ) = − 1 2 y T K y − 1 y − 1 2 log ⁡ ∣ K y ∣ − N 2 log ⁡ ( 2 π ) (11) \log p(\mathbf{y} \lvert \mathbf{X}) = \log \mathcal{N}(\mathbf{y} \lvert \boldsymbol{0},\mathbf{K}_y) = -\frac{1}{2} \mathbf{y}^T \mathbf{K}_y^{-1} \mathbf{y} -\frac{1}{2} \log \begin{vmatrix}\mathbf{K}_y\end{vmatrix} -\frac{N}{2} \log(2\pi) \tag{11} logp(yX)=logN(y0,Ky)=21yTKy1y21logKy2Nlog(2π)(11)
公式可以用于计算score,也可以用最大似然法求导后优化参数。

附:高斯函数的基本性质

定义随机变量 y = [ y A y B ] , μ = [ μ A μ B ] Σ = [ Σ A A , Σ A B Σ B A , Σ B B ] y=\begin{bmatrix} y_A\\ y_B \end{bmatrix}, \mu=\begin{bmatrix} \mu_A\\ \mu_B \end{bmatrix}\Sigma=\begin{bmatrix} \Sigma_{AA}, \Sigma_{AB} \\ \Sigma_{BA}, \Sigma_{BB} \end{bmatrix} y=[yAyB],μ=[μAμB]Σ=[ΣAA,ΣABΣBA,ΣBB]

  1. ∫ y p ( y ; μ , Σ ) d y = 1 \int_y p(y;\mu,\Sigma)dy=1 yp(y;μ,Σ)dy=1
  2. 边际分布 p ( y A ) = ∫ y B p ( y A , y B ; μ , Σ ) d y B p(y_A)=\int_{y_B}p(y_A,y_B;\mu,\Sigma)dy_B p(yA)=yBp(yA,yB;μ,Σ)dyB p ( y B ) = ∫ y A p ( y A , y B ; μ , Σ ) d y A p(y_B)=\int_{y_A}p(y_A,y_B;\mu,\Sigma)dy_A p(yB)=yAp(yA,yB;μ,Σ)dyA 满足高斯分布。 y A ∼ N ( μ A , Σ A A ) y B ∼ N ( μ B , Σ B B ) . y_A\sim \mathcal{N}(\mu_A,\Sigma_{AA})\\y_B\sim \mathcal{N}(\mu_B,\Sigma_{BB}). yAN(μA,ΣAA)yBN(μB,ΣBB).
  3. 两个高斯函数相加仍为高斯函数。均值相加,方差相加。
  4. y A y_A yA y B y_B yB 的条件分布仍为高斯分布 p ( y A ∣ y B ) = p ( y A , y B ; μ , Σ ) ∫ y A p ( y A , y B ; μ , Σ ) d y A , y A ∣ y B = y B ∼ N ( μ A + Σ A B Σ B B − 1 ( y B − μ B ) , Σ A A − Σ A B Σ B B − 1 Σ B A ) . p(y_A|y_B)=\frac{p(y_A,y_B;\mu,\Sigma)}{\int_{y_A}p(y_A,y_B;\mu,\Sigma)dy_A},\\y_A|y_B=y_B\sim \mathcal{N}(\mu_A+\Sigma_{AB}\Sigma_{BB}^{-1}(y_B-\mu_B),\Sigma_{AA}-\Sigma_{AB}\Sigma_{BB}^{-1}\Sigma_{BA}). p(yAyB)=yAp(yA,yB;μ,Σ)dyAp(yA,yB;μ,Σ),yAyB=yBN(μA+ΣABΣBB1(yBμB),ΣAAΣABΣBB1ΣBA).

Ref : krasserm blog
cs.cornell.edu/courses/cs4780/

回归模型

回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。

参考资料:七种常用回归技术,如何正确选择回归模型?

特征工程

特征归一化

对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。

  1. 线性函数归一化(Min-Max Scaling)。它对原始数据进行线性变换,使结果映射到[0, 1]的范围。
    X n o r m = X − X m i n X m a x − X m i n X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}} Xnorm=XmaxXminXXmin
  2. 零均值归一化(Z-Score Normalization)。它会将原始数据映射到均值为0、标准差为1的分布上。 z = x − μ σ z = \frac {x-\mu}{\sigma} z=σxμ

需要归一化的模型: 线性回归、逻辑回归、SVM、NN。
不需要归一化的模型:决策树(信息增益和特征是否经过归一化无关)。

参考资料:百面机器学习

集成学习

偏差与方差,欠拟合和过拟合

  • 偏差指预测输出与真实标记的差别,偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力。
  • 方差指一个特定训练集训练得到的函数,与所有训练集得到平均函数的差的平方再取期望。方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。方差表示所有模型构建的预测函数,与真实函数的差别有多大。
  • 欠拟合指模型不够复杂或者训练数据过少时,模型均无法捕捉训练数据的基本(或者内在)关系,会出现偏差
  • 过拟合指模型过于复杂或者没有足够的数据支持模型的训练时,模型含有训练集的特有信息,对训练集过于依赖,即模型会对训练集高度敏感,这种现象称之为模型过拟合。

参考资料:偏差与方差,欠拟合与过拟合

AUC

随机给定一个正样本和一个负样本,分类器输出该正样本为正的那个概率值比分类器输出该负样本为正的那个概率值要大的可能性。
如何理解机器学习和统计中的AUC?

集成学习类型

  • Boosting,它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。
    减少偏差,减少欠拟合。Boosting方法是通过逐步聚焦于基分类器分错的样本,减小集成分类器的偏差。
  • Bagging,减少方差,减少过拟合。通过对训练样本多次采样,并分别训练出多个不同模型,然后做综合,来减小集成分类器的方差。

AdaBoosting

Adaboost对分类正确的样本降低了权重,对分类错误的样本升高或者保持权重不变。在最后进行模型融合的过程中,也根据错误率对基分类器进行加权融合。错误率低的分类器拥有更大的“话语权”。

GBDT

Gradient Boosting是Boosting中的一大类算法,其基本思想是根据当前模型损失函数的负梯度信息来训练新加入的弱分类器,然后将训练好的弱分类器以累加的形式结合到现有模型中

优点:

  • 预测阶段速度快并且可并行
  • 分布稠密的数据集上,泛化能力和表达能力都很好。
  • 采用决策树作为弱分类器使得GBDT模型具有较好的解释性和鲁棒性,能够自动发现特征间的高阶关系,并且也不需要对数据进行特殊的预处理如归一化等。

缺点:

  • GBDT在高维稀疏的数据集上,表现不如支持向量机或者神经网络。
  • GBDT在处理文本分类特征问题上,相对其他模型的优势不如它在处理数值特征时明显。
  • 训练过程需要串行训练,只能在决策树内部采用一些局部并行的手段提高训练速度。

SVM

线性可分SVM

分类决策函数:
f ( x ) = sign ⁡ ( w ∗ ⋅ x + b ∗ ) f(x)=\operatorname{sign}\left(w^{*} \cdot x+b^{*}\right) f(x)=sign(wx+b)
或者:
f ( x ) = ∑ i = 1 m α i y ( i ) K ( x ( i ) , x ) + b f(x)=\sum_{i=1}^{m} \alpha_{i} y^{(i)} K\left(x^{(i)}, x\right)+b f(x)=i=1mαiy(i)K(x(i),x)+b
约束最优化方程:
min ⁡ w , b 1 2 ∥ w ∥ 2  s.t.  y i ( w ⋅ x i + b ) − 1 ⩾ 0 , i = 1 , 2 , ⋯   , N \begin{array}{ll} \min _{w, b} & \frac{1}{2}\|w\|^{2} \\ \text { s.t. } & y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N \end{array} minw,b s.t. 21w2yi(wxi+b)10,i=1,2,,N
拉格朗日对偶:
L ( w , b , α ) = 1 2 ∥ w ∥ 2 − ∑ i = 1 N α i y i ( w ⋅ x i + b ) + ∑ i = 1 N α i L(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{N} \alpha_{i} y_{i}\left(w \cdot x_{i}+b\right)+\sum_{i=1}^{N} \alpha_{i} L(w,b,α)=21w2i=1Nαiyi(wxi+b)+i=1Nαi
w w w的求值和支持向量:
w ∗ = ∑ i α i ∗ y i x i w^{*}=\sum_{i} \alpha_{i}^{*} y_{i} x_{i} w=iαiyixi
大多数 α \alpha α值为0,只有少数的 ( y i , x i ) (y_{i}, x_{i}) (yi,xi)的系数 α \alpha α不为0。这些点落在边界上,被称为支持向量。我们用这些点代入求解 w w w

软间隔SVM:

对于线性不可分的数据集,SVM假设存在一些离群点(outlier)。除去特异点后,剩下的数据点线性可分
线性不可分意味着有些样本点不能满足限制条件  s.t.  y i ( w ⋅ x i + b ) − 1 ⩾ 0 \text { s.t. } y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0  s.t. yi(wxi+b)10,此时引入 ξ i \xi_{i} ξi进行松弛。
min ⁡ w , b , ξ 1 2 ∥ w ∥ 2 + C ∑ i = 1 N ξ i  s.t.  y i ( w ⋅ x i + b ) ⩾ 1 − ξ i , i = 1 , 2 , ⋯   , N ξ i ⩾ 0 , i = 1 , 2 , ⋯   , N \begin{array}{ll} \min _{w, b, \xi} & \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i} \\ \text { s.t. } & y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}, \quad i=1,2, \cdots, N \\ & \xi_{i} \geqslant 0, \quad i=1,2, \cdots, N \end{array} minw,b,ξ s.t. 21w2+Ci=1Nξiyi(wxi+b)1ξi,i=1,2,,Nξi0,i=1,2,,N
在这里插入图片描述
由KKT得,若 α ∗ < C \alpha^* < C α<C,支持向量落在边界上。

参考资料:
统计学习方法

深度学习

梯度爆炸和梯度消失

梯度裁剪

可以将梯度限制在某个区间 [ − c l i p _ v a l u e , c l i p _ v a l u e ] [-clip\_value, clip\_value] [clip_value,clip_value]内,以防止梯度爆炸。

参考资料:
深度炼丹之梯度裁剪

RNN

采样

概率论和数学相关

独立性

  • 两两独立: P ( A B ) = P ( A ) ∗ P ( B ) P(AB) = P(A) * P(B) P(AB)=P(A)P(B)
  • 互相独立: P ( A B C ) = P ( A ) ∗ P ( B ) ∗ P ( C ) P(ABC) = P(A)*P(B)*P(C) P(ABC)=P(A)P(B)P(C)即一组事件的发生不会影响另一组(或一个)事件的发生。

强大数定律

已知 ( X n ) n ∈ N (X_n)_n\in\N (Xn)nN随机变量序列并服从相同的分布,且变量和变量之间两两独立,则均值(也称试验均值)
X ˉ n = ∑ k = 1 n X k n \bar{X}_{n}=\frac{\sum_{k=1}^{n} X_{k}}{n} Xˉn=nk=1nXk
收敛于其数学期望。即:
E ( X ˉ n ) = m E\left(\bar{X}_{n}\right)=m E(Xˉn)=m
同时有:
V ( X ˉ n ) = σ 2 n V\left(\bar{X}_{n}\right)=\frac{\sigma^{2}}{n} V(Xˉn)=nσ2

弱大数定律不能保证处处收敛,只能保证依概率收敛。

给定概率向量 p = ( p 1 , . . . , p n ) \bold{p} = (p_1,...,p_n) p=(p1,...,pn),表示 n n n个离散的概率分布, ∑ i = 1 n p i = 1 \sum_{i=1}^n p_i=1 i=1npi=1, p i > 0 p_i>0 pi>0。当 n n n趋于正无穷时,根据大数定理:
lim ⁡ n → ∞ n k = n p k \lim_{n\to \infty} n_k = np_k nlimnk=npk

最优化

凸函数(Convexe)

对于任意 x 1 , x 2 \mathbf{x}_{1}, \mathbf{x}_{2} x1,x2 α , 0 < α < 1 \alpha,0<\alpha<1 α0<α<1,函数 f ( x ) f(x) f(x)满足
f [ α x 1 + ( 1 − α ) x 2 ] ≤ α f ( x 1 ) + ( 1 − α ) f ( x 2 ) f\left[\alpha \mathbf{x}_{1}+(1-\alpha) \mathbf{x}_{2}\right] \leq \alpha f\left(\mathbf{x}_{1}\right)+(1-\alpha) f\left(\mathbf{x}_{2}\right) f[αx1+(1α)x2]αf(x1)+(1α)f(x2)
f ( x ) f(x) f(x)是凸函数。

x 1 ≠ x 2 \mathbf{x}_{1}\neq \mathbf{x}_{2} x1=x2,则 f ( x ) f(x) f(x)是严格凸的。

参考资料:
漫步最优化十四——凸函数与凹函数

中心极限定律

试验均值收敛于正态分布:
X ˉ n − μ σ / n → N ( 0 , 1 ) \frac{\bar{X}_{n}-\mu}{\sigma / \sqrt{n}} {\rightarrow} \mathcal{N}(0,1) σ/n XˉnμN(0,1)

聚类

K-Means

EM


分享:

低价透明

统一报价,无隐形消费

金牌服务

一对一专属顾问7*24小时金牌服务

信息保密

个人信息安全有保障

售后无忧

服务出问题客服经理全程跟进