跳到主要内容

数学基础1

高等数学

1.1 函数与极限

函数 - 常量:过程中保持不变的量 - 变量:过程中可取不同值的量

复核函数

分类

  • 奇偶函数
  • 周期函数
  • 单调函数

1.2 连续性与到数

割线 -> 切线

位移 -> 速度 -> 加速度

1.3 反向导数与梯度

方向导数

温度场

偏导数

梯度

梯度表示方向导数取值最大的方向 梯度定位一个矢量

1.4 微积分

微分

  • 线性主部
  • 高阶无穷小量

函数可微的充要条件是可导

积分 不定积分 定积分 牛顿莱布尼兹公式:转换成原函数的差

1.5 泰勒公式

用多项式的线性组合表示其他函数


2.1 凸优化

凸优化 - 局部最优解也是全局最优解 无约束最优化 极值点、驻点,驻点不一定是极值点 - 直接法 - 坐标转化 - 爬山法 - 方向加速度法 - 解析法 - 梯度下降法 - 学习率,learning reate,是一个确定步长的正标量 - 收敛:梯度为零或者接近于零的时候收敛 - 牛顿法,需要求解二阶导数及其逆矩阵,计算较为复杂 - 拟牛顿法,采用一定方法近似二姐导数矩阵 - 共轭方向法 约束最优化 - 等式约束最优化 - 拉格朗日乘子法 - 不等式约束最优化 - KKT 法 三个条件

最优化问题在数学上抽象为:改变x以最小化或者最大化某个函数的任务

流程 决策 目标 约束

线性代数

3.1 矩阵基础

解决问题,求解线性方程组。

矩阵及变换

  • 二位旋转矩阵
  • 二位伸缩矩阵

矩阵及转置

单位矩阵

逆矩阵 与矩阵相乘等于单位矩阵

对角矩阵 对称矩阵 正交矩阵

行列式,是一个将方阵映射到一个标量的函数,行列式可以看做是有向面积或体积在一般欧几里得空间的推广。

二阶行列式 三阶行列式

行列式的意义 - 行列式等于举证特针织的乘积 - 行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少 - 行列式的正负表示空间的定向。

3.2 矩阵分解

特征分解

特征值是矩阵收缩的比例

奇异值分解,旋转,拉伸和映射,旋转

  • 应用
    • 主成分分析 PCA
    • 线性判别分析 LDA
    • 数据压缩
    • 潜在语义分析 LSI

概率论与数理统计

统计:根据获取的有限信息,估计桶中的情况 概率:已知桶中信息,推算抽取篮球/红球的可能性

4.1 随记变量及其分布

随机事件 样本点 样本空间

随机变量 - 离散型随机变量 - 分布律 - 连续型随机变量

特殊离散分布 - 伯努利分布 - 二项分布 - 重复 n 次伯努利试验满足分布 - 泊松分布 - 在 n 次伯努利试验中,如果试验次数n 很大,而概率p 很小,且 lameda = np 值适中,那么概率分布可以用泊松分布近似 - 正太分布,高斯分布,二项分布的特殊情况

分布函数,又叫累计分布函数 cumulative distribution function (CDF)

对于连续练级变量x 的分布函数,存在非负函数,使对于任意实数 x 有,其中函数f(x) 称为x 的概率密度函数 Probability Density Function (PDF),简称概率密度。

4.2 多维随记变量及其分布

联合分布函数 联合概率密度函数

4.3 随机变量的数字特征

数学期望(或均值)

方差 描述单一变量 协方差

相关系数

协方差矩阵

4.4 大叔定律及中心极限定理

中心极限定理,随机变量相互独立,具有相同的期望和方差,当样本数量 n 趋于无穷时候,随机变量服从正太分布。

4.5 回归分析

一元回归分析 多元回归分析

线性回归分析 非线性回归分析

4.6 参数估计与假设检测

参数估计:指的是用样本中的数据估计总体分布的参数,比如给定一定的样本容量的样本,要求估计总体的均值、方差等 - 矩估计法 - 用样本的n阶矩,建立带估计参数方程,从而求解参数。 - 最小二乘法 - 构造误差平方和函数,让误差平方和函数缺德最小值的参数就是模型参数。 - 最大似然估计法 - 最大似然参数求解的核心思想就是构造当前样本出现的联合概率函数,让当前样本概率最大的就是模型参数。 假设检测:事先做出关于总体参数、分布形式等命题(假设),通过样本信息判断该命题是否成立(检验)。 - 原理:小概率时间在一次试验中几乎不放声,如果发生了,则可以怀疑假设的真实性。

举例:人口调查、产品检验

抽样、样本数据=》观察趋势、选择模型=》参数估计=》假设检验

局部推测总体。

4.7 相关分析

散点图 相关系数


信息论

5.1 信息熵

小概率事件比大概率事件能提供更多的信息。

信息量,单调函数

5.2 信息增益和信息增益率

信息增益衡量的是一个特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要,

信息熵和条件熵的差值。

条件熵表示在一定条件下,信息复杂度和不确定性减少的程度。

信息增益表示的是,信息的复杂度和不确定性减少的曾都

以信息增益作为特诊选择依据的弊端,信息增益会偏向分支较多的特征 信息增益率对此进行改善

5.3 基尼系数

经济学中,基尼系数普遍用于衡量一个国家和地区的财富分配水平。 机器学习理论中基尼系数主要用于分类、推荐等算法中。 基尼系数又叫基尼不纯度。

特征越小,越成功

参考