Welcome to Machine-Learning-Model-Analysis’s documentation!¶
mathematical notation¶
- \(x\) 表示标量
- \(\bar{x}\) 表示估计值
- \(\mathbf{x}\) 表示列向量
- \(\mathbf{x}^T\) 表示行向量
- \(\mathbf{X}\) 表示矩阵,在表示特征矩阵的时候,行表示样本数,列表示特征数
- \(n\) 表示列数
- \(m\) 表示行数
- \(\mathbf{x}_i\) 表示向量的第i个值
- \(\mathbf{X}_{i}\) 表示矩阵的第i行
- \(\mathbf{X}^{j}\) 表示矩阵的第j列
- \(\mathbf{X}_{i}^{j}\) 表示矩阵的第i行j列的值
- \(\epsilon\) 表示预测值与真实值之间的误差项
- \(;\) 分号后的数字表示超参数
- \(w、h、l\) 代表长宽高
linear Model¶
linear regression¶
图例¶
Predicted function¶
Loss function¶
Object function¶
Optimizing¶
Normal equations¶
令 \(\nabla_{\theta}{O(\mathbf{y},\mathbf{X};\mathbf{\theta})} = 0\),得
Warning
若特征矩阵不是方阵,的情况。。。。待查询相关资料
Note
求解过程需要相关矩阵迹的知识
Gradient-based¶
根据上式子,可以得出参数更新规则:
linear regression why¶
预测函数为什么是这样的?¶
答: 假设满足广义线性模型构造方法的三个假设情况下成立. 其中假设一满足的情况下 \(P(y|x;\theta) \sim \mathcal{N}(\mu, \sigma^2)\) .由此存在如下的推导:
由此可得: \(\eta = \mu\).在假设二成立的情况下,可以得出:
其中假设三 \(\eta=\theta^T \mathbf{x}\) . 联立假设一、二、三,可得:
损失函数为什么是二次函数?¶
答:假设误差项 \(\epsilon \sim \mathcal{N}(0,\sigma^2)\). 由于:
所以:
最大似然估计可得:
所以最大似然等价于最小平方损失函数.
logistic regression¶
图例¶
Predicted function¶
Loss function¶
Note
还可以化简,待完善log(2+exp)形式
Note
该损失函数有一个专业名词
Objection function¶
Optimizing¶
Gradient-based¶
根据上式子,可以得出参数更新规则:
logistic regression why¶
预测函数为什么是这样的?¶
假设满足广义线性模型构造方法的三个假设情况下成立. 其中假设一 满足的情况下 \(P(y|x;\theta) \sim \text{Bernoulli}(\phi)\) .由此存在如下的推导:
由上式可得: \(\eta=\log{\frac{\phi}{1 - \phi}}\). 在假设二成立的情况下,可以得出:
其中假设三 \(\phi=\theta^T \mathbf{x}\). 联立假设一、二、三,可得:
损失函数为什么是交叉熵?¶
由对数几率(odd):
可以得出:
化简可得:
最大似然估计可以得出:
所以最大似然估计等价于最小化交叉熵损失函数.
logistic regression expand¶
softmax regression¶
图例¶
Predicted function¶
Note
应该存在更简洁的表达方式,待查阅
Loss function¶
Object function¶
softmax regression why¶
为什么预测函数是这样?¶
假设满足广义线性模型构造方法的三个假设情况下成立. 其中假设一 满足的情况下 \(P(\mathbf{y}|x;\phi,k) \sim \text{category}(\phi_1,\phi_2,...,\phi_i,...,\phi_k)\) .由此存在如下的推导:
由上式可得: \(\eta=\begin{bmatrix} \log{ \frac{\phi_1}{\phi_k}} \\ \log{ \frac{\phi_2}{\phi_k}} \\ ... \\ \log{\frac{\phi_{k-1}}{\phi_k}} \\ \log{\frac{\phi_k}{\phi_k}} \end{bmatrix}\). 进一步可以得出:
把 \(\phi_k = \frac{1}{\sum\limits_{i=1}^{k} \exp^{\eta_i}}\) 代入 \(\phi_i = \phi_k \exp^{\eta_i}\) 中,可得如下结果:
从假设二可以推导出:
其中假设三 \(\phi_i=\theta_{i}^{T} \mathbf{x}\). 联立假设一、二、三的结果,可得:
Note
\(1 \leq i \leq k\)
Neruo layers¶
convolution layer¶
图例¶
表达式¶
一维¶
总梯度¶
二维¶
总梯度¶
三维¶
总梯度¶
Warning
相关梯度的计算有待查阅
高效实现¶
Full connection layer¶
图例¶
表达式¶
二维(矩阵)¶
三维(张量)¶
高效实现¶
pooling layer¶
图例¶
表达式¶
最大池化¶
一维¶
二维¶
三维¶
高效实现¶
- 描述当前层与下一层的关系
- 参数数量与神经元数量之间的权衡
- 统一的框架描述(数学公式)描述所有的层
Todo¶
- 重新组织rst 文档的相关知识点 Ok
- 初始化Machine-Learning-Model-Analysis 仓库 及编写相关内容 ok
- 机器学习电子书需处理 ok
- gradle 笔记 ok
- 线性回归的求解,需要查询输入矩阵不是方阵的情况.
- 关于矩阵迹的相关附录
- linear regression expand (lasso、ridge、加权线性回归)
- logistic回归的相关扩展待查阅
- logistic回归IRLS方法求解
- 最大熵模型的描述
- 描述当前层与下一层的关系
- 参数数量与神经元数量之间的权衡
- 统一的框架描述(数学公式)描述所有的层
- 层高效的实现