optimize

7 years ago · 0377f46518
--- a/week4.html
+++ b/week4.html
--- a/week4.md
+++ b/week4.md
@@ -4,9 +4,9 @@

 ## 8.1 非线性假设(Non-linear Hypotheses)

 理论上我们可以用多项式函数去近似任意函数，从而可得到任意问题的拟合曲线，即泰勒极数(Taylor series)。
 理论上我们可以用多项式函数去近似任意函数（泰勒极数(Taylor series)），从而可得到任意问题的拟合曲线，。

 在实际处理时，特征量通常会很多，如果再构造高阶多项式等，特征数量将会急剧增加，这使得线性模型的复杂度太高，可见并不合适。神经网络无需构造高阶多项式，在特征量很大时也可以处理的很好。
 在实际处理时，特征量通常会很多，如果再构造高阶多项式等，特征数量将会急剧增加，这使得回归模型的复杂度太高，可见并不合适。神经网络无需构造高阶多项式，在特征量很大时也可以处理的很好。

 那特征能有多大呢？下面是一个计算机视觉中的例子：

@@ -96,7 +96,7 @@ $h_\Theta(x) = a_1^{(3)} = g(\Theta_{10}^{(2)}a_0^{(2)} + \Theta_{11}^{(2)}a_1^{

 再回顾一下逻辑回归：

 ${h_\theta}\left( x \right)=g\left( {\theta_0}+{\theta_1}{x_1}+{\theta_{2}}{x_{2}}+{\theta_{3}}x_{1}^{2} \right)$
 ${h_\theta}\left( x \right)=g\left( {\theta_0}+{\theta_1}{x_1}+{\theta_{2}}{x_{2}}+{\theta_{3}}x_3 \right)$

 是不是除了符号表示，其他都完全一样？其实神经网络就好似回归模型，只不过输入变成了中间单元 $a_1^{(j)}, a_2^{(j)}, \dots, a_n^{(j)}$。从输入 $x$ 开始，下一层的每个激活单元都包含了上一层的所有信息（单元值），通过最优化算法不断迭代计算，激活单元能得出关于输入 $x$ 的更多信息，这就好像是在给假设函数加多项式。中间层的这些单元好似升级版的初始特征，从而能给出更好的预测。

@@ -122,7 +122,7 @@ $\begin{align*}a_1^{(2)} = g(z_1^{(2)}) \newline a_2^{(2)} = g(z_2^{(2)}) \newli

 扩展到所有样本实例：

 ${{z}^{\left( 2 \right)}}={{\Theta }^{\left( 1 \right)}} {{X}^{T}}$，这时 $z^{(2)}$ 是一个 $s_2 \times m$ 维向量。
 ${{z}^{\left( 2 \right)}}={{\Theta }^{\left( 1 \right)}} {{X}^{T}}$，这时 $z^{(2)}$ 是一个 $s_2 \times m$ 维矩阵。

 > $m$: 训练集中的样本实例数量
 >