Browse Source

optimize

master
scruel 7 years ago
parent
commit
0377f46518
2 changed files with 5 additions and 5 deletions
  1. +1
    -1
      week4.html
  2. +4
    -4
      week4.md

+ 1
- 1
week4.html
File diff suppressed because it is too large
View File


+ 4
- 4
week4.md View File

@@ -4,9 +4,9 @@


## 8.1 非线性假设(Non-linear Hypotheses) ## 8.1 非线性假设(Non-linear Hypotheses)


理论上我们可以用多项式函数去近似任意函数,从而可得到任意问题的拟合曲线,即泰勒极数(Taylor series)
理论上我们可以用多项式函数去近似任意函数(泰勒极数(Taylor series)),从而可得到任意问题的拟合曲线,


在实际处理时,特征量通常会很多,如果再构造高阶多项式等,特征数量将会急剧增加,这使得线性模型的复杂度太高,可见并不合适。神经网络无需构造高阶多项式,在特征量很大时也可以处理的很好。
在实际处理时,特征量通常会很多,如果再构造高阶多项式等,特征数量将会急剧增加,这使得回归模型的复杂度太高,可见并不合适。神经网络无需构造高阶多项式,在特征量很大时也可以处理的很好。


那特征能有多大呢?下面是一个计算机视觉中的例子: 那特征能有多大呢?下面是一个计算机视觉中的例子:


@@ -96,7 +96,7 @@ $h_\Theta(x) = a_1^{(3)} = g(\Theta_{10}^{(2)}a_0^{(2)} + \Theta_{11}^{(2)}a_1^{


再回顾一下逻辑回归: 再回顾一下逻辑回归:


${h_\theta}\left( x \right)=g\left( {\theta_0}+{\theta_1}{x_1}+{\theta_{2}}{x_{2}}+{\theta_{3}}x_{1}^{2} \right)$
${h_\theta}\left( x \right)=g\left( {\theta_0}+{\theta_1}{x_1}+{\theta_{2}}{x_{2}}+{\theta_{3}}x_3 \right)$


是不是除了符号表示,其他都完全一样?其实神经网络就好似回归模型,只不过输入变成了中间单元 $a_1^{(j)}, a_2^{(j)}, \dots, a_n^{(j)}$。从输入 $x$ 开始,下一层的每个激活单元都包含了上一层的所有信息(单元值),通过最优化算法不断迭代计算,激活单元能得出关于输入 $x$ 的更多信息,这就好像是在给假设函数加多项式。中间层的这些单元好似升级版的初始特征,从而能给出更好的预测。 是不是除了符号表示,其他都完全一样?其实神经网络就好似回归模型,只不过输入变成了中间单元 $a_1^{(j)}, a_2^{(j)}, \dots, a_n^{(j)}$。从输入 $x$ 开始,下一层的每个激活单元都包含了上一层的所有信息(单元值),通过最优化算法不断迭代计算,激活单元能得出关于输入 $x$ 的更多信息,这就好像是在给假设函数加多项式。中间层的这些单元好似升级版的初始特征,从而能给出更好的预测。


@@ -122,7 +122,7 @@ $\begin{align*}a_1^{(2)} = g(z_1^{(2)}) \newline a_2^{(2)} = g(z_2^{(2)}) \newli


扩展到所有样本实例: 扩展到所有样本实例:


${{z}^{\left( 2 \right)}}={{\Theta }^{\left( 1 \right)}} {{X}^{T}}$,这时 $z^{(2)}$ 是一个 $s_2 \times m$ 维向量
${{z}^{\left( 2 \right)}}={{\Theta }^{\left( 1 \right)}} {{X}^{T}}$,这时 $z^{(2)}$ 是一个 $s_2 \times m$ 维矩阵


> $m$: 训练集中的样本实例数量 > $m$: 训练集中的样本实例数量
> >


Loading…
Cancel
Save