|
|
|
@@ -4,9 +4,9 @@ |
|
|
|
|
|
|
|
## 8.1 非线性假设(Non-linear Hypotheses) |
|
|
|
|
|
|
|
理论上我们可以用多项式函数去近似任意函数,从而可得到任意问题的拟合曲线,即泰勒极数(Taylor series)。 |
|
|
|
理论上我们可以用多项式函数去近似任意函数(泰勒极数(Taylor series)),从而可得到任意问题的拟合曲线,。 |
|
|
|
|
|
|
|
在实际处理时,特征量通常会很多,如果再构造高阶多项式等,特征数量将会急剧增加,这使得线性模型的复杂度太高,可见并不合适。神经网络无需构造高阶多项式,在特征量很大时也可以处理的很好。 |
|
|
|
在实际处理时,特征量通常会很多,如果再构造高阶多项式等,特征数量将会急剧增加,这使得回归模型的复杂度太高,可见并不合适。神经网络无需构造高阶多项式,在特征量很大时也可以处理的很好。 |
|
|
|
|
|
|
|
那特征能有多大呢?下面是一个计算机视觉中的例子: |
|
|
|
|
|
|
|
@@ -96,7 +96,7 @@ $h_\Theta(x) = a_1^{(3)} = g(\Theta_{10}^{(2)}a_0^{(2)} + \Theta_{11}^{(2)}a_1^{ |
|
|
|
|
|
|
|
再回顾一下逻辑回归: |
|
|
|
|
|
|
|
${h_\theta}\left( x \right)=g\left( {\theta_0}+{\theta_1}{x_1}+{\theta_{2}}{x_{2}}+{\theta_{3}}x_{1}^{2} \right)$ |
|
|
|
${h_\theta}\left( x \right)=g\left( {\theta_0}+{\theta_1}{x_1}+{\theta_{2}}{x_{2}}+{\theta_{3}}x_3 \right)$ |
|
|
|
|
|
|
|
是不是除了符号表示,其他都完全一样?其实神经网络就好似回归模型,只不过输入变成了中间单元 $a_1^{(j)}, a_2^{(j)}, \dots, a_n^{(j)}$。从输入 $x$ 开始,下一层的每个激活单元都包含了上一层的所有信息(单元值),通过最优化算法不断迭代计算,激活单元能得出关于输入 $x$ 的更多信息,这就好像是在给假设函数加多项式。中间层的这些单元好似升级版的初始特征,从而能给出更好的预测。 |
|
|
|
|
|
|
|
@@ -122,7 +122,7 @@ $\begin{align*}a_1^{(2)} = g(z_1^{(2)}) \newline a_2^{(2)} = g(z_2^{(2)}) \newli |
|
|
|
|
|
|
|
扩展到所有样本实例: |
|
|
|
|
|
|
|
${{z}^{\left( 2 \right)}}={{\Theta }^{\left( 1 \right)}} {{X}^{T}}$,这时 $z^{(2)}$ 是一个 $s_2 \times m$ 维向量。 |
|
|
|
${{z}^{\left( 2 \right)}}={{\Theta }^{\left( 1 \right)}} {{X}^{T}}$,这时 $z^{(2)}$ 是一个 $s_2 \times m$ 维矩阵。 |
|
|
|
|
|
|
|
> $m$: 训练集中的样本实例数量 |
|
|
|
> |
|
|
|
|