| @@ -4,9 +4,9 @@ | |||||
| ## 8.1 非线性假设(Non-linear Hypotheses) | ## 8.1 非线性假设(Non-linear Hypotheses) | ||||
| 理论上我们可以用多项式函数去近似任意函数,从而可得到任意问题的拟合曲线,即泰勒极数(Taylor series)。 | |||||
| 理论上我们可以用多项式函数去近似任意函数(泰勒极数(Taylor series)),从而可得到任意问题的拟合曲线,。 | |||||
| 在实际处理时,特征量通常会很多,如果再构造高阶多项式等,特征数量将会急剧增加,这使得线性模型的复杂度太高,可见并不合适。神经网络无需构造高阶多项式,在特征量很大时也可以处理的很好。 | |||||
| 在实际处理时,特征量通常会很多,如果再构造高阶多项式等,特征数量将会急剧增加,这使得回归模型的复杂度太高,可见并不合适。神经网络无需构造高阶多项式,在特征量很大时也可以处理的很好。 | |||||
| 那特征能有多大呢?下面是一个计算机视觉中的例子: | 那特征能有多大呢?下面是一个计算机视觉中的例子: | ||||
| @@ -96,7 +96,7 @@ $h_\Theta(x) = a_1^{(3)} = g(\Theta_{10}^{(2)}a_0^{(2)} + \Theta_{11}^{(2)}a_1^{ | |||||
| 再回顾一下逻辑回归: | 再回顾一下逻辑回归: | ||||
| ${h_\theta}\left( x \right)=g\left( {\theta_0}+{\theta_1}{x_1}+{\theta_{2}}{x_{2}}+{\theta_{3}}x_{1}^{2} \right)$ | |||||
| ${h_\theta}\left( x \right)=g\left( {\theta_0}+{\theta_1}{x_1}+{\theta_{2}}{x_{2}}+{\theta_{3}}x_3 \right)$ | |||||
| 是不是除了符号表示,其他都完全一样?其实神经网络就好似回归模型,只不过输入变成了中间单元 $a_1^{(j)}, a_2^{(j)}, \dots, a_n^{(j)}$。从输入 $x$ 开始,下一层的每个激活单元都包含了上一层的所有信息(单元值),通过最优化算法不断迭代计算,激活单元能得出关于输入 $x$ 的更多信息,这就好像是在给假设函数加多项式。中间层的这些单元好似升级版的初始特征,从而能给出更好的预测。 | 是不是除了符号表示,其他都完全一样?其实神经网络就好似回归模型,只不过输入变成了中间单元 $a_1^{(j)}, a_2^{(j)}, \dots, a_n^{(j)}$。从输入 $x$ 开始,下一层的每个激活单元都包含了上一层的所有信息(单元值),通过最优化算法不断迭代计算,激活单元能得出关于输入 $x$ 的更多信息,这就好像是在给假设函数加多项式。中间层的这些单元好似升级版的初始特征,从而能给出更好的预测。 | ||||
| @@ -122,7 +122,7 @@ $\begin{align*}a_1^{(2)} = g(z_1^{(2)}) \newline a_2^{(2)} = g(z_2^{(2)}) \newli | |||||
| 扩展到所有样本实例: | 扩展到所有样本实例: | ||||
| ${{z}^{\left( 2 \right)}}={{\Theta }^{\left( 1 \right)}} {{X}^{T}}$,这时 $z^{(2)}$ 是一个 $s_2 \times m$ 维向量。 | |||||
| ${{z}^{\left( 2 \right)}}={{\Theta }^{\left( 1 \right)}} {{X}^{T}}$,这时 $z^{(2)}$ 是一个 $s_2 \times m$ 维矩阵。 | |||||
| > $m$: 训练集中的样本实例数量 | > $m$: 训练集中的样本实例数量 | ||||
| > | > | ||||