1 Linear Model的局限性

对于线性模型y = b + wx_1，模型训练的过程可以不断更新b和w，但是不论如何变化，该模型始终是一条直线：

对于训练数据，也许数据满足的是红线的模型。如果是这样，无论我们训练出多么好的线性模型y = b + wx_1，模型的预测能力与真实情况仍存在较大差距。

于是我们得出结论：

线性模型存在严重的局限性，称为模型偏差（Model Bias）。

2 探索更复杂的模型

2.1 分段线性曲线（Piecewise Linear Curves）

如果最佳模型曲线如下图中红线所示：

我们该如果写出该模型的的函数呢？首先明确一点，红线 = 常量 + 一系列的蓝线之和。这里的蓝线是一个 “常量-斜线-常量“ 的分段函数。可能不太好理解，接下来做一下解释。

0. 首先是第0条蓝线，表示红线的常量。

2.1.1 增加第1条蓝线，用于表示红线的第1段。蓝线有以下特征：

当x_1 < 0时恒为常数；

当0 \le x_1 < 红线第一个拐点时，斜率与红线相同；

当x_1 \ge 红线第一个拐点时恒为常数。

此时，第0条蓝线 + 第1条蓝线，就能表示出红线的第一段。

2.1.2 增加第2条蓝线，用于表示红线的第2段。

此时，第0条蓝线 + 第1条蓝线 + 第2条蓝线，就能表示出红线的前两段。

2.1.3 增加第3条蓝线，用于表示红线的第3段。

此时，第0条蓝线 + 第1条蓝线 + 第2条蓝线 + 第3条蓝线，就能表示出红线。

由上述过程我们很容易推导出：

任意分段线性曲线 = constant + 一系列的蓝线之和。

到这里还不够，因为我们经常见到的是平滑的曲线，而不是分段线性曲线，怎么办呢？

对于平滑的曲线，可以在曲线上取很多点连接起来，这样就形成了分段线性曲线。只要取的点足够多，就可以使用分段线性曲线来逼近平滑的曲线。

2.2 Sigmoid Function

上一小节中，多次使用“蓝线”，我们如何用函数去表示它呢？

我们先用Sigmoid函数来近似这个分段函数。（这里不用纠结为什么使用Sigmoid函数）。我们称原来的“蓝线”为 Hard Sigmoid。

Sigmoid Function，由于其形状像“S”而得名，可以称之为“S函数”。其函数表达式为：

y = c \frac{1}{1+e^{-(b+wx_1)}} =c \space sigmoid(b+wx_1)

w改变坡度，b改变左右位移，c改变高度：

2.3 更换模型

我们已经用sigmoid函数表示了“蓝线”，接下来就可以写出“红线”的函数了。红线 = 常量 + 一系列的蓝线之和。

y = b + \sum_i {c_i \space sigmoid(b_i+w_ix_1)}

将线性模型y = b + wx_1可以更换成：

y = b + \sum_i {c_i \space sigmoid(b_i+w_ix_1)}

其中i表示第几个sigmoid函数。

将线性模型y = b + \sum_j w_jx_j可以更换成：

y = b + \sum_i {c_i \space sigmoid(b_i + \sum_j w_{ij}x_j)}

其中i表示第几个sigmoid函数，j表示第几个feature（即后一天的数据与前多个天的数据相关）。

3 写出带有未知参数的Function

实际上我们已经写出了这个Function，就是：

y = b + \sum_i {c_i \space sigmoid(b_i + \sum_j w_{ij}x_j)}

这个模型表达式完全OK，就是有点太“算术”了，不够“矩阵”。接下来将以该模型为例，引入矩阵和向量的概念，将模型表达式转换成更抽象但是易于理解和表达的样子。

我们的例子中，考虑i的取值为1、2、3，表示有三个sigmoid函数；j的取值为1、2、3，表示只考虑前三天的数据对后一天数据的影响。这里的i和j的最大值，是可以人为指定的，是超参数。

3.1 sigmoid()函数的参数

3.1.1 我们先探究sigmoid()函数的参数：

b_i + \sum_j w_{ij}x_j

下图中，黑色圈圈1、2、3表示i的取值；黄色方块x_1, x_2, x_3表示feature，即前三天的真实数据；黑色连线表示feature要乘以权重w。对于每一个i，都要计算出一个值，记作r_i，即r_1, r_2, r_3，r_i即是sigmoid()函数的参数。

接下来用神奇的转换时刻。将算术式转换成矩阵，再转换成向量。这三种表示方法本质上是一样的，只是写出来的表现形式不同。注意，通常使用加粗的字母表示向量，比如\boldsymbol r。

使用向量的形式表示为：

\boldsymbol r = \boldsymbol b + \boldsymbol W \boldsymbol x

3.1.2 将参数带入sigmoid函数

即将r_i带入sigmoid函数得到a_i。多个a_i可以写成向量\boldsymbol a，即：

\boldsymbol a = \sigma (\boldsymbol r)

3.1.3 写出模型完整的函数

上图中的表达式y = b + \boldsymbol {c^T} \boldsymbol a，其中\boldsymbol c是\begin{bmatrix} c_1 \\ c_2 \\ c_3 \end{bmatrix} ，\boldsymbol {c^T}是\boldsymbol c的转置，即\begin{bmatrix} c_1 & c_2 & c_3 \end{bmatrix}。最终我们得到模型完整的函数为：

y = b + \boldsymbol {c^T} \sigma(\boldsymbol b + \boldsymbol W \boldsymbol x)

3.1.4 未知参数

向量\boldsymbol x是feature，是已知的数据；向量\boldsymbol W, \boldsymbol b, \boldsymbol c^T和标量b是未知参数。将未知参数连接起来（就是直接从上到下一字排开），用向量\boldsymbol \theta表示，\theta_1, \theta_2, \theta_3 ...是向量\boldsymbol \theta中的一个个元素。

4 定义损失函数（Loss Function）

损失函数是对未知参数的函数，上一小节中我们将所有的未知参数连接在一起形成了向量\boldsymbol \theta，所以此时损失函数是对\boldsymbol \theta的函数L(\boldsymbol \theta)。
损失是用来评估某组未知参数的好坏。

label：真实值，即这里的\^{y}；e是y和\^{y}的差值的绝对值。最终的损失函数Loss为：

L = \frac{1}{N}\sum_n{e_n}

5 优化（Optimization）

优化是为了找出使损失最小的参数：

\boldsymbol \theta^* = arg \min_{\theta}L

1 随机选取一个初始的值\boldsymbol \theta^0；

2 计算梯度（gradient）\boldsymbol g = \bigtriangledown L(\boldsymbol \theta^0)；

3 更新参数：\boldsymbol \theta^1 \leftarrow \boldsymbol \theta^0 - \eta\ \boldsymbol g；

4 继续计算梯度（gradient）：\boldsymbol g = \bigtriangledown L(\boldsymbol \theta^1)，：\boldsymbol \theta^2 \leftarrow \boldsymbol \theta^1 - \eta\ \boldsymbol g；直到\boldsymbol g = 0或者达到了指定的最大更新次数。

以上是原理，接下来介绍实际情况下是如何使用梯度下降的。

对于给定的N条数据，将其随机均等分成多个块，每一块称为batch（B）。上文我们讲解梯度下降操作时，每一次计算梯度，都使用全部的N条数据。而实际上应该是，

使用第1个batch的数据计算第1个梯度g = \bigtriangledown L(\boldsymbol \theta^1)，并更新参数\boldsymbol \theta^1 \leftarrow \boldsymbol \theta^0 - \eta\ \boldsymbol g；
使用第2个batch的数据计算第2个梯度g = \bigtriangledown L(\boldsymbol \theta^2)，并更新参数\boldsymbol \theta^2 \leftarrow \boldsymbol \theta^1 - \eta\ \boldsymbol g；
以此类推。