Class 2

2.1 全微分 (The Total Derivative)

高维导数概念

对于一个定义域为 $\mathcal{D}$ 的实数函数 $f:\mathcal{D}\to\mathbb{R}$ ,它在定义域的一个内点 (interior point) $a$ 可微 (differentiable),指的是下面这个极限存在 : $$\lim_{h\to0}\frac{f(a+h)-f(a)}{h}$$ 这个极限值就是我们熟知的导数,记为 $f^{\prime}(a)$ 这里的 $h$ 是一个实数(标量),代表着在输入上的微小变化量 。$f$ 被称为标量场 (scalar field),因为它的输出是一个标量(单个实数)。

而当我们进入高维世界 $f:\mathbb{R}^n\to\mathbb{R}^m$ 时,输入的变化量不再是一个标量 $h$ ,而是一个向量 $h\in\mathbb{R}^{n}$ ,而我们不能直接除以一个向量,因此,$\lim_{h\to0}\frac{f(a+h)-f(a)}{h}$ 这种形式是没有意义的。

那么,我们如何将导数的概念推广到向量场 (vector fields)呢?

方法一:方向导数

对于输出的变化量 $f(a^{\prime})-f(a)$ ,这个表达式是有意义的,因为在输出空间 $\mathbb{R}^{m}$ 中,向量的减法是被允许的。

为了解决提到的“不能除以向量”的问题,这里提出了一个很自然的想法:不除以向量 $(a^{\prime}-a)$ 而是除以它的(长度或范数)$||a^{\prime}-a||$ 。

这样,我们就得到了一个看似可行的导数表达式: $$\lim_{a^{\prime}\to a}\frac{1}{||a^{\prime}-a||}(f(a^{\prime})-f(a))$$ 如果这个极限存在,它将是输出空间 $\mathbb{R}^{m}$ 中的一个向量。这个想法是好的,但我们可能需要指定 a′ 趋近于 a 的方式

因为在一维空间中,$a′$ 趋近于 $a$ 只有从左和从右两种方式。但在二维或更高维空间中,$a′$ 可以从无限多个方向、沿着无限多种路径(直线、曲线等)趋近于 $a$。如果对于不同的逼近路径,我们得到的极限值都不同,那么这个极限就没有一个确定的值,也就不能作为一个好的“导数”定义。

为了解决上述问题,我们可以将逼近的路径限定为一条直线

表达式 $a+hv$ 代表了一条穿过点 $a$ 、方向为 $v$ 的直线,其中 $h$ 是一个实数参数 。通过令 $a′=a+hv$ ,当我们让标量 $h→0$ 时,点 $a′$ 就会沿着由向量 $v$ 所确定的唯一方向趋近于 $a$ 。

这样一来,我们就把一个复杂的多路径极限问题,转化成了一个简单的、沿着特定方向的单路径极限问题。所以我们有定义:

对于一个固定的向量 $v\in\mathbb{R}^n$ ,如果以下极限存在: $$\lim_{h\to0}\frac{1}{h}(f(a+hv)-f(a))$$ 那么我们就称函数 $f$ 在 $a$ 点沿向量 $v$ 可微 (differentiable along v)。

当这个极限存在时,它是一个属于输出空间 $\mathbb{R}^{m}$ 的向量,我们把它记为 $f^{\prime}(a;v)$ 。这个公式的计算结果是与向量 $v$ 的大小(模)成正比的,这意味着,如果你把方向向量的长度变成原来的2倍(方向不变),那么计算出的变化率向量的长度也会变成2倍。

我们常常只关心纯粹的“方向”所带来的影响,而不希望这个结果被方向向量本身的长度所“污染”。所以,当向量  是一个单位向量时候,$f^{\prime}(a;v)$ 叫做 $f$ 在 $a$ 点沿  方向的方向导数 (directional derivative)

这个定义要求点 $a$ 必须是定义域的内点 (interior of the domain) ,以保证沿着 $v$ 方向双向移动($h$ 为正或负)一小段距离后,点仍然在定义域内。

方法二:线性映射

方向导数的缺点:它迫使我们一次只能研究函数在一个方向上的变化。如果我们允许点 $a′$ 以任何方式趋近于 $a$ ,情况会怎样呢? 这暗示我们需要一个更普适、不依赖于特定方向的导数定义。

为了找到新的定义,让我们换一个角度来看待最初的单变量导数。

函数 $f$ 在 $a$ 点可微,本质上等同于存在一个数 $c=f^{\prime}(a)$ 使得下面的极限成立: $$\lim_{h\to0}\frac{f(a+h)-f(a)-ch}{h}=0$$

$h↦ch$ (读作 "h映射到ch") 定义了一个从 $\mathbb{R}$ 到 $\mathbb{R}$ 的线性映射 (linear map) $L$ 。

我们不再把导数 $f′(a)$ 看作一个简单的数值(即切线斜率 $c$),而是把它看作一个线性变换(在这里是乘以常数 $c$)。

  • 一个函数在某点的导数,不是一个数或一个向量,而是一个线性映射 (linear map) 。这个线性映射是该函数在这一点附近“最佳的线性近似”。

针对向量场 $f:\mathcal{D}\to\mathbb{R}^m$ 其中定义域 $\mathcal{D}\subset\mathbb{R}^n$ ,函数 $f$ 在一个内点 $a$ 是可微的 (differentiable),其充要条件是:存在一个线性映射 $L:\mathbb{R}^n\to\mathbb{R}^m$ ,使得下面的极限公式成立 : $$\lim_{u\to0}\frac{||f(a+u)-f(a)-L(u)||}{||u||}=0$$

  • $u$ : 代表从 $a$ 点出发的一个无穷小的位移向量,它取代了单变量定义中的标量 $h$。
  • $f(a+u)−f(a)$: 这是当输入产生位移 $u$ 时,函数值的真实变化量(一个在 $\mathbb{R}^m$ 空间中的向量)。
  • $L(u)$: 这是我们猜测的线性映射 $L$ 对位移 $u$ 作用后得到的结果。它代表了我们对真实变化量的线性近似值
  • $∣∣f(a+u)−f(a)−L(u)∣∣$: 这是真实变化量线性近似值之间的误差向量的长度

整个极限的含义是:

近似误差的消失速度要比位移 $u$ 本身的消失速度更快 。这精准地描述了“最佳线性近似”的含义——当 $u$ 足够小时,这个线性近似 $L(u)$ 会变得极其精确。

分子和分母的范数(norm,  $||·||$ )是在不同空间中计算的。分子是在 $\mathbb{R}^m$(输出空间)中,而分母是在 $\mathbb{R}^n$(输入空间)中 。

这个定义本质上是说:只要我们观察的范围足够小( $u$ 足够小),任何一个复杂但“光滑”的函数,其局部行为都像一个线性变换。这个起局部主导作用的线性变换 $L$,就是 $f$ 在 $a$ 点的导数,也叫全微分 (Total Derivative)

  • 我们明确了核心是存在一个线性映射 $L$ ,么一个很自然的问题就是:这样的 $L$ 是不是只有一个?还是可能有很多个?

唯一性证明

先假设有两个不同的线性映射,$L$ 和 $M$,它们都满足上一页给出的可微定义中的极限条件。

证明的目标是想说明  和 $M$ 的差异是0。所以我们从考察它们的差的范数 $||L(u)-M(u)||$ ,推导如下:

$$\frac{||L(u)-M(u)||}{||u||}=\frac{||L(u)-(f(a+u)-f(a))+(f(a+u)-f(a))-M(u)||}{||u||}$$

通过重新组合并利用三角不等式, $$\frac{||L(u)-M(u)||}{||u||}\leq\frac{||L(u)+f(a)-f(a+u)||}{||u||}+\frac{||f(a+u)-f(a)-M(u)||}{||u||}$$ 注意: $$||L(u)+f(a)-f(a+u)||=||-(f(a+u)-f(a)-L(u))||=||f(a+u)-f(a)-L(u)||$$ 因为我们已经假设  和 $M$ 都满足可微的定义,所以当 $u→0$ 时,不等式右边的两项都趋近于 0 。

根据极限的夹逼准则 (Squeeze Theorem),被夹在中间的 $\frac{||L(u)-M(u)||}{||u||}$ 也必须趋近于 0 。既然当 $u$ 以任何方式趋近于0时极限都为0,那么当我们限定 $u$ 沿着某一个固定的方向 $v$ 趋近于0时,极限也必然为0 。

我们令 $u=tv$,其中 $v$ 是一个固定的非零向量,$t$ 是一个趋近于0的标量。代入极限式中,并利用 $L$ 和 $M$ 都是线性映射的性质可以进行如下化简: $$0=\lim_{t\to0}\frac{||L(tv)-M(tv)||}{||tv||}=\lim_{t\to0}\frac{||tL(v)-tM(v)||}{|t|||v||}=\lim_{t\to0}\frac{|t|||L(v)-M(v)||}{|t|||v||}=\frac{||L(v)-M(v)||}{||v||}$$ 我们最终得到了 $\frac{||L(v)-M(v)||}{||v||}=0$ ,因为 $v$ 是一个非零向量,所以只能分子是零,证毕。

答案是这个线性映射 $L$ 一旦存在,就一定是唯一的。这个唯一性 (uniqueness) 非常重要,因为它保证了我们所定义的“导数”是一个明确、无歧义的概念,从而允许我们给它一个正式的名称。

所以,这个满足可微性条件的、独一无二的线性映射 $L$,被正式称为 $f$ 在 $a$ 点的全微分 (the total derivative of f at a) 。

从此以后,我们用 $T_{a}f$ 来表示这个全微分,全微分本身不是一个数或向量,它是一个线性映射

在引入了两种“导数”的定义后,我们思考三个非常自然且重要的问题:

  • (a) 如何找到 $T_{a}f$?
  • (b) 方法一和方法二的定义兼容吗?
  • (c) 我们应该用哪种方法来计算导数?

分而治之(Divide and Conquer)

假设一个向量场 $f$ 的输出是一个 $m$ 维向量,我们可以把这个输出向量的每一个分量看作一个独立的标量场 $f_i$。例如,如果 $f(x,y)=(x^2,xy)$ ,那么分量场就是 $f_1(x,y)=x^2$ ,$f_2(x,y)=xy$。

  • 主要结论 1 (可微的等价性): 向量场 $f$ 在点 $a$ 可微 当且仅当 (if and only if) 它的每一个分量场 $f_i​$ 都在点 $a$ 可微 。 这是一个非常强的结论,意味着我们可以通过考察简单的标量函数来判断复杂向量函数的可微性。
  • 主要结论 2 (如何计算): 更重要的是,引理告诉了我们如何计算全微分的作用结果:$T_a​f(v)$ 这个向量,就是把每个分量场的全微分 $T_a​f_i​$(v) 算出来,然后把这些结果(此时它们是标量或向量)重新组合成一个向量 。 $$T_af(v)=(T_af_1(v),\ldots,T_af_m(v))$$ 那么,对于一个一般化的函数,$f:\mathbb{R}^n\to\mathbb{R}^m$ 它的全微分 $T_a​f$ 是一个线性映射。而任何一个线性映射都可以用一个矩阵来表示。

这个矩阵的第 i 行,实际上就来自于分量场 $f_i$ 的微分信息(也就是 $f_i$​ 的梯度)这正是构建雅可比矩阵的理论基础。

偏导数 (Partial Derivatives)

引入标准基 (Standard Basis):${e_1,\ldots,e_n}$ 是 $n$ 维空间 $\mathbb{R}^{n}$ 的标准基。沿着这些标准基向量(单位向量)的方向导数具有特殊的重要性。

$f$ 在 $a$ 点的第 $j$ 个偏导数 (j-th partial derivative),其定义就是 $f$ 在 $a$ 点沿着第 $j$ 个标准基向量 $e_j$ 的方向导数,即 $f^{\prime}(a;e_j)$。

我们给出了两种常见的符号来表示偏导数 :

  1. $\frac{\partial f}{\partial x_j}(a)$
  2. $D_{j}f(a)$

偏导数 $\frac{\partial f}{\partial x_j}(a)$ 的核心思想是“控制变量”,当计算对 $x_j$ 的偏导数时,我们将所有其他变量 $x_1,\ldots,x_{j-1},x_{j+1},\ldots,x_n$ 都看作是常数,然后只对 $x_j​$ 这一个变量使用我们熟悉的单变量求导法则进行求导。

梯度 (Gradient) 和 雅可比矩阵 (Jacobian Matrix)

  • 梯度: 是为标量场(多维输入,一维输出)定义的,它是一个向量
  • 雅可比矩阵: 是为向量场(多维输入,多维输出)定义的,它是一个矩阵

梯度 (Gradient)

  • 适用对象: 梯度是针对标量场 $g$ 定义的,即函数的输出是一个标量(单个实数),例如 $g:\mathbb{R}^n\to\mathbb{R}$ 。
  • 定义: 假设函数 $g$ 在内点 $a$ 的所有偏导数都存在,那么 $g$ 在 $a$ 点的梯度,记为 $\nabla g(a)$ 或 $grad\mathrm{~}g(a)$ ,就是由所有这些偏导数按顺序排列组成的一个向量 。 $$\nabla g(a)=\left(\frac{\partial g}{\partial x_1}(a),\ldots,\frac{\partial g}{\partial x_n}(a)\right)$$

雅可比矩阵 (Jacobian Matrix)

  • 适用对象: 雅可比矩阵是针对向量场 $f$ 定义的,即函数的输出是一个 $m$ 维向量,例如 $f:\mathbb{R}^n\to\mathbb{R}^m$ 。
  • 定义: $f$ 在 $a$ 点的雅可比矩阵,记为 $Df(a)$,是一个 $m×n$ 的矩阵 。这个矩阵的第 $i$ 行、第 $j$ 列的元素是第 $i$ 个分量函数 $f_i$​ 对第 $j$ 个输入变量 $x_j​$ 的偏导数,即 $\frac{\partial f_i}{\partial x_j}(a)$。

换一种看法,这个矩阵的每一行,就是对应分量函数 $f_i​$ 的梯度向量 $\nabla f_{i}(a)$ 。 $$Df(a)=\begin{bmatrix}\nabla f_1(a)\\vdots\\nabla f_m(a)\end{bmatrix}$$ 雅可比矩阵 $Df(a)$ 就是我们之前反复讨论的抽象的全微分线性映射$T_a​f$ 在标准基下的矩阵表示。有了雅可比矩阵,计算 $T_a​f(v)$ 就变成了简单的矩阵与向量的乘法:$Df(a)\cdot\mathbf{v}$

雅可比矩阵描述了一个向量函数在某一点附近的局部线性行为。它可以被看作是高维版本的“导数”,不仅包含了函数在各个方向上拉伸或压缩的信息(像普通导数),还包含了旋转剪切的信息。它描述了输入空间的一个小区域是如何被函数 $f$ 扭曲成输出空间的一个区域的。

主定理 (The Main Theorem)

(a) 方法一与方法二的兼容性

定理内容: 如果一个函数 $f$ 在 $a$ 点是可微的(即存在全微分 $T_a​f$),那么对于任何方向向量 $v$ ,$T_a​f$ 作用于 $v$ 的结果,就等于 $f$ 沿 $v$ 方向的方向导数 。 $$T_af(v)=f^{\prime}(a;v)$$ 并且,由于 $T_a​f$ 本身是线性的,方向导数也因此继承了这个线性性质 。

(b) 全微分的计算方法

定理内容: 假设 $f$ 可微,那么全微分 $T_a​f$ 这个抽象的线性映射,它在标准基下的矩阵表示,就是用偏导数构建的雅可比矩阵 $Df(a)$

雅可比矩阵就是全微分的实体化身,我们的标准流程就是:通过计算各个偏导数来构建雅可比矩阵 $Df(a)$,这个矩阵就代表了全微分 $T_a​f$。计算 $T_a​f(v)$ 就等价于进行矩阵-向量乘法 $Df(a)\cdot v$ 。

(c) 可微与连续的关系

定理内容: 如果一个函数在 $a$ 点可微,那么它在该点必定是连续的 。

直观上理解,一个函数在某点如果足够“平滑”,可以被一个平面(线性映射)很好地近似(可微),那么它在这点必然不能有断裂或跳跃(连续)。

可微是一个比连续更强的条件。反过来不成立,连续不一定可微。

(d) 判断函数是否可微的实用方法

定理内容: 这是一个非常实用的判别法则。如果函数 $f$ 的所有偏导数不仅在 $a$ 点存在,而且在 $a$ 点的一个邻域内都存在,并且这些偏导函数在 $a$ 点本身是连续的,那么我们就可以保证 $f$ 在 $a$ 点是可微的(即 $T_a​f$ 存在) 。

  • 全微分的原始定义(那个极限为0的式子)在实际中很难直接用来验证一个函数是否可微。
  • 这条性质给了我们一个充分条件,一个简单得多的“三步验证法”:
    1. 计算出函数的所有偏导数。
    2. 将这些偏导数看作新的函数,判断它们在目标点 $a$ 是否连续。
    3. 如果都连续,那么原函数 $f$ 在 $a$ 点就一定是可微的。
  • 对于我们日常遇到的大多数由初等函数构成的函数来说,这个方法基本都适用。
  • 注意: 仅仅是偏导数存在,并不能保证函数可微。偏导数的连续性才是关键。

(e) 链式法则 (Chain Rule)

适用情景: 考虑一个函数的复合,即 $h=g∘f$ 。这意味着我们先对输入

$a$ 应用函数 $f$ 得到结果 $b$,再对 $b$ 应用函数 $g$ 得到最终结果 。整个过程可以表示为: $$\mathbb{R}^n\xrightarrow{f}\mathbb{R}^m\xrightarrow{g}\mathbb{R}^l$$

  • 定理内容 (抽象形式): 如果 $f$ 在 $a$ 点可微,$g$ 在 $b=f(a)$ 点可微,那么复合函数 $h$ 在 $a$ 点也一定可微 。并且,$h$ 的全微分是 $g$ 和 $f$ 全微分的复合 : $$T_ah=T_bg\circ T_af$$ 这里的 $∘$ 代表线性映射的复合,顺序很重要:先作用内部函数 $f$ 的微分,再作用外部函数 $g$ 的微分。
  • 定理内容 (矩阵形式): 这是链式法则在计算中最常用的形式。线性映射的复合对应于它们雅可比矩阵的乘法 。 $$Dh(a)=Dg(b)Df(a)$$ 其中 $b=f(a)$ 。$Df(a)$ 是一个 $m×n$ 矩阵,$Dg(b)$ 是一个 $l×m$ 矩阵。它们的乘积 $Dg(b)Df(a)$ 是一个 $(l×m)×(m×n)=l×n$ 的矩阵。

(f) 标量场的运算法则

  • 适用情景: 这部分内容限定在输出为标量(m=1)的标量场中 。
  • 定理内容: 它给出了我们非常熟悉的加、乘、除法则在高维的推广。
  • (i) 加法法则: $T_a​(f+g)=T_a​f+T_a​g$
  • (ii) 乘法法则: $T_a​(fg)=f(a)T_a​g+g(a)T_a​f$
  • (iii) 除法法则: $:T_a(\frac{f}{g})=\frac{g(a)T_af-f(a)T_ag}{g(a)^2}$

用梯度表示: 因为这里是标量场,它们的“全微分”就是梯度。所以乘法法则也可以写成梯度的形式: $$\nabla(fg)(a)=g(a)\nabla f(a)+f(a)\nabla g(a)$$

偏导数链式法则的导出

雅可比矩阵乘法法则($Dh=Dg⋅Df$),可以直接展开成我们在初等多元微积分课程中学到的、具体的偏导数链式法则公式。

我们有一个最终的标量输出 $h$,它依赖于变量 $r$ 和 $s$ ,但这种依赖关系是间接的:$h$ 首先被看作是中间变量 $x$ 和 $y$ 的函数,即 $h(r,s)=g(x,y)$ 。

而这些中间变量 $x$ 和 $y$ 又各自是 $r$ 和 $s$ 的函数,即 $(x,y)=f(r,s)$。

这是一个典型的函数复合:$h=g∘f$,其映射关系为 $\mathbb{R}^2\xrightarrow{f}\mathbb{R}^2\xrightarrow{g}\mathbb{R}^1$ 我们的目标是计算最终输出 $h$ 相对于最初输入 $r$ 和 $s$ 的变化率,即 $\frac{\partial h}{\partial r}$ 和 $\frac{\partial h}{\partial s}$ 。

根据链式法则,我们有 $Dh(r,s)=Dg(x,y)⋅Df(r,s)$ 。

因此有: $$\underbrace{\left(\frac{\partial h}{\partial r}\quad\frac{\partial h}{\partial s}\right)}{Dh(r,s)}=\underbrace{\left(\frac{\partial g}{\partial x}\quad\frac{\partial g}{\partial y}\right)}{Dg(x,y)}\underbrace{\left(\frac{\partial x}{\partial r}\quad\frac{\partial x}{\partial s}\right)}_{Df(r,s)}$$ 结果矩阵的第一个元素: 由 $Dg$ 的第一行乘以 $Df$ 的第一列得到: $$\frac{\partial h}{\partial r}=\frac{\partial g}{\partial x}\frac{\partial x}{\partial r}+\frac{\partial g}{\partial y}\frac{\partial y}{\partial r}$$ 结果矩阵的第二个元素: 由 Dg 的第一行乘以 Df 的第二列得到: $$\frac{\partial h}{\partial s}=\frac{\partial g}{\partial x}\frac{\partial x}{\partial s}+\frac{\partial g}{\partial y}\frac{\partial y}{\partial s}$$

主定理推论

用梯度计算方向导数

推论内容: 对于一个可微的标量场 $g$,它在 $b$ 点沿任意向量 $v$ 的方向导数 $g^{\prime}(b;v)$ ,等于 $g$ 在 $b$ 点的梯度 $\nabla g(b)$ 与向量 $v$ 的点积。 $$\nabla g(b)\cdot v=g^{\prime}(b;v)$$ 点积的公式是 $\nabla g(b)\cdot v=||\nabla g(b)||\cdot||v||\cos\theta$ 。这个公式表明,方向导数的值取决于方向 $v$ 和梯度方向 $∇g(b)$ 之间的夹角 $θ$。当 $v$ 与梯度同向时,方向导数取得最大值。这说明了梯度指向函数增长最快的方向

沿曲线的链式法则

我们有一个函数 $α$,它是一个从 $\mathbb{R}$ 到 $\mathbb{R}^n$ 的映射。你可以把它想象成一个点在 $n$ 维空间中运动的轨迹,输入是时间 $a$ ,输出是空间位置 $b$ 。

我们还有一个标量场 $g$ ,比如是空间中每一点的温度或者气压 。复合函数 $h=g∘α$ 就代表了这个运动的点在不同时刻感受到的温度/气压值 。$h$ 是一个从 $\mathbb{R}$ 到 $\mathbb{R}$ 的普通单变量函数。

推论内容: $h$ 在 $a$ 点的导数 $h′(a)$(即温度/气压的变化率),等于 $g$ 在该点 $b=α(a)$ 的梯度,与运动轨迹在该点的速度向量 $α′(a)$ 的点积 。 $$h^\prime(a)=\nabla g(b)\cdot\alpha^\prime(a)$$

物理意义: 一个运动的物体所感受到的某个物理量(如温度)的变化率,取决于两个因素:一是这个物理量在空间中本身的变化情况(由梯度 $∇g$ 描述),二是物体自身的运动速度和方向(由速度向量 $α′$ 描述)。

混合偏导数 (Mixed Partial Derivatives)

对一个标量场 $f$ 进行二次求导,指的是先对 $f$ 求一次偏导,得到一个新函数,然后再对这个新函数求一次偏导 。

$\frac{\partial^2f}{\partial x_j\partial x_k}(a)$ 含义是先对变量 $x_k$​ 求偏导,再对变量 $x_j$​ 求偏导。

注意: 这个符号的运算顺序是从右向左看的。另一种常见符号是 $f{x_k​x_j​​}$,它的运算顺序是从左向右。

如果两次求导的变量不同(即 $j \neq k$),那么这个二阶导数就被称为混合偏导数 (mixed partial derivative) 。

克莱罗定理 (Clairaut's Theorem)

在满足特定条件时,求混合偏导数的次序可以交换,结果是相同的。 $$\frac{\partial^2f}{\partial x_j\partial x_k}(a)=\frac{\partial^2f}{\partial x_k\partial x_j}(a)$$ 这个结论要求两个混合偏导数 $\frac{\partial^2f}{\partial x_j\partial x_k}$ 和 $\frac{\partial^2f}{\partial x_k\partial x_j}$ 都必须在点 $a$ 的一个邻域内存在,并且这两个导函数在 $a$ 点本身是连续的 。

二阶偏导数是构建海森矩阵的基础。对于一个标量场 $f:\mathbb{R}^n\to\mathbb{R}$ 它的海森矩阵是一个 $n×n$ 的方阵,其中第 $i$ 行第 $j$ 列的元素就是二阶偏导 $\frac{\partial^2f}{\partial x_i\partial x_j}$ 。

克莱罗定理保证了只要二阶偏导连续,海森矩阵就是一个对称矩阵