再生核 Hilbert 空间


LAMDA-1 博士生讨论班

2018 年 7 月 3 日


谨以此片致敬人类前进的指路明灯 — 希老

一个虔诚的希粉

开宗明义


问题:

  • 什么是空间 ? 各种数学空间是什么关系 ? Hilbert 空间处于什么位置 ?
  • 什么是再生核 ? 什么是再生核 Hilbert 空间 ?
  • 再生核 Hilbert 空间相较一般的 Hilbert 空间有何优良性质 ?


如果你对这些问题了如指掌兴致索然,请直接右上角,不要浪费生命

参考书目


通关地图


\begin{align*} \enclose{box}{\cdots}: 隐藏关~可跳过 \\ \begin{matrix} & & 向量空间 \\ & \nearrow & & \searrow \\ \color{gold}{空间} & & & & 赋范空间 & \rightarrow & 内积空间 \\ \downarrow & & & \nearrow & \downarrow & & \downarrow \\ 拓扑空间 & \rightarrow & 度量空间 & & \mathrm{Banach}空间 & & \mathrm{Hilbert}空间 \\ \downarrow & & \downarrow & & & & \downarrow \\ \enclose{box}{T_2空间等} & & 完备度量空间 & & & & \mathrm{RKHS} \\ \end{matrix} \end{align*}

空间


空间 = 集合 + 结构

  • 集合: 把需要研究元素放到一起
  • 结构: 描述元素必须遵循的规则

集合中的元素具体长啥样没有要求,实数、向量、矩阵、多项式、算子、函数皆可; 规则通过公理定义,元素只需满足这些规则即可

空间相当于模板,直接研究它的性质就可知道衍生自该模板的空间的共同性质,碰到新空间只需确认它属于哪个已知的模板

这样抽象地处理问题,更容易把握住事物的核心部分,从而避免被非本质的细节干扰,看问题更清晰更深入

通关地图


\begin{align*} \enclose{box}{\cdots}: 隐藏关~可跳过 \\ \begin{matrix} & & \color{gold}{向量空间} \\ & \color{gold}{\nearrow} & & \searrow \\ \color{gold}{空间} & & & & 赋范空间 & \rightarrow & 内积空间 \\ \downarrow & & & \nearrow & \downarrow & & \downarrow \\ 拓扑空间 & \rightarrow & 度量空间 & & \mathrm{Banach}空间 & & \mathrm{Hilbert}空间 \\ \downarrow & & \downarrow & & & & \downarrow \\ \enclose{box}{T_2空间等} & & 完备度量空间 & & & & \mathrm{RKHS} \\ \end{matrix} \end{align*}

向量空间


8条公理定义代数结构:

  • 加法: 前4条公理(交换、结合、有幺、有逆),构成 Abel 群
  • 数乘: 后4条公理(结合、有幺、两个分配)

给定向量空间$X$中的一组向量,若没有向量可用有限个其他向量的线性表出,则称它们线性无关

之所以是有限个,是因为根据公理我们只能求有限项加和,无限项加和意味着要求极限,这需要空间有足够好的拓扑结构来定义收敛,在只有代数结构的纯向量空间是办不到的

向量空间$X$的维度是其中线性无关向量组$\{ \ev_{i \in I} \}$元素个数的最大值,可以为无穷,这样的线性无关向量组$\{ \ev_{i \in I} \}$称为$X$的 Hamel 基,有$\span(\{ \ev_{i \in I} \}) = X$

$\span$表示有限线性组合; 向量空间的 Hamel 基又叫代数基,它只依赖代数结构,其个数要么有限要么不可数,参考$n$元实数序列空间一般实数序列空间

向量空间中可以对元素进行加减$\xv \pm \yv$、拉伸$2 \xv$、收缩$\yv / 3$,但无法弄清元素间的位置关系,任给三个点$\xv, \yv, \zv$,是$\xv$和$\zv$靠的近,还是$\yv$和$\zv$靠的近 ?


\begin{align*} \enclose{box}{\cdots}: 隐藏关~可跳过 \\ \begin{matrix} & & \color{gold}{向量空间} \\ & \color{gold}{\nearrow} & & \searrow \\ \color{gold}{空间} & & & & 赋范空间 & \rightarrow & 内积空间 \\ \color{gold}{\downarrow} & & & \nearrow & \downarrow & & \downarrow \\ \color{gold}{拓扑空间} & \rightarrow & 度量空间 & & \mathrm{Banach}空间 & & \mathrm{Hilbert}空间 \\ \downarrow & & \downarrow & & & & \downarrow \\ \enclose{box}{T_2空间等} & & 完备度量空间 & & & & \mathrm{RKHS} \\ \end{matrix} \end{align*}

拓扑空间


3条公理定义拓扑结构: 通过一个开集族刻画元素间的远近亲疏

  • 空集全集属于开集族
  • 任意(有限或无限)个开集的属于这个开集族
  • 任意(有限)个开集的属于这个开集族

除了开集族,也可以通过闭集族来公理化,由 De Morgan 律知

  • 空集全集属于闭集族(空集和全集都是既开且闭的)
  • 任意(有限或无限)个闭集的属于这个闭集族
  • 任意(有限)个闭集的属于这个闭集族(无限个闭集的并还是闭集吗 ?)

Hausdorff 还给出了基于邻域族的公理化,这三套公理化是等价的,只是开集族的定义更简洁,引出的后续处理更方便,所以教材上基本都是用它,后面若非需要对它们不作区分

举个栗子,$X = \{ p, l, t, s \}$,其上拓扑$\tau$为 \begin{align*} \{~\emptyset,~\underbrace{\{ p \}}_{个人},~\underbrace{\{ p, l \}}_{提携},~\underbrace{\{ p, l, t \}}_{同事},~\underbrace{\{ p, l, t, s \}}_{同行}~\} \end{align*}

不难看出

  • $p$有4个邻域,并在集合包含关系上构成链,和所有人的亲疏都可区分
  • $p$属于所有人的邻域,处于核心位置; 相反$s$则和大家最疏远
  • 如果把自己属于别人邻域的次数看作核心程度,那么$p \gt l \gt t \gt s$


如果拓扑空间上只能玩出这点花样,那也太 low 了,事实上有了开集族就可以定义空间紧致映射连续序列收敛

其中紧性是最直接的,它本来就是通过开集的覆盖来定义的,因此可以直接搬过来: 如果$X$的任意开覆盖都有有限子覆盖,那么它是紧的

紧性是将无限转化为有限的最直接手段,但这个讲义后面用不到它,所以就不展开了; 上面的$(X, \tau)$就是紧的,事实上有限拓扑总是紧的

设映射$T: (X, \tau_1) \mapsto (Y, \tau_2)$且$T(x_0) = y_0$,若对于包含$y_0$的任意邻域$V$,都有包含$x_0$的邻域$U$使得$T(U) \subseteq V$,则$T$在$x_0$处连续,若$T$在$X$上处处连续,则$T$是连续映射

任意映射$T$在如下两种情况下都是连续的

  • 单身公寓: $X$上的拓扑是一个离散拓扑,即幂集,包含了全部单点集
  • 集体宿舍: $Y$上的拓扑是一个平凡拓扑,即只有空集和全集


序列$( x_n ) \subseteq X$,若对包含$x$的任意邻域$U$,都存在$n_0 \in \Nbb$使得对$\forall n \geq n_0$有$x_n \in U$,则称序列$( x_n )$收敛于$x$

设$(X, \tau) = \{~\emptyset,~\{ p \},~\{ p, l \},~\{ p, l, t \},~\{ p, l, t, s \}~\}$,则

  • 任何序列若想收敛于$p$,则必须从某项开始之后所有元素都是$p$
  • 任何序列都收敛于$s$,即便这个序列中一个$s$都没有
  • 若从某项开始后不含元素$s$,则该序列也收敛于$t$,注意序列中不一定要有$t$
  • 拓扑空间中的序列极限可能不唯一

通关地图


\begin{align*} \color{gold}{\enclose{box}{\cdots}: 隐藏关~可跳过} \\ \begin{matrix} & & \color{gold}{向量空间} \\ & \color{gold}{\nearrow} & & \searrow \\ \color{gold}{空间} & & & & 赋范空间 & \rightarrow & 内积空间 \\ \color{gold}{\downarrow} & & & \nearrow & \downarrow & & \downarrow \\ \color{gold}{拓扑空间} & \rightarrow & 度量空间 & & \mathrm{Banach}空间 & & \mathrm{Hilbert}空间 \\ \color{gold}{\downarrow} & & \downarrow & & & & \downarrow \\ \color{gold}{\enclose{box}{T_2空间等}} & & 完备度量空间 & & & & \mathrm{RKHS} \\ \end{matrix} \end{align*}

拓扑空间的分类


  • $T_0$空间,Kolmogorov 空间,对任意两个不同的点,其中一个点有一个邻域只包含自己不包含对方,又称拓扑可区分
  • $T_1$空间,Fréchet 空间,对任意两个不同的点,每个点都有一个邻域只包含自己不包含对方,又称可分离
  • $T_2$空间,Hausdorff 空间,对任意两个不同的点,每个点各有一个邻域,这两个邻域不相交,又称邻域可分离

$(X, \tau) = \{~\emptyset,~\{ p \},~\{ p, l \},~\{ p, l, t \},~\{ p, l, t, s \}~\}$属于$T_0$

$T_2$空间上的收敛序列的极限唯一,但倒过来不成立

装备余可数拓扑$\tau_{cc} = \{ \emptyset \} \cup \{ U \subseteq X \mid U^c \mathrm{可数} \}$的$\Rbb$属于$T_1$,若属于$T_2$则存在可数集$U_a$和$U_b$,使得$U_a^c$和$U_b^c$不相交,故$U_b^c(不可数) \subseteq U_a (可数)$; 其上收敛序列的极限唯一,考虑$U_a = \Rbb - \{ x_i \mid x_i \neq a \}$和$U_b = \Rbb - \{ x_i \mid x_i \neq b \}$

若$x$的所有邻域中,存在可数个邻域$U_1, U_2, \ldots$使得$x$的任意邻域都包含某个$U_i$,则称其为$x$处的基,若任意点处的基都可数,则空间第一可数; 若存在全局的可数个$U_1, U_2, \ldots$使得空间中的任意邻域都包含某个$U_i$,则空间第二可数

这两个概念是将不可数转化为可数的直接手段,极限唯一 + 第一可数 = Hausdorff

  1. 对任意两个不同的点$a$和$b$,设$a$处的基为邻域序列$U_1^{(a)}, U_2^{(a)}, \ldots$,$b$处的基为邻域序列$U_1^{(b)}, U_2^{(b)}, \ldots$,定义邻域序列 \begin{align*} V_i^{(a)} = U_1^{(a)} \cap \cdots \cap U_i^{(a)},~V_i^{(b)} = U_1^{(b)} \cap \cdots \cap U_i^{(b)}\end{align*} 因为是有限交,所以$(V_i^{(a)})$和$(V_i^{(b)})$分别是$a$和$b$的邻域序列,且逐渐缩小
  2. 若存在某个$j \in \Nbb$满足$V_j^{(a)} \cap V_j^{(b)} = \emptyset$,则我们就找到了一对不相交的邻域,从而是 Hausdorff 空间; 设不存在这样的$j$,则有$x_j \in V_j^{(a)} \cap V_j^{(b)}$,考虑序列$(x_j)$的极限
  3. 对于$a$的任意邻域$U$,都有某个$x_j \in V_j^{(a)} \subseteq U_j^{(a)} \subseteq U$,由$(V_i^{(a)})$的收缩性知序列$(x_j)$第$j$项后的部分都属于$U$,从而$a$是序列$(x_j)$的极限,同理可证$b$也是序列$(x_j)$的极限

基于 Hausdorff 空间的各种魔改:

  • $T_{2½}$空间,Urysohn 空间,对任意两个不同的点,每个点各有一个闭邻域,这两个闭邻域不相交,又称闭邻域可分离
  • 完全$T_2$空间,完全 Hausdorff 空间,对任意两个不同的点$x$和$y$,存在连续函数$f: X \mapsto \Rbb$使得$f(x) = 0$且$f(y) = 1$,又称函数可分离
  • $T_3$空间,正则 Hausdorff 空间,正则指任意闭集和闭集外的任意点邻域可分离
  • $T_{3½}$空间,Tychonoff 空间,任意闭集和闭集外的任意点函数可分离
  • $T_4$空间,正规 Hausdorff 空间,正规指任意两个闭集邻域可分离
  • $T_5$空间,完全正规 Hausdorff 空间,完全正规指每个子空间都是正规的,等价于每对可分离的集合邻域可分离,又称完全$T_4$
  • $T_6$空间,完美正规 Hausdorff 空间,完美正规指存在连续函数$f: X \mapsto \Rbb$使得$f^{-1}(0)$和$f^{-1}(1)$是不相交的闭集,又称完美$T_4$

通关地图


\begin{align*} \color{gold}{\enclose{box}{\cdots}: 隐藏关~可跳过} \\ \begin{matrix} & & \color{gold}{向量空间} \\ & \color{gold}{\nearrow} & & \searrow \\ \color{gold}{空间} & & & & 赋范空间 & \rightarrow & 内积空间 \\ \color{gold}{\downarrow} & & & \nearrow & \downarrow & & \downarrow \\ \color{gold}{拓扑空间} & \color{gold}{\rightarrow} & \color{gold}{度量空间} & & \mathrm{Banach}空间 & & \mathrm{Hilbert}空间 \\ \color{gold}{\downarrow} & & \downarrow & & & & \downarrow \\ \color{gold}{\enclose{box}{T_2空间等}} & & 完备度量空间 & & & & \mathrm{RKHS} \\ \end{matrix} \end{align*}

度量空间


4条公理定义度量$d(\cdot, \cdot): X \times X \mapsto \Rbb$

  • 非负性: $d(x, y) \geq 0$
  • $d(x, y) = 0$当且仅当$x = y$
  • 对称性: $d(x, y) = d(y, x)$
  • 三角不等式: $d(x, y) \leq d(x, \zv) + d(\zv, y)$

拓扑空间定性,度量空间定量,引进$\Rbb$这样的全序集,不仅可以知道$d(x, \zv)$和$d(y, \zv)$谁大谁小,还能知道具体差多少,差到什么程度

度量空间是刚性的拓扑空间,其上的度量直接定义了拓扑结构,之前拓扑空间研究的紧性、连续性、收敛性这里一样可以研究,而且更容易

拓扑空间是软化的度量空间,并非任意拓扑空间都能“升格”成度量空间,只有第二可数的正则拓扑空间才可以

考虑有理数集合$\Qbb$及标准度量$d(x, y) = |x - y|$构成的度量空间,易知该空间中的 Cauchy 序列的极限可能不属于$\Qbb$,亦叫 Cauchy 序列不收敛

若某度量空间内的任意 Cauchy 序列均收敛,则称该空间完备

完备性是度量空间可以有、也可以没有的额外性质,不完备的度量空间是可以扩充成完备的度量空间的,比如$\Qbb$的完备化就是$\Rbb$


考虑$[0,1]$上所有连续实值函数构成的集合$C[0,1]$,其上的度量定义为 \begin{align*} d(x, y) = \int_0^1 | x(t) - y(t) | ~ \diff t \end{align*} 则 Cauchy 序列不收敛 \begin{align*} x_n(t) = \begin{cases} 0 & t \in [0, 1/2] \\ 1 & t \in [1/2+1/n, 1] \end{cases} \longrightarrow x(t) = \begin{cases} 0 & t \in [0, 1/2] \\ 1 & t \in (1/2, 1] \end{cases} \end{align*}

通关地图


\begin{align*} \color{gold}{\enclose{box}{\cdots}: 隐藏关~可跳过} \\ \begin{matrix} & & \color{gold}{向量空间} \\ & \color{gold}{\nearrow} & & \searrow \\ \color{gold}{空间} & & & & 赋范空间 & \rightarrow & 内积空间 \\ \color{gold}{\downarrow} & & & \nearrow & \downarrow & & \downarrow \\ \color{gold}{拓扑空间} & \color{gold}{\rightarrow} & \color{gold}{度量空间} & & \mathrm{Banach}空间 & & \mathrm{Hilbert}空间 \\ \color{gold}{\downarrow} & & \color{gold}{\downarrow} & & & & \downarrow \\ \color{gold}{\enclose{box}{T_2空间等}} & & \color{gold}{完备度量空间} & & & & \mathrm{RKHS} \\ \end{matrix} \end{align*}

完备度量空间


  • 集合$X$的闭包$\overline{X}$是$X$的所有聚点(任意邻域至少含有一个异于自己的$X$中的点,等价于$X$中所有 Cauchy 序列的极限点)构成的集合
  • 若度量空间$X$的子集$M$满足$\overline{M} = X$,则称$M$在$X$中稠密,或$M$是$X$的稠密子集; $\Qbb$在$\Rbb$中稠密,$\Qbb$是$\Rbb$的稠密子集
  • 若集合$X$有一个可数稠密子集,则称$X$是可分的,实数集$\Rbb$是可分的
  • $(X_1, d_1)$和$(X_2, d_2)$是两个度量空间,若一一映射$T: X_1 \mapsto X_2$满足 \begin{align*} d_2(T x, T y) = d_1 (x, y) \end{align*} 则称$T$是 等距映射,等距的两个空间可以看成同一个空间

完备化定理: 对任意度量空间$(X, d)$,存在一个完备的度量空间$(\hat{X}, \hat{d})$,其子空间$W \subseteq \hat{X}$与$X$等距且在$\hat{X}$中稠密,如果对等距空间不加区分的话$\hat{X}$是唯一的 \begin{align*} (X, d) \overset{等距}{\rightleftharpoons} (W, \hat{d}) \overset{稠密}{\rightarrow} (\hat{X}, \hat{d}) \end{align*}

  1. 构造$(\hat{X}, \hat{d})$,完备化是为$X$中不收敛的 Cauchy 序列赋一个极限,注意存在多个 Cauchy 序列$( x_n ), ( y_n )$极限相同,即$ \lim d(x_n, y_n) = 0$,这是个等价关系; 记$\hat{x}$为收敛到$x$的 Cauchy 序列等价类,$\hat{X}$为所有等价类构成的集合,定义$\hat{d} (\hat{x}, \hat{y}) = \lim d(x_n, y_n)$,可以证明该极限存在不依赖等价类中代表元$( x_n ), ( y_n )$的选取
  2. 构造等距映射$T: X \mapsto W$为$T x = \hat{x} \in \hat{X}$,$\hat{x}$包含 Cauchy 序列$\{ x \}$; 下证$W$在$\hat{X}$中稠密,考虑$\forall \hat{x} \in \hat{X}$中的 Cauchy 序列$( x_n )$,存在$n_0$使$d(x_n,x_{n_0})$任意小,即$\{ x_{n_0} \} \in \hat{x}_{n_0} \in W$使得$\hat{d}(\hat{x}, \hat{x}_{n_0})$任意小,这表明$\hat{x}$是$W$的聚点,故$W$在$\hat{X}$中稠密
  3. 证明$\hat{X}$的完备性,对于$\hat{X}$中任意 Cauchy 序列$( \hat{x}_n )$,故$\hat{d} (\hat{x}_n, \hat{x}_m)$任意小,又$W$在$\hat{X}$中稠密,故$\exists \hat{y}_n, \hat{y}_m \in W$使得$\hat{d} (\hat{x}_n, \hat{y}_n), \hat{d} (\hat{x}_m, \hat{y}_m)$任意小,故$\hat{d} (\hat{y}_n, \hat{y}_m)$任意小,从而$( \hat{y}_n )$是$W$中的 Cauchy 序列,$( y_n )$是$X$中的 Cauchy 序列,设其属于$\hat{x} \in \hat{X}$,由于$\hat{d} (\hat{x}_n, \hat{x}) \leq \hat{d} (\hat{x}_n, \hat{y}_n) + \hat{d} (\hat{y}_n, \hat{x})$,右边两项都可以任意小,因此$( \hat{x}_n ) \rightarrow \hat{x}$
  4. 证明$\hat{X}$的唯一性,对于$\forall \hat{x},\hat{y} \in \hat{X}$,设$( \hat{x}_n ) \rightarrow \hat{x}, ( \hat{y}_n ) \rightarrow \hat{y}$,则 \begin{align*} \hat{d} (\hat{x},\hat{y}) = \lim \hat{d} (\hat{x}_n, \hat{y}_n) = \lim d (x_n, y_n) \end{align*} 即$\hat{X}$上的度量只依赖于$X$上原本的度量,从而在等距的意义下是唯一的

完备化定理表明

  • 不是每个完备化结果都像$\Qbb$加上无理数就可完备成$\Rbb$这么简单的
  • 一般情况下,完备后的空间$\hat{X}$中的点跟原来$X$中的已经完全不是一个东西了


\begin{align*} \color{gold}{\enclose{box}{\cdots}: 隐藏关~可跳过} \\ \begin{matrix} & & \color{gold}{向量空间} \\ & \color{gold}{\nearrow} & \color{red}{\downarrow} & \color{red}{\searrow} \\ \color{gold}{空间} & & \color{red}{拓扑向量空间} & & \color{red}{度量线性空间} \\ \color{gold}{\downarrow} & \color{red}{\nearrow} & & \color{red}{\nearrow} \\ \color{gold}{拓扑空间} & \color{gold}{\rightarrow} & \color{gold}{度量空间} & & \\ \color{gold}{\downarrow} & & \color{gold}{\downarrow} & & & & \\ \color{gold}{\enclose{box}{T_2空间等}} & & \color{gold}{完备度量空间} \\ \end{matrix} \end{align*}

通关地图


\begin{align*} \color{gold}{\enclose{box}{\cdots}: 隐藏关~可跳过} \\ \begin{matrix} & & \color{gold}{向量空间} \\ & \color{gold}{\nearrow} & & \color{gold}{\searrow} \\ \color{gold}{空间} & & & & \color{gold}{赋范空间} & \rightarrow & 内积空间 \\ \color{gold}{\downarrow} & & & \color{gold}{\nearrow} & \downarrow & & \downarrow \\ \color{gold}{拓扑空间} & \color{gold}{\rightarrow} & \color{gold}{度量空间} & & \mathrm{Banach}空间 & & \mathrm{Hilbert}空间 \\ \color{gold}{\downarrow} & & \color{gold}{\downarrow} & & & & \downarrow \\ \color{gold}{\enclose{box}{T_2空间等}} & & \color{gold}{完备度量空间} & & & & \mathrm{RKHS} \\ \end{matrix} \end{align*}

赋范空间


4条公理定义范数$\| \cdot \|: X \mapsto \Rbb$

  • 非负性: $\| \xv \| \geq 0$
  • $\| \xv \| = 0$当且仅当$\xv = \zerov$
  • 齐次性: $\| \alpha \xv \| = | \alpha |~\| \xv \|$
  • 三角不等式: $\| \xv + \yv \| \leq \| \xv \| + \| \yv \|$

由于$\| \xv + \epsilon \frac{\yv}{\|\yv\|} \| \leq \| \xv \| + |\epsilon|$,故范数$\| \cdot \|$是连续函数

$d(\xv, \yv) = \| \xv - \yv \|$称作由范数$\| \cdot \|$导出的度量,范数导出的度量需额外满足$d(\xv + \zv, \yv + \zv) = d(\xv, \yv)$和$d(\alpha \xv, \alpha \yv) = |\alpha|~d(\xv, \yv)$

若$X$上既有代数结构,又有范数,则称之为赋范空间

Schauder 基


之前在向量空间中,由于只有代数结构,我们束手束脚,只能做有限项加和; 度量空间中,虽空有序列收敛的定义,但没有代数运算,玩不了级数; 在既有加法,又有收敛性定义的赋范空间,我们终于可以放飞自我了

若赋范空间$X$中的序列$(\ev_n)$,满足对$\forall \xv \in X$都存在唯一的实数序列$(a_n)$使得 \begin{align*} \lim_{n \rightarrow \infty} \| \xv - (a_1 \ev_1 + a_2 \ev_2 + \cdots + a_n \ev_n) \| \rightarrow 0 \end{align*} 则称之为 Schauder 基

Schauder 基直接被定义成序列,因此它天生就是用在无限维空间的; 在有限维空间,如果把上述定义中的$n \rightarrow \infty$去掉,$\rightarrow 0$改成$=0$,Schauder 基和 Hamel 基是等同的,因此也没必要重复定义了; 考虑$l^2 = \{ (x_1, x_2, \ldots) \mid \sum_i x_i^2 \lt \infty \}$和$\| \xv \| = \sum_i x_i^2$,易知 \begin{align*} \ev_1 = (1, 0, \ldots),~\ev_2 = (0, 1, 0, \ldots),~\ev_3 = (0, 0, 1, 0, \ldots),~\ldots \end{align*} 是一组 Schauder 基,它的 Hamel 基不可数

通关地图


\begin{align*} \color{gold}{\enclose{box}{\cdots}: 隐藏关~可跳过} \\ \begin{matrix} & & \color{gold}{向量空间} \\ & \color{gold}{\nearrow} & & \color{gold}{\searrow} \\ \color{gold}{空间} & & & & \color{gold}{赋范空间} & \rightarrow & 内积空间 \\ \color{gold}{\downarrow} & & & \color{gold}{\nearrow} & \color{gold}{\downarrow} & & \downarrow \\ \color{gold}{拓扑空间} & \color{gold}{\rightarrow} & \color{gold}{度量空间} & & \color{gold}{\mathrm{Banach}空间} & & \mathrm{Hilbert}空间 \\ \color{gold}{\downarrow} & & \color{gold}{\downarrow} & & & & \downarrow \\ \color{gold}{\enclose{box}{T_2空间等}} & & \color{gold}{完备度量空间} & & & & \mathrm{RKHS} \\ \end{matrix} \end{align*}

完备图啥


更宽泛地讲,为何要集合是闭的 ?

如果没有闭性,则 Cauchy 序列的极限可能不存在,所有基于极限的操作也就都无法定义了,所以在$\Qbb$上是建立不了微积分的

在不闭的集合上解问题是一件很蛋疼的事,此处应该@Pythagoras

写个优化问题都要小心翼翼 \begin{align*} \toggle { 请点击刷新 \quad \min_{x \in (0,1]} \quad x } { 我才是对的 \quad \inf_{x \in (0,1]} \quad x } \endtoggle \end{align*}

闭性可以保证解的存在性,回想优化算法的理论,总是在证明$\wv_{n+1} \leq \wv_n + \epsilon$类似的式子,其实就是在说迭代序列$(\wv_n)$是 Cauchy 序列,从而极限可以取到,解是存在的

Banach 空间


度量空间有$(X, d) \overset{等距}{\rightleftharpoons} (W, \hat{d}) \overset{稠密}{\rightarrow} (\hat{X}, \hat{d})$,赋范空间额外引入了范数代数结构,因此需要为$\hat{X}$中每个等价类赋予一个范数,使得等距映射$T$同时保范,并定义满足8条公理的加法和数乘,完备后的赋范空间称为 Banach 空间

  1. 设$\hat{X}$中任意两个等价类$\hat{\xv}, \hat{\yv}$有 Cauchy 序列$( \xv_n ), ( \yv_n )$,令$\zv_n = \xv_n + \yv_n$,则$( \zv_n )$是 Cauchy 序列,设其属于等价类$\hat{\zv}$,定义$\hat{X}$上加法为$\hat{\zv} = \hat{\xv} + \hat{\yv}$
  2. 设$\hat{X}$中等价类$\hat{\xv}$有 Cauchy 序列$( \xv_n )$,令$\zv_n = \alpha~\xv_n$,则$( \zv_n )$是 Cauchy 序列,设其属于等价类$\hat{\zv}$,定义$\hat{X}$上数乘为$\hat{\zv} = \alpha~\hat{\xv}$
  3. 如上定义的加法和数乘与 Cauchy 序列的选取无关; 定义$\hat{\zerov}$为$X$中收敛于$\zerov$的 Cauchy 序列属于的等价类,显然它是加法幺元,从而加法满足交换、结合、有幺、有逆,数乘满足结合、有幺、两个分配也是显然的
  4. 对$\forall \xv \in X$设$\hat{\xv} = T \xv \in W$,直接定义$\| \hat{\xv} \|_W = \| \xv \|$即可保范,这同时定义了$W$上的度量$\hat{d}(\hat{\xv}, \hat{\yv}) = \| \hat{\xv} - \hat{\yv} \|_W$,故$\hat{X}$上的范数为$\| \hat{\xv} \|_{\hat{X}} = \hat{d}(\hat{\xv}, \hat{\zerov})$,注意$|\hat{d}(\hat{\xv}, \hat{\zerov}) - \hat{d}(\hat{\xv}_n, \hat{\zerov})| \leq \hat{d}(\hat{\xv}, \hat{\xv}_n)$,故$\| \hat{\xv} \|_{\hat{X}} = \lim \| \hat{\xv}_n \|_{W}$

线性组合引理


设$\ev_1, \ldots, \ev_n$是任意维赋范空间$X$中的一组线性无关向量,对任意给定的$a_1, \ldots, a_n$,必$\exists c \gt 0$使得$\| a_1 \ev_1 + \ldots + a_n \ev_n \| \geq c (|a_1| + \ldots + |a_n|)$

  1. 记$s = |a_1| + \ldots + |a_n|$,若$s = 0$,结论显然成立; 设$s \gt 0$,只需证 \begin{align*} \| b_1 \ev_1 + \ldots + b_n \ev_n \| \geq c \quad \st \quad |b_1| + \ldots + |b_n| = 1 \end{align*}
  2. 假若不然,则存在向量序列$(\yv_m)$满足当$m \rightarrow \infty$时$\yv_m \rightarrow \zerov$,其中\begin{align*} \yv_m = b_1^{(m)} \ev_1 + \cdots + b_n^{(m)} \ev_n \quad \st \quad |b_1^{(m)}| + \ldots + |b_n^{(m)}| = 1 \end{align*}
  3. 由于序列$(b_1^{(1)}, b_1^{(2)}, \ldots)$是有界序列,故存在收敛的子序列$(b_1^{(i_1)}, b_1^{(i_2)}, \ldots)$,设其极限为$b_1$并挑出其对应的$(\yv_{i_1}, \yv_{i_2}, \ldots)$; 在$(\yv_{i_1}, \yv_{i_2}, \ldots)$的基础上对第$2$维重复上述操作,得到第$2$维收敛于$b_2$的新子序列,如此重复直到第$n$维收敛于$b_n$,最终得到的子序列,其极限为 \begin{align*} \zerov = \yv = b_1 \ev_1 + \cdots + b_n \ev_n \quad \st \quad |b_1| + \ldots + |b_n| = 1 \end{align*}

有限维赋范空间$X$总是完备的,从而是闭的

设$X$的维度为$d$,$\ev_1, \ldots, \ev_d$是一组 Hamel 基,Cauchy 序列中的两点为 \begin{align*} \xv_m = a_1^{(m)} \ev_1 + \ldots + a_d^{(m)} \ev_d,~\xv_n = a_1^{(n)} \ev_1 + \ldots + a_d^{(n)} \ev_d \end{align*} 由于$\epsilon \geq \| \xv_m - \xv_n \| = \| \sum_i (a_i^{(m)} - a_i^{(n)}) \ev_i \| \geq c \sum_i |a_i^{(m)} - a_i^{(n)}|$,由此可得$d$个$\Rbb$上的 Cauchy 序列$(a_i^{(1)}, a_i^{(2)}, \ldots) \rightarrow a_i$,记$\xv = \sum_i a_i \ev_i$,易知有$\| \xv - \xv_n \| \leq \sum_i |a_i - a_i^{(n)}|~\|\ev_i\| \rightarrow 0$,故 Cauchy 序列$(\xv_n)$收敛,$X$完备


考虑$l^2 = \{ (x_1, x_2, \ldots) \mid \sum_i x_i^2 \lt \infty \}$和$\| \xv \| = \sum_i x_i^2$,设$X$是由只有有限个非零元素的序列构成的空间,显然$X$是$l^2$的无限维子空间,但 \begin{align*} (1, 0, \ldots),~(1, 1/2, 0, \ldots),~(1, 1/2, 1/4, 0, \ldots),~\ldots \end{align*} 在$X$中不收敛

有限维赋范空间$X$上的任意两种范数$\| \cdot \|_\heartsuit$和$\| \cdot \|_\diamondsuit$等价,从而序列的敛散性和极限与具体选用的范数无关

设$X$的维度为$n$,$\forall \xv = \alpha_1 \ev_1 + \cdots + \alpha_n \ev_n = \sum_i \alpha_i \ev_i$,于是$\exists c > 0$使得$\| \xv \|_\heartsuit \geq c \sum_i |\alpha_i|$,又$ \| \xv \|_\diamondsuit \leq \sum_i |\alpha_i|~\| \ev_i \|_\diamondsuit \leq k \sum_i |\alpha_i|$,故 \begin{align*} \| \xv \|_\heartsuit \geq (c / k) \| \xv \|_\diamondsuit = a~\| \xv \|_\diamondsuit \end{align*} 交换$\heartsuit$和$\diamondsuit$的位置,可知$\exists b > 0$使得$b~\| \xv \|_\diamondsuit \geq \| \xv \|_\heartsuit$,从而 \begin{align*} a~\| \xv \|_\diamondsuit \leq \| \xv \|_\heartsuit \leq b~\| \xv \|_\diamondsuit~\Longrightarrow~(1/b)\| \xv \|_\heartsuit \leq \| \xv \|_\diamondsuit \leq (1/a)\| \xv \|_\heartsuit \end{align*}


考虑$\{ (x_1, x_2, \ldots) \mid \sum_i x_i^2 \lt \infty \}$和$\| \xv \|_2 = \sum_i x_i^2, \| \xv \|_\infty = \sup_i |x_i|$,设 \begin{align*} \xv_n = (\underbrace{1/n, \ldots, 1/n}_{共n^2项}, 0, 0, \ldots ) \end{align*} 则$\| \xv_n \|_2 = 1 \rightarrow 1$,而$\| \xv_n \|_\infty = 1/n \rightarrow 0$

线性算子


代数结构定义了加法和数乘两个线性运算,若映射$T$满足 \begin{align*} T(\alpha \xv + \beta \yv) = \alpha~T \xv + \beta~T \yv \end{align*} 即可以保持两个线性运算,则称为线性算子


线性算子在向量空间就可以玩的,为何拖到这里才讲呢 ?因为到了赋范空间,可以给算子也定义范数了 \begin{align*} \| T \| = \sup_{\xv \neq \zerov} \frac{\| T \xv \|}{\| \xv \|} = \sup_{ \| \xv \| = 1} \| T \xv \|~\Longrightarrow~\| T \xv \| \leq \| T \|~\| \xv \| \end{align*}


如果$\exists c > 0$使得$\| T \| \leq c$,则称$T$为线性有界算子

几个栗子:

  • 非零赋范空间$X$上的恒等算子$I: X \mapsto X$有界,且范数$ \| I \| = 1$
  • 赋范空间$X$上的零算子$0: X \mapsto \zerov$有界,且范数$ \| 0 \| = 0$
  • $X$是$[0,1]$上多项式构成的赋范空间,范数为$\| \xv(t) \| = \max_{t \in [0,1]} |\xv(t)|$,定义微分算子: $T \xv(t) = \xv'(t)$,取$\xv(t) = t^n$,则$ \| \xv(t) \| = 1 $,又$\| T \xv(t) \| = \| n~t^{n-1} \| = n$,故$\| T \| \geq n$,由$n$的任意性知微分算子无界
  • 积分算子$T: C[0,1] \mapsto C[0,1]$,设$\yv = T \xv$,其中 \begin{align*} \yv(t) = \int_0^1 k(t,s)~\xv(s)~\diff s \end{align*} $k(\cdot, \cdot)$叫做$T$的,若其在$[0,1]^2$上有上界$k_0$,则$T$有界,且$\| T \| = k_0$
  • 算子$T: \Rbb^m \mapsto \Rbb^n$对应于矩阵$\Av \in \Rbb^{n \times m}$,若$\Rbb^m$和$\Rbb^n$上均采用2-范数,则$T$有界,且由 Cauchy 不等式易知$\| T \| = \| \Av \|_F$

有限维赋范空间$X$上的线性算子都是有界的

设$X$的维度为$n$,$\forall \xv = \alpha_1 \ev_1 + \cdots + \alpha_n \ev_n$,于是 \begin{align*} \| T \xv \| \leq |\alpha_1|~\| T \ev_1 \| + \cdots + |\alpha_n|~\| T \ev_n \| \leq k (|\alpha_1| + \cdots + |\alpha_n|) \leq \bar{k} \| \xv \| \end{align*}

无限维赋范空间中的线性算子可能无界,例如微分算子


线性算子$T$连续当且仅当$T$有界; 若$T$在一点连续,则在整个定义域上连续

  1. 有界 -> 连续: $\| T \xv - T \yv \| = \| T (\xv - \yv) \| \leq \| T \|~\| \xv - \yv \| \leq c \| \xv - \yv \|$
  2. 连续 -> 单点连续: 显然
  3. 单点连续 -> 有界: 若$T$在$\yv$处连续,则对$\forall \epsilon > 0$,$\exists \delta > 0$使得只要$\| \xv - \yv \| \leq \delta$就有$\| T \xv - T \yv \| \leq \epsilon$,取$\xv = \yv + \delta~\xv / \| \xv \|$,于是 \begin{align*} \epsilon \geq \| T \xv - T \yv \| = \| T (\xv - \yv) \| = \| T \xv \| (\delta / \| \xv \|) \end{align*} 即$ \| T \xv \| \leq (\epsilon / \delta) \| \xv \|$,故$T$有界

Dirac 泛函


泛函是值域落在$\Rbb$上的算子,因此线性泛函可以继承线性算子的性质,例如单点连续等价于连续等价于有界

设$X$为任意集合,$\Rbb^X$为所有函数$f: X \mapsto \Rbb$构成的集合,对$\forall \xv \in X$和$\forall f,g \in \Rbb^X$,定义逐点加法和数乘 \begin{align*} (f+g)(\xv) = f(\xv) + g(\xv),~(a f)(\xv) = a f(\xv) \end{align*} 不难看出$\Rbb^X$是一个向量空间

对$\forall \xv \in X$,Dirac 泛函$\delta_\xv: \Rbb^X \mapsto \Rbb$定义为$\delta_\xv(f) = f(\xv)$,这是一个线性泛函 \begin{align*} \delta_\xv(a f + b g) = (a f + b g)(\xv) = a f(\xv) + b g(\xv) = a \delta_\xv(f) + b \delta_\xv(g) \end{align*} 因此 Dirac 泛函连续等价于 Dirac 泛函有界,等价于任意函数在该点有值

有的地方也称其为 evaluation functional,因为它其实就是在取函数在一点的值

如果$\Rbb^X$上定义了范数,即$\Rbb^X$是一个赋范空间,若对$\forall \xv \in X$,Dirac 泛函$\delta_\xv$有界,则依范数收敛可以保证逐点收敛

设 Cauchy 序列$(f_n) \rightarrow f$,则对$\forall \xv \in X$有 \begin{align*} | f_n(\xv) - f(\xv) | = | \delta_\xv(f_n) - \delta_\xv(f) | \leq \| \delta_\xv \|~\| f_n - f \| \rightarrow 0 \end{align*}


考虑$[0,1]$上的多项式函数构成的赋范空间,这是一个无限维空间,因此 Dirac 泛函未必有界,设其上范数定义为$\| f \|^2 = \int_0^1 |f(t)|^2 ~ \diff t$,记$f_n(t) = t^n$,易知$(f_n)$是一个 Cauchy 序列,其极限是零函数 \begin{align*} \lim_{n \rightarrow \infty} \| f_n(t) - 0 \|^2 = \lim_{n \rightarrow \infty} \int_0^1 t^{2n} ~ \diff t = \lim_{n \rightarrow \infty} \frac{1}{\sqrt{2n+1}} = 0 \end{align*} 但$f_n(1) \rightarrow 1 \neq 0$,即 Dirac 泛函在$1$这点处不连续

通关地图


\begin{align*} \color{gold}{\enclose{box}{\cdots}: 隐藏关~可跳过} \\ \begin{matrix} & & \color{gold}{向量空间} \\ & \color{gold}{\nearrow} & & \color{gold}{\searrow} \\ \color{gold}{空间} & & & & \color{gold}{赋范空间} & \color{gold}{\rightarrow} & \color{gold}{内积空间} \\ \color{gold}{\downarrow} & & & \color{gold}{\nearrow} & \color{gold}{\downarrow} & & \downarrow \\ \color{gold}{拓扑空间} & \color{gold}{\rightarrow} & \color{gold}{度量空间} & & \color{gold}{\mathrm{Banach}空间} & & \mathrm{Hilbert}空间 \\ \color{gold}{\downarrow} & & \color{gold}{\downarrow} & & & & \downarrow \\ \color{gold}{\enclose{box}{T_2空间等}} & & \color{gold}{完备度量空间} & & & & \mathrm{RKHS} \\ \end{matrix} \end{align*}

内积空间


向量空间推广了向量的加法和数乘,赋范空间推广了向量长度,进一步推广向量点积就得到了内积空间,4条公理定义内积$\langle \cdot, \cdot \rangle: X \times X \mapsto \Rbb$

  • 加法关于第一项线性: $\langle \xv + \yv, \zv \rangle = \langle \xv, \zv \rangle + \langle \yv, \zv \rangle$
  • 数乘关于第一项线性: $\langle \alpha~\xv, \yv \rangle = \alpha \langle \xv, \yv \rangle$
  • 对称性: $\langle \xv, \yv \rangle = \langle \yv, \xv \rangle$
  • 非负性: $\langle \xv, \xv \rangle \geq 0,~\langle \xv, \xv \rangle = 0 \Longleftrightarrow \xv = \zerov$


$\| \xv \| = \sqrt{\langle \xv, \xv \rangle}$和$d(\xv, \yv) = \sqrt{\langle \xv - \yv, \xv - \yv \rangle}$称作由内积$\langle \cdot, \cdot \rangle$导出的范数和度量,并非任何范数都可以由内积导出,内积导出的范数额外满足平行四边形等式: $\| \xv + \yv \|^2 + \| \xv - \yv \|^2 = 2 (\| \xv \|^2 + \| \yv \|^2)$

有了内积,就可以定义两个点之间的角度,从而可以定义正交性正交分解标准正交集完全标准正交集

Schwarz 不等式


内积$\langle \cdot, \cdot \rangle$和相应的范数$\| \cdot \|$满足$|\langle \xv, \yv \rangle| \leq \| \xv \|~\| \yv \|$

若$\yv = \zerov$,显然结论成立,不妨设$\yv \neq \zerov$,则 \begin{align*} 0 \leq \| \xv - \alpha~\yv \|^2 = \langle \xv, \xv \rangle - 2 \alpha \langle \xv, \yv \rangle + \alpha^2 \langle \yv, \yv \rangle \end{align*} 取$\alpha = \langle \xv, \yv \rangle / \langle \yv, \yv \rangle$可得 \begin{align*} 0 \leq \langle \xv, \xv \rangle - 2 \frac{|\langle \xv, \yv \rangle|^2}{\langle \yv, \yv \rangle} + \frac{|\langle \xv, \yv \rangle|^2}{\langle \yv, \yv \rangle} = \| \xv \|^2 - \frac{|\langle \xv, \yv \rangle|^2}{\| \yv \|^2} \end{align*}


如果$\langle \cdot, \cdot \rangle$取标准向量点积,可得 Cauchy 不等式$| \xv^\top \yv | \leq \| \xv \|_2~\| \yv \|_2$

Hölder 不等式为$| \xv^\top \yv | \leq \| \xv \|_p~\| \yv \|_q$,其中$\frac{1}{p} + \frac{1}{q} = 1$,它们都是 Cauchy 不等式的推广,注意区别

通关地图


\begin{align*} \color{gold}{\enclose{box}{\cdots}: 隐藏关~可跳过} \\ \begin{matrix} & & \color{gold}{向量空间} \\ & \color{gold}{\nearrow} & & \color{gold}{\searrow} \\ \color{gold}{空间} & & & & \color{gold}{赋范空间} & \color{gold}{\rightarrow} & \color{gold}{内积空间} \\ \color{gold}{\downarrow} & & & \color{gold}{\nearrow} & \color{gold}{\downarrow} & & \color{gold}{\downarrow} \\ \color{gold}{拓扑空间} & \color{gold}{\rightarrow} & \color{gold}{度量空间} & & \color{gold}{\mathrm{Banach}空间} & & \color{gold}{\mathrm{Hilbert}空间} \\ \color{gold}{\downarrow} & & \color{gold}{\downarrow} & & & & \downarrow \\ \color{gold}{\enclose{box}{T_2空间等}} & & \color{gold}{完备度量空间} & & & & \mathrm{RKHS} \\ \end{matrix} \end{align*}

内积空间的完备化


内积的连续性: 若$( \xv_n ) \rightarrow \xv$,$( \yv_n ) \rightarrow \yv$,则$\langle \xv_n, \yv_n \rangle \rightarrow \langle \xv, \yv \rangle$ \begin{align*} | \langle \xv_n, \yv_n \rangle - \langle \xv, \yv \rangle | & = | \langle \xv_n, \yv_n \rangle - \langle \xv_n, \yv \rangle + \langle \xv_n, \yv \rangle - \langle \xv, \yv \rangle | \\ & \leq | \langle \xv_n, \yv_n \rangle - \langle \xv_n, \yv \rangle | + | \langle \xv_n, \yv \rangle - \langle \xv, \yv \rangle | \\ & \leq \| \xv_n \|~\|\yv_n - \yv \| + \| \xv_n - \xv \|~\| \yv \| \rightarrow 0 \end{align*}


赋范空间有$(X, d) \overset{保范}{\rightleftharpoons} (W, \hat{d}) \overset{稠密}{\rightarrow} (\hat{X}, \hat{d})$,因此只需为$\hat{X}$中的等价类定义内积,使得$X$到$W$的保范映射$T$是同构映射(保持内积)

定义$\hat{X}$上的内积为$\langle \hat{\xv}, \hat{\yv} \rangle = \lim \langle \xv_n, \yv_n \rangle$,由内积的连续性知该定义不依赖$( \xv_n ), ( \yv_n )$的选取,此时的$T$保持内积是显然的

完备的内积空间称为 Hilbert 空间,$\Rbb^n$就是一个有限维 Hilbert 空间

标准正交集


标准正交集是一族两两相互正交单位向量,如果它们的个数还是可数的,即可以把它们写成序列的形式,也可将其称为标准正交序列

标准正交集肯定是线性无关的,给定一组线性无关的向量,可以通过 Gram-Schmidt 过程得到一个标准正交集

设$\ev_1, \ldots, \ev_n$是一组标准正交集,则对$\forall \xv \in X$有$\sum_{i=1}^n |\langle \xv, \ev_i \rangle|^2 \leq \| \xv \|^2$

上式左边每一项都非负,因此随着$n$的增加构成一个单调递增序列,又$\| \xv \|^2$显然是一个上界,因此有极限,即它可以看成一个收敛级数的部分和序列,从而易知有 Bessel 不等式成立: $\sum_{i=1}^\infty |\langle \xv, \ev_i \rangle|^2 \leq \| \xv \|^2$,其中$\langle \xv, \ev_i \rangle$称为 Fourier 系数

若标准正交集的个数不可数,也可计算 Fourier 系数$\langle \xv, \ev_i \rangle$,对$\forall m \in \Nbb$,设有$k_m$个系数大于$\frac{1}{m}$,则$\| \xv \|^2 \gt \frac{k_m}{m^2}$,从而$k_m \lt m^2 \| \xv \|^2$,故 Fourier 系数中最多只有可数多个是非零的

完全标准正交集


如果 Hilbert 空间$H$中的标准正交集$B$满足$\overline{\span(B)} = H$,即$\span(B)$是$H$的稠密子集,则称之为完全标准正交集

  • 完全标准正交集是不能再添加新元素而成为一个更大的标准正交集的
  • 标准正交集是完全标准正交集当且仅当对$\forall \xv \in H$都有 Bessel 不等式取等号,即 Parseval 等式$\sum_i |\langle \xv, \ev_i \rangle|^2 = \| \xv \|^2$成立

选择公理保证每个 Hilbert 空间都有完全标准正交集,且所有完全标准正交集有相同的元素个数,这个数亦叫 Hilbert 维数; 有限维 Hilbert 空间的 Hilbert 维数就是它代数意义上的维数,无限维可分的 Hilbert 空间的完全标准正交集$B$是可数的

对$\forall \xv, \yv\in B$有$\| \xv - \yv \| = \sqrt{2}$,故$\xv$和$\yv$半径为$\frac{\sqrt{2}}{3}$的邻域$N_\xv$和$N_\yv$不相交,由于$\span(B)$在$H$中稠密,其必包含元素$\uv \in N_\xv$和$\vv \in N_\yv$且$\uv \neq \vv$; 若$B$不可数,则有不可数个这样的邻域,相应的$\span(B)$中含有不可数个点

可分的 Hilbert 空间比不可分的要简单,它的完全标准正交序列是一个 Schauder 基

有限维或无限维可分的 Hilbert 空间$H$必含有完全标准正交序列$\ev_1, \ev_2, \ldots$,因此对$\forall \xv \in H$,都可以写成无穷级数的和$\xv = \langle \xv, \ev_1 \rangle \ev_1 + \langle \xv, \ev_2 \rangle \ev_2 + \cdots$,这是 Hilbert 空间特有的便利表达,Fourier 级数就是一个经典例子

任意两个同维度的 Hilbert 空间,其中一个的完全标准正交集可以一一映射到另一个上,这样的映射显然保持内积,因此同维度的 Hilbert 空间都是同构的

  • 无限维可分的例子: $l^2 = \{ (x_1, x_2, \ldots) \mid \sum_i x_i^2 \lt \infty \}$,记 \begin{align*} \ev_1 = (1, 0, \ldots),~\ev_2 = (0, 1, 0, \ldots),~\ev_3 = (0, 0, 1, 0, \ldots),~\ldots \end{align*} 易知$\ev_1, \ev_2, \ldots$是一个完全标准正交集,但不是 Hamel 基,因为$(1, 1/2, 1/4, \ldots) \in l^2$无法由其中的有限个线性表出
  • 无限维不可分的例子: $l^2(\Rbb) = \{ f \mid f在可数个点上非零且\sum_{x \in \Rbb} f(x)^2 \lt \infty\}$,所有的$f_z(x) = 1_{x = z}$属于$l^2(\Rbb)$,相互正交,且这样的函数不可数,因为$z$不可数

《Kernel Methods for Pattern Analysis》一书中直接定义 Hilbert 空间是可分的,这样任意 Hilbert 空间要么同构于$\Rbb^n$,要么同构于$l^2$,但数学圈里貌似并不承认

Riesz 表示定理


Hilbert 空间$X$上的所有有界线性泛函都呈形$f(\cdot) = \langle \cdot, \zv \rangle$,其中$\zv$由$f$唯一确定,且$\| \zv \| = \| f \|$

  1. 若$f \equiv 0$,取$\zv = \zerov$即可,不妨设零空间$\Ncal(f) \neq X$,则$\Ncal(f)^\perp$中至少存在一个非零$\zv_0$; 考虑$\yv = f(\xv) \zv_0 - f(\zv_0) \xv$,由$f(\yv) = 0$知$\yv \in \Ncal(f)$,故$0 = \langle \yv, \zv_0 \rangle = \langle f(\xv) \zv_0 - f(\zv_0) \xv, \zv_0 \rangle = f(\xv) \langle \zv_0, \zv_0 \rangle - c \langle \xv, \zv_0 \rangle$,即 \begin{align*} f(\cdot) = \left\langle \cdot, \frac{f(\zv_0)}{\langle \zv_0, \zv_0 \rangle} \zv_0 \right\rangle \end{align*}
  2. 唯一性,设$f(\cdot) = \langle \cdot, \zv_1 \rangle = \langle \cdot, \zv_2 \rangle$,则对$\forall \xv$有$\langle \xv, \zv_1 - \zv_2 \rangle = 0$,取$\xv = \zv_1 - \zv_2$可知$\zv_1 = \zv_2$
  3. 若$f \equiv 0$,则有$\| \zv \| = \| f \| = 0$成立; 否则$\| \zv \|^2 = f(\zv) \leq \| f \|~\| \zv \|$,即$\| \zv \| \leq \| f \|$; 另一方面,$|f(\xv)| = |\langle \xv, \zv \rangle| \leq \| \xv \|~\| \zv \|$,故$\| f \| \leq \| \zv \|$

通关地图


\begin{align*} \color{gold}{\enclose{box}{\cdots}: 隐藏关~可跳过} \\ \begin{matrix} & & \color{gold}{向量空间} \\ & \color{gold}{\nearrow} & & \color{gold}{\searrow} \\ \color{gold}{空间} & & & & \color{gold}{赋范空间} & \color{gold}{\rightarrow} & \color{gold}{内积空间} \\ \color{gold}{\downarrow} & & & \color{gold}{\nearrow} & \color{gold}{\downarrow} & & \color{gold}{\downarrow} \\ \color{gold}{拓扑空间} & \color{gold}{\rightarrow} & \color{gold}{度量空间} & & \color{gold}{\mathrm{Banach}空间} & & \color{gold}{\mathrm{Hilbert}空间} \\ \color{gold}{\downarrow} & & \color{gold}{\downarrow} & & & & \color{gold}{\downarrow} \\ \color{gold}{\enclose{box}{T_2空间等}} & & \color{gold}{完备度量空间} & & & & \color{gold}{\mathrm{RKHS}} \\ \end{matrix} \end{align*}

简化示例


一个简单的几何问题: 设$A(p,q)$为$\Rbb^2$上一定点,$L$为过原点$O$的任意直线,过$A$向$L$作垂线,求垂足$B$

一般操作: $L$过原点,故方程为 \begin{align*} L(a,b) = \{ (x,y) \mid ax + by = 0 \} \subseteq \Rbb^2 \end{align*} 根据$AB$垂直于$OB$和$B$在$L$上两个条件可得: \begin{align*} \begin{cases} x (x-p) + y (y-q) = 0 \\ ax + by = 0 \end{cases} ~\Longrightarrow~ B \left( \frac{p b^2 - q a b}{a^2 + b^2}, \frac{q a^2 - p a b}{a^2 + b^2} \right) \end{align*}


  • 直线$L$旋转时,$a$和$b$会发生变化,此时垂足$B$是如何跟着变化的 ?
  • 用$a, b$两个实数对$L$参数化无法捕捉$L$的旋转,我们需要更好的参数化$L$的方法
  • $L$是嵌入到$\Rbb^2$中的一个一维子空间,区别不同的$L$只需一个参数,即与$x$轴的夹角

进阶操作: $L(\theta) = \{ (t \cos \theta, t \sin \theta) \mid t \in \Rbb \} \subseteq \Rbb^2$,根据$AB$垂直于$OB$有 \begin{align*} \cos \theta (t \cos \theta - p) + \sin \theta (t \sin \theta - q) = 0 ~\Longrightarrow~ t = p \cos \theta + q \sin \theta \end{align*} 故$B((p \cos \theta + q \sin \theta) \cos \theta, (p \cos \theta + q \sin \theta) \sin \theta)$


这个结果显著好于前者,只有一个物理意义明确的变量$\theta$,垂足如何随$L$的旋转而变化也很清晰,不过这取决于只用一个实数$\theta$对$L$进行的巧妙参数化,是否有通用的、“线性代数味”浓一点的、不依赖参数化选择的方法 ?

因为$L$是一个一维子空间,最直接的想法是用一个基向量来参数化$L$,即对于与$x$轴夹角为$\theta$的$L$,用基向量$(\cos \theta, \sin \theta)$对其参数化

不过这个做法有个问题,与$x$轴夹角为$\theta$和$\theta + \pi$的两条直线其实是同一条直线,但$(\cos \theta, \sin \theta) \neq -(\cos \theta, \sin \theta) = (\cos (\theta + \pi), \sin (\theta + \pi))$,即一个直线只用一个基向量进行参数化的话,要面临同一条直线用不同的基向量进行参数化的情况

骚操作: 用两个“基”$\kv_1$和$\kv_2$对$L$进行参数化,即$\span(\{ \kv_1, \kv_2 \}) = L$,显然它们线性相关,不是真正意义上的基,但要求它们有类似基的功能,即在$L$上定义内积$\langle \cdot, \cdot \rangle$使得对$L$上的任意点,分别与$\kv_1$和$\kv_2$作内积,相当于取出其在$\Rbb^2$中的两个坐标 : \begin{align*} \langle \xv,\kv_1 \rangle = \xv^\top \ev_1, \quad \langle \xv,\kv_2 \rangle = \xv^\top \ev_2 \end{align*}

记$\uv = (\cos \theta, \sin \theta)$,设$\kv_1 = t_1 \uv$,$\kv_2 = t_2 \uv$,$\xv = t \uv$,易知 \begin{align*} t \cos \theta = \xv^\top \ev_1 = \langle \xv, \kv_1 \rangle = t_1 t \langle \uv, \uv \rangle \Longrightarrow t_1 = \frac{\cos \theta}{\langle \uv, \uv \rangle} \\ t \sin \theta = \xv^\top \ev_2 = \langle \xv, \kv_2 \rangle = t_2 t \langle \uv, \uv \rangle \Longrightarrow t_2 = \frac{\sin \theta}{\langle \uv, \uv \rangle} \end{align*}

回代可知两个基分别为 \begin{align*} \kv_1 = \frac{\cos \theta (\cos \theta, \sin \theta)}{\langle \uv, \uv \rangle} = \frac{\uv~\cos \theta}{\langle \uv, \uv \rangle},~\kv_2 = \frac{\sin \theta (\cos \theta, \sin \theta)}{\langle \uv, \uv \rangle} = \frac{\uv~\sin \theta}{\langle \uv, \uv \rangle} \end{align*}

不难验证有$\kv_{1,2}(\theta) = \kv_{1,2}(\theta + \pi)$,即同一个$L$的两个基也是一样的

设$B$的坐标为 \begin{align*} a \kv_1 + b \kv_2 = \frac{a \cos \theta + b \sin \theta}{\langle \uv, \uv \rangle} \uv \end{align*}

注意$A(p,q) = p \ev_1 + q \ev_2$,因此由$AB$垂直于$OB$可得 \begin{align*} & \quad \quad (a \kv_1 + b \kv_2)^\top (a \kv_1 + b \kv_2 - p \ev_1 - q \ev_2) = 0 \\ & \Longleftrightarrow \uv^\top \left( \frac{a \cos \theta + b \sin \theta}{\langle \uv, \uv \rangle} \uv - p \ev_1 - q \ev_2 \right) = 0 \\ & \Longleftrightarrow \frac{a \cos \theta + b \sin \theta}{\langle \uv, \uv \rangle} = p \cos \theta + q \sin \theta \end{align*}

故取$a = p \langle \uv, \uv \rangle$,$b = q \langle \uv, \uv \rangle$,上式恒成立,因此$B$的坐标为 \begin{align*} \langle \uv, \uv \rangle (p \kv_1 + q \kv_2) & = (p \cos \theta + q \sin \theta) \uv \\ & = ((p \cos \theta + q \sin \theta) \cos \theta, (p \cos \theta + q \sin \theta) \sin \theta) \end{align*}

对于$\forall \xv \in L$有$\langle \xv,\kv_1 \rangle = \xv^\top \ev_1$且$\langle \xv,\kv_2 \rangle = \xv^\top \ev_2$,特别地有 \begin{align*} & \langle \kv_1, \kv_1 \rangle = \frac{\cos^2 \theta}{\langle \uv, \uv \rangle} = \kv_1^\top \ev_1,~\langle \kv_2, \kv_1 \rangle = \frac{\cos \theta \sin \theta}{\langle \uv, \uv \rangle} = \kv_2^\top \ev_1 \\ &\langle \kv_1, \kv_2 \rangle = \frac{\cos \theta \sin \theta}{\langle \uv, \uv \rangle} = \kv_1^\top \ev_2,~\langle \kv_2, \kv_2 \rangle = \frac{\sin^2 \theta}{\langle \uv, \uv \rangle} = \kv_2^\top \ev_2 \\ & \Kv = [\kv_1, \kv_2] = \begin{bmatrix} \langle \kv_1, \kv_1 \rangle & \langle \kv_2, \kv_1 \rangle \\ \langle \kv_1, \kv_2 \rangle & \langle \kv_2, \kv_2 \rangle \end{bmatrix} \end{align*}


  • 子空间由一组过定(线性相关)的“基”表示出来,基的个数取决于大空间的维度
  • 基关于子空间是连续变化的,这个“连续性”无法通过线性无关的向量组达成
  • 问题的解可以通过基线性表出,因而它关于子空间也是连续变化的

\begin{align*} \begin{matrix} 子空间 & \overset{连续}{\longrightarrow} & 基 & \overset{连续}{\longrightarrow} & 问题的解 \end{matrix} \end{align*}

类比加强


设$X$为任意集合,记$\Rbb^X$为所有函数$f: X \mapsto \Rbb$构成的向量空间

对$\forall f \in \Rbb^X$,$\{ f(\xv) \mid \xv \in X \}$可看作$f$在$\Rbb^X$中的第$\xv$维“坐标”

因为种种原因,我们只对$\Rbb^X$中的某个子空间$H$感兴趣


类比前例,$\Rbb^X$对应大空间$\Rbb^2$,$H$对应一维子空间$L$,则需

  1. 在$\Rbb^X$中选取一族基$\{ \kv_\xv \mid \xv \in X \}$张成$H$,并且这族基关于$H$是连续变化的
  2. 定义$H$上的内积$\langle \cdot, \cdot \rangle$使得对$\forall f \in H$有 \begin{align*} \langle f, \kv_\xv \rangle = f(\xv),~\forall \xv \in X \end{align*} 即$H$中的任意点$f$与$\kv_\xv$作内积相当于取出其第$\xv$维坐标
  3. 在内积空间$H$中求解问题

简化版例子中子空间是一维直线,因而是完备的,但这里的子空间可能是无限维,没有闭性的话问题可能无解

设$H \in l^2$是由只有有限个非零元素的序列构成的赋范空间,记$g = (1, \frac{1}{2}, \frac{1}{4}, \ldots) \in l^2$,则$\min_{f \in H} \| f - g \|^2$无解

我们要求$H = \overline{\span(\{ \kv_\xv \mid \xv \in X \})}$,从而是个 Hilbert 空间,这样要求还有个的好处,比如若$H = l^2$,要想张成它得不可数个$\kv_\xv$,但若利用闭包,可数个$\kv_\xv$就够了,基的需求大大减少了


完备化有利也有弊,设$f$是完备化加进来的新元素且$(f_1, f_2, \ldots) \rightarrow f$,那么可能不存在$\kv_\xv$满足$\langle f, \kv_\xv \rangle = f(\xv)$

因为$(f_1, f_2, \ldots) \rightarrow f$是依范数收敛,并不能保证逐点收敛,若在某一点$\xv$处不收敛,则$\langle f, \kv_\xv \rangle \leftarrow \langle f_n, \kv_\xv \rangle = f_n(\xv) \nrightarrow f(\xv)$

我们要求对$\forall \xv \in X$,Dirac 泛函$\delta_\xv$在$H$上连续,从而依范数收敛蕴含逐点收敛

简化版例子中完全没提 Dirac 泛函是因为在有限维情形下,线性算子总是连续的

RKHS


$X$为任意集合,$\Rbb^X$为所有$f: X \mapsto \Rbb$构成的向量空间,若$H \subseteq \Rbb^X$是 Hilbert 空间,且对$\forall \xv \in X$,Dirac 泛函$\delta_\xv$在$H$上连续,则称$H$是 RKHS

这是 RKHS 三大定义中最骚的一个,不说再生核了,压根连核字都没出现,《Support Vector Machines》里用的就是这个定义


$X$为任意集合,$H$为$f: X \mapsto \Rbb$构成的 Hilbert 空间,若$k: X \times X \mapsto \Rbb$为再生核,则满足

  • $\forall \xv \in X,~k(\cdot, \xv) \in H$
  • $\forall \xv \in X,~\forall f \in H,~\langle f, k(\cdot, \xv) \rangle = f(\xv)$,特别地有$\langle k(\cdot, \xv), k(\cdot, \yv) \rangle = k(\xv, \yv)$

若$H$有两个再生核$k_1$和$k_2$,则$\langle f, k_1(\cdot, \xv) - k_2(\cdot, \xv) \rangle = f(\xv) - f(\xv) = 0$,特别地取$f = k_1(\cdot, \xv) - k_2(\cdot, \xv)$可知$k_1 = k_2$,因此再生核若存在必是唯一的

$H$有再生核当且仅当 Dirac 泛函$\delta_\xv$在$H$上连续

  • 若$\langle f, k(\cdot, \xv) \rangle = f(\xv)$,则 \begin{align*} | \delta_\xv(f) | = | f(\xv) | = | \langle f, k(\cdot, \xv) \rangle | \leq \| k(\cdot, \xv) \|~\| f \| = \sqrt{k(\xv, \xv)}~\| f \| \end{align*}
  • 若$\delta_\xv$连续,从而是有界线性泛函,由 Riesz 表示定理,它可以写成内积的形式,即存在$f_{\delta_\xv} \in H$使得$\delta_\xv(\cdot) = \langle \cdot, f_{\delta_\xv} \rangle$,定义$\bar{k}(\yv, \xv) = f_{\delta_\xv}(\yv)$,则 \begin{align*} \bar{k}(\cdot, \xv) = f_{\delta_\xv}(\cdot) \in H,~\langle f, \bar{k}(\cdot, \xv) \rangle = \langle f, f_{\delta_\xv} \rangle = \delta_\xv(f) = f(\xv) \end{align*}

这样就得到了 RKHS 的第二个定义: $X$为任意集合,$\Rbb^X$为所有$f: X \mapsto \Rbb$构成的向量空间,若$H \subseteq \Rbb^X$是 Hilbert 空间,且含有再生核,则称$H$是 RKHS

相较于普通的 Hilbert 空间,RKHS 就是多了再生核; 再生核提供了一组张成$H$的基$\{ k(\cdot, \xv) \mid \xv \in X \}$,从而每个元素都有自己在$H$上的内部坐标,即 SVM 的对偶变量; 此外通过和这组基求内积,还可以得到每个元素在$\Rbb^X$上的外部坐标,即函数在每个样本上的预测值

RKHS 理论到这一步还是很简洁漂亮的,当然也看不到任何应用的曙光

正定函数


如果对称函数$h: X \times X \mapsto \Rbb$对$\forall (a_1, \ldots, a_n) \in \Rbb^n, \forall (\xv_1, \ldots, \xv_n) \in X^n$有$\sum_{i=1}^n \sum_{j=1}^n a_i a_j h(\xv_i, \xv_j) \geq 0$,则称其为正定函数

再生核是正定的,对于再生核$k$,由再生性有$\langle k(\cdot, \xv), k(\cdot, \yv) \rangle = k(\xv, \yv)$,从而$\sum_{i=1}^n \sum_{j=1}^n a_i a_j k(\xv_i, \xv_j) = \| \sum_{i=1}^n a_i k(\cdot, \xv) \|^2 \geq 0$

事实上一旦$h$可以写成内积的形式,必然是正定函数

上述结论倒过来也是成立的,Moore–Aronszajn 定理给出了构造性证明,任何正定函数,都对应着唯一的一个RKHS以其为再生核

Moore–Aronszajn 定理证明非常冗长,这是 RKHS 理论不美的地方,这里略过了; 大致思路和完备化定理一样,先构造一个不完备的内积空间,文献中一般称其为 pre-RKHS,然后求闭包,再验证内积的定义、Dirac 泛函的连续性等都能传递过去

Dirac 泛函的连续性在完备化过程中有个额外的功效,它可以保证 pre-RKHS 完备成 RKHS 像$\Qbb$完备成$\Rbb$一样完美,只需添加元素,其余保持不变

正定函数还有个等价的表述,是其对应的任意阶核矩阵$(\Kv)_{ij} = h(\xv_i, \xv_j)$都半正定,这意味着存在$\Bv$使得$\Kv = \Bv^\top \Bv$,注意$\Bv$显式给出了一个映射$\psi$使得$h(\xv_i, \xv_j) = \psi(\xv_i)^\top \psi(\xv_j)$,这启发我们引入如下核函数特征映射的概念

$X$为任意集合,函数$k: X \times X \mapsto \Rbb$,如果存在 Hilbert 空间$V$和映射$\phi: X \mapsto V$使得对$\forall \xv, \yv \in X$有$k(\xv, \yv) = \langle \phi(\xv), \phi(\yv) \rangle$成立,则称$k$为核函数,$\phi$为特征映射,$V$为特征空间

核函数有内积的形式,显然是正定的,这样就得到了 RKHS 的第三个定义:

$X$为任意集合,函数$k: X \times X \mapsto \Rbb$,如果存在 Hilbert 空间$V$和映射$\phi: X \mapsto V$使得对$\forall \xv, \yv \in X$有$k(\xv, \yv) = \langle \phi(\xv), \phi(\yv) \rangle$成立,则存在以$k$为再生核的唯一的 RKHS

考虑$X = \Rbb$,$k(x,y) = xy = [ \frac{x}{\sqrt{2}}, \frac{x}{\sqrt{2}}] [ \frac{y}{\sqrt{2}}, \frac{y}{\sqrt{2}}]^\top$,这对应了特征映射$\phi_1(x) = x$和$\phi_2(x) = [ \frac{x}{\sqrt{2}}, \frac{x}{\sqrt{2}}]$,哪一个是 RKHS ?

三重视角


  • Dirac 泛函连续有界: 要求 RKHS 中的函数都是逐点收敛的
    • 考虑$\min_\wv \|\wv\|^2 + C \sum_i l_i(y_i, \wv^\top \xv_i)$,如果没有逐点收敛,在$\wv$发生微小改变时,只有第一项连续变化,第二项可能会发生突变,给优化算法增加不稳定性
    • 理论上完备化后的空间里都是原来空间中 Cauchy 序列的等价类,元素性质已经发生改变了; 函数逐点收敛可以使得 pre-RKHS 完备成 RKHS 像$\Qbb$完备成$\Rbb$一样完美,只需添加元素,剩下的保持不变
  • 再生核: 提供了一组张成$H$的基$\{ k(\cdot, \xv) \mid \xv \in X \}$
    • 每个元素都有自己在$H$上的内部坐标,它们是对偶问题的优化变量
    • 通过再生性质建立预测值和对偶的联系
  • 正定核函数: 给出了实际可以使用 RKHS 的途径 — 构造正定核函数
    • 可以从已知核函数通过“保核”操作生成一些新的核函数
    • 中文教程里出镜率贼高的$\phi(x,y) \mapsto [x^2, \sqrt{2}xy, y^2]$和 RKHS 没有半毛钱关系,不要上来秀了一堆玩具映射,然后甩个 RKHS 给人家,误人子弟

\begin{align*} \color{gold}{\enclose{box}{\cdots}: 隐藏关~可跳过} \\ \begin{matrix} & & \color{gold}{向量空间} \\ & \color{gold}{\nearrow} & & \color{gold}{\searrow} \\ \color{gold}{空间} & & & & \color{gold}{赋范空间} & \color{gold}{\rightarrow} & \color{gold}{内积空间} \\ \color{gold}{\downarrow} & & & \color{gold}{\nearrow} & \color{gold}{\downarrow} & & \color{gold}{\downarrow} \\ \color{gold}{拓扑空间} & \color{gold}{\rightarrow} & \color{gold}{度量空间} & & \color{gold}{\mathrm{Banach}空间} & & \color{gold}{\mathrm{Hilbert}空间} \\ \color{gold}{\downarrow} & & \color{gold}{\downarrow} & & & & \color{gold}{\downarrow} \\ \color{gold}{\enclose{box}{T_2空间等}} & & \color{gold}{完备度量空间} & & & & \color{gold}{\mathrm{RKHS}} \end{matrix} \end{align*}


恭喜通关