包含关键字 TransformerTransformer升级之路的文章

29 Oct

《新理解矩阵1》：矩阵是什么？

By 苏剑林 | 2012-10-29 | 74349位读者 | 引用

前边我承诺过会写一些关于自己对矩阵的理解。其实孟岩在《理解矩阵》这三篇文章中，已经用一种很直观的方法告诉了我们有关矩阵以及线性代数的一些性质和思想。而我对矩阵的理解，大多数也是来源于他的文章。当然，为了更好地理解线性代数，我还阅读了很多相关书籍，以求得到一种符合直觉的理解方式。孟岩的blog已经很久没有更新了，在此谨引用他的标题，来叙述我对矩阵的理解。

当然，我不打算追求那些空间、算子那些高抽象性的问题，我只是想发表一下自己对线性代数中一些常用工具的看法，比如说矩阵、行列式等。同时，文章命名为“理解矩阵”，也就是说这不是矩阵入门教程，而是与已经有一定的线性代数基础的读者一起探讨关于矩阵的其他理解方式，仅此而已。我估计基本上学过线性代数的读者都能够读懂这篇文章。

首先，我们不禁要追溯一个本源问题：矩阵是什么？

点击阅读全文...

分类：数学研究标签：代数, 矩阵, 线性阅读全文 13 评论

31 Oct

《新理解矩阵2》：矩阵是什么？

By 苏剑林 | 2012-10-31 | 36892位读者 | 引用

上一篇文章中我从纯代数运算的角度来讲述了我对矩阵的一个理解，可以看到，我们赋予了矩阵相应的运算法则，它就在代数、分析等领域显示出了巨大作用。但是纯粹的代数是不足够的，要想更加完美，最好是找到相应的几何对象能够与之对应，只有这样，我们才能够直观地理解它，以达到得心应手的效果。

几何理解

我假设读者已经看过孟岩的《理解矩阵》三篇文章，所以更多的细节我就不重复了。我们知道，矩阵A

$$\begin{pmatrix}a_{11} & a_{12} \\ a_{21} & a_{22}\end{pmatrix}$$

事实上由两个向量$[a_{11},a_{21}]^T$和$[a_{12},a_{22}]^T$（这里的向量都是列向量）组成，它描述了一个平面（仿射）坐标系。换句话说，这两个向量其实是这个坐标系的两个基，而运算$y=Ax$则是告诉我们，在$A$这个坐标系下的x向量，在$I$坐标系下是怎样的。这里的$I$坐标系就是我们最常用的直角坐标系，也就是说，任何向量（包括矩阵里边的向量），只要它前面没有矩阵作用于它，那么它都是在直角坐标系下度量出来的。

点击阅读全文...

分类：数学研究标签：代数, 几何, 矩阵, 线性阅读全文 3 评论

4 Nov

《新理解矩阵3》：行列式的点滴

By 苏剑林 | 2012-11-04 | 40730位读者 | 引用

本文的最新版本位于：http://kexue.fm/archives/2208/

亲爱的读者朋友们，科学空间版的理解矩阵已经来到了BoJone认为是最激动人心的部分了，那就是关于行列式的叙述。这部分内容没有在孟岩的文章中被谈及到，是我自己结合了一些书籍和网络资源而得出的一些看法。其中最主要的书籍是《数学桥》，而追本溯源，促进我研究这方面的内容的是matrix67的那篇《教材应该怎么写》。本文包含了相当多的直观理解内容，在我看来，这部分内容也许不是正统的观点，但是至少在某种程度上能够促进我们对线性代数的理解。

大多数线性代数引入行列式的方式都是通过讲解线性方程组的，这种方式能够让学生很快地掌握它的计算，以及给出了一个最实际的应用（就是解方程组啦）。但是这很容易让读者走进一个误区，让他们认为线性代数就是研究解方程组的。这样并不能让读者真正理解到它的本质，而只有当我们对它有了一个直观熟练的感觉，我们才能很好地运用它。

行列式的出现其实是为了判断一个矩阵是否可逆的，它通过某些方式构造出一个“相对简单”的函数来达到这个目的，这个函数就是矩阵的行列式。让我们来反思一下，矩阵可逆意味着什么呢？之前已经提到过，矩阵是从一个点到另外一个点的变换，那么逆矩阵很显然就是为了把它变换回来。我们还说过，“运动是相对的”，点的变换又可以用坐标系的变换来实现。但是，按照我们的直觉，不同的坐标系除了有那些运算上的复杂度不同（比如一般的仿射坐标系计算点积比直角坐标系复杂）之外，不应该有其他的不同了，用物理的语言说，就是一切坐标系都是平权的。那么给出一个坐标系，可以自然地变换到另外一个坐标系，也可以自然地将它变换回来。既然矩阵是这种坐标系的一个描述，那么矩阵不可逆的唯一可能性就是：

这个$n$阶矩阵的$n$个列向量根本就构不成一个$n$维空间的坐标系。

点击阅读全文...

分类：数学研究标签：代数, 矩阵, 线性阅读全文 4 评论

30 Nov

算子与线性常微分方程(上)

By 苏剑林 | 2012-11-30 | 41235位读者 | 引用

简介

最近在学习量子力学的时候，无意中涉及到了许多矩阵（线性代数）、群论等知识，并且发现其中有不少相同的思想，其中主要是用算子来表示其对函数的作用和反作用。比如我们可以记$D=\frac{d}{dx}$，那么函数$f(x)$的导数就可以看作是算子D对它的一次作用后的结果，二阶导数则是作用了两次，等等。而反过来，$D^{-1}$就表示这个算子的反作用，它把作用后的函数（像）还原为原来的函数（原像），当然，这不是将求导算子做简单的除法，而是积分运算。用这种思想来解答线性微分方程，有着统一和简洁的美。

线性微分方程是求解一切微分方程的基础，一般来说它形式比较简单，多数情况下我们都可以求出它的通解。在非相对论性量子力学的薛定谔方程中，本质上就是在求解一道二阶偏线性微分方程。另一方面，在许多我们无法求解的非线性系统中，线性解作为一级近似，对于定性分析是极其重要的。

一阶线性常微分方程

这是以下所有微分方程求积的一个基础形式，即$\frac{dy}{dx}+g(x)y=f(x)$的求解。这是通过常数变易法来解答的，其思想跟天体力学中的“摄动法”是一致的，首先在无法求解原微分方程的时候，先忽略掉其中的一些小项，求得一个近似解。即我们先求解
$$\frac{dy}{dx}+g(x)y=0$$

点击阅读全文...

分类：数学研究标签：微分方程, 线性, 算子阅读全文 6 评论

30 Nov

算子与线性常微分方程(下)

By 苏剑林 | 2012-11-30 | 21217位读者 | 引用

不可交换

很自然会想到把这种方法延伸到变系数微分方程的求解，也许有读者回去自己摆弄了一下却总得不到合适的解而感到困惑。在这里群的非Abel性就体现出来了，首先用一个例子来说明一下，我们考虑算子的复合
$$(D-x)(D+x)=D^2-x^2+(Dx-xD)$$

我们要谨慎使用交换律，我们记$[P,Q]=PQ-QP$

其中P和Q是两个算子，此即量子力学中的“对易式”，用来衡量算子P和算子Q的可交换程度，当然，它本身也是一个算子。我们先来求出$[D,x]$给出了什么（要是它是0的话，那就表明运算可以交换了）。究竟它等于什么呢？直接看是看不出的，我们把它作用于一个函数：
$$[D,x]y=(Dx-xD)y=D(xy)-xDy=yDx+xDy-xDy=y$$

由于“近水楼台先得月”，所以$Dxy$表示x先作用于y，然后D再作用于(xy)；而$xDy$表示D先作用于y，然后x再作用于Dy。最终我们得到了

点击阅读全文...

分类：数学研究标签：微分方程, 线性, 算子阅读全文 1 评论

23 Dec

“末日”的快乐！

By 苏剑林 | 2012-12-23 | 15251位读者 | 引用

传说中的“末日”，正好是中国传统的冬至节。它的到来并没有引起我们的恐慌，反而，让我有一颗更加平静的心去享受“过冬”的乐趣。

冬至在我们农村是很重要的一个节日，一般来说全家人都要聚在一起吃顿饭，还会包粽子等等。来到广州之后，回去就自然不大方便了，不过我还是想找找那种节日的感觉。于是，下午我就跑到华师西门那里，看看有没有粽子卖。不过发现西门那里基本上都是一些风味小吃，没有那久违的粽子香。不过，忽然想起小飞说她们那里冬至是吃汤圆的，好吧，入乡随俗，我也买了两包汤圆回宿舍煮啦。

点击阅读全文...

分类：生活/情感标签：友谊, 经历阅读全文抢沙发

14 Dec

关于“微分”的理解

By 苏剑林 | 2012-12-14 | 33637位读者 | 引用

我从来不想在教科书上的定义上纠结太多，因为我知道，真正对定义的理解，需要在长期的实践应用中慢慢感悟的，所以我们唯一需要做的是继续我们的研究。

但是前些天有些朋友问到我关于微分的理解，比如“dx是不是一定很小”等等，所以决定在此写写我的理解。

与微分联系很紧密的，也是我们很熟悉的东西，当然是“增量 ”啦，比如$\Delta y$、$\Delta x$等等，增量显然是可以任意大的（只要自变量还在定义域内）。那么考虑一个函数$y=f(x)$，函数的微分是怎么出现的呢？那是因为我们直接研究函数的增量是比较麻烦的，所以就引入了微分dy，当$\Delta x$很小时，它代表增量的主项：$\Delta y=dy+o(\Delta x)=A \Delta x+o(\Delta x)$，A是一个常数。

点击阅读全文...

分类：数学研究,问题百科标签：微积分, 导数阅读全文 3 评论

18 Dec

黑洞融合的简单模拟

By 苏剑林 | 2012-12-18 | 26182位读者 | 引用

在天文爱好者眼中，黑洞是一个球体，其半径为$\frac{2GM}{c^2}$；这是广义相对论的施瓦兹黑洞的结果，也从经典力学推导推导出来，虽然用经典力学是错误的，但是对于多数的天文爱好者（包括笔者）来说，这是目前唯一的一种可行的理解方法（广义相对论那些复杂推导会让我们很崩溃的）。当然，事实上，黑洞不是一个球体，它只是一个密度很大的点。至于密度有多大，目前公认的说法是无穷大，但是严格的物理是不接受这个说法的，或者说，物理是不会接受任何无穷大的说法，所以现在积极发展量子引力理论来统一相对论和量子力学，不过这是另话了。$\frac{2GM}{c^2}$只不过是黑洞的视界，视界之内，我们就什么也不知道了。本文主要就从经典力学的角度探讨一下两个黑洞的合并过程中其视界的变化。读者将会发现，这些视界的形状相当有趣。

经典力学中的黑洞是这样定义的：天体表面的逃逸速度超过了光速，于是连光都无法逃脱，所以这个“洞”就很黑。也就是说，光子的总能量（引力势能与动能之和，经典力学意义下的）要为负，负数表示受到束缚。用数学公式来讲，就是：

$$\frac{1}{2}mc^2 - \frac{GM_1 m}{r_1}-\frac{GM_2 m}{r_2}-...-\frac{GM_n m}{r_n} \leq 0$$

点击阅读全文...

分类：天文探索标签：引力, 黑洞, 天体阅读全文 2 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

《新理解矩阵1》：矩阵是什么？

《新理解矩阵2》：矩阵是什么？

《新理解矩阵3》：行列式的点滴

算子与线性常微分方程(上)

算子与线性常微分方程(下)

“末日”的快乐！

关于“微分”的理解

黑洞融合的简单模拟

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接