上一篇文章介绍了泛函和变分产生的背景,参考求函数最值的思路,通过寻找稳态函数来发现泛函的最值Extrema。本文将对泛函具体的求解方法欧拉-拉格朗日方程(Euler-Lagrange Equation) 进行推导。
如果说相对论和量子力学是在极快和极小的物理世界颠覆了牛顿力学,那么拉格朗日力学就牛了,它在牛顿力学如日中天的经典力学领域革命性的提供了一个全新的理论体系,把力学从几何变成了分析,而且在量子力学中也一以贯之。
欧拉-拉格朗日方程在贝叶斯机器学习中也占有一席之地。
目录
- 变分简史回顾
- 欧拉-拉格朗日方程推导
- 两个例子
- 汉密尔顿力学与镜面反射
- 拉格朗日量与汉密尔顿量的对比
- 解读薛定谔方程
1.变分简史回顾:
- 1638年,伽利略(Galileo Galilei)提出了「最速降线」应该是直线下方的某条线,引发了求解最值函数的需求,注意不是函数最值哦。
- 1687年,牛顿在解决了最小阻力问题(Newton's minimal resistance problem),该问题被认为是首个变分问题,拉开了变分法的序幕。
- 1696年,瑞士数学家约翰·伯努利(Johann Bernoulli)向所有数学家提出了挑战,收到了牛顿、他哥雅各布·伯努利(Jakob Bernoulli)等5人的答案,变分法思想已初步呈现。
- 1733年,欧拉(Leonhard Euler)首次完成了欧拉方程。
- 1755年,年仅17岁的拉格朗日将使用 算符的工作寄给欧拉,欧拉看后放弃了自己使用部分几何的方法,转向拉格朗日纯分析的方法,欧拉-拉格朗日方程诞生!
- 1756年,欧拉在其讲座中正式称这种方法为:变分(calculus of variations)[1]。
2. 欧拉-拉格朗日方程推导
本节对变分中最核心的欧拉-拉格朗日方程进行详细推导,步骤尽量详细。也可跳过数学证明,直接看本节最后两段的结论,不影响对后文的理解。
变分关心的泛函的最大值和最小值(统称为Extrema)。
方法上:回顾求函数最值时,令函数一阶导数为0确定驻点(Stationary Point);变分寻找一个平稳函数(Stationary Function),对其进行微小的改变,变成时(如图中的y'),。已知:,。
(1)
先考虑对第一项中的 进行一阶泰勒展开,在 不变的情况下:
(2)
将(2)代入(1),消去 :
(3)
积分中第2项中 可以写成 ,变分和微分都是对小量的处理,数学上可以证明:两者顺序可以交换, 变成了: (4)
将(4)代入(3):
(5)
对积分中第2项采用分部积分法:
令
(6)
将(6)代入(5):
(7)
对 进行积分,其余两项提取公因式 得到
(8)
已知 ,所以第一项 等于0。
类似与令函数一阶导数为0,我们希望 ,第二项中 对应上面两条曲线之间的差,是我们无法控制的任意量,所以要 ,就必需要: ,这便是欧拉方程,1733年欧拉的工作,但到1755年,拉格朗日给欧拉写信使用了 算符,欧拉感觉比他原来部分几何的方法更好,于是变成了这个样子,即欧拉-拉格朗日方程(Euler-Lagrange Equation)。
1766年,在欧拉的推荐下,拉格朗日移居柏林,接替欧拉担任普鲁士科学院数学主任,长达20年之久,建立了拉格朗日力学,把力学从几何变成了分析,从另一个更简洁的角度对重新认识了经典力学。
欧拉-拉格朗日方程 与分析力学中拉格朗日方程 在形式上完全相同的,拉格朗日量 对应 ,表示动能和势能之差: ;时间 对应 ; 广义坐标对应 ,牛顿力学一般使用笛卡尔坐标系,在处理多约束条件时比较麻烦;分析力学选取更合理的广义坐标,使约束力与运动方向垂直不做功,大幅简化了问题。
- 速度是位移的一阶导数:
- 加速度是位移的二阶导数:
- 牛顿第二定律:
3. 两个例子
例1: 用欧拉-拉格朗日方程表达自由落体。
这里就是位移
即 ,或 。
例2: 弹簧的简谐震动。
即胡克定律:
4. 汉密尔顿力学与镜面反射
欧拉-拉格朗日方程 的解对应变分 的最值,即稳态函数,对该函数施加一个小的扰动, 。
相应的,拉格朗日方程 的解也对应变分 的最值,此处 ,这便是汉密尔顿原理,数学形式和欧拉-拉格朗日方程完全相同,但物理意义完全不同。汉密尔顿原理认为,大自然会选择的路径是作用量取到最值的情况,对于经典力学来说,通常为最小值,也即最小作用量原理。汉密尔顿原理形式上简单优美,被视为分析力学的最高原理,从这个公式出发也可以推导出拉格朗日力学和牛顿力学的所有内容。
最后的最后,还有个问题:大自然真这么聪明吗?难道它会尝试不同路径并选择作用量最小的路径?还是它会解微分方程?
要回答这个问题,我们还是向当年的约翰伯努利那样,先求助于光学,考察下司空见惯光反射现象,反射角等于入射角,有没有可能光也会走其他路径呢?答案是:YES,但是我们观察不到,因为它们互相抵消了。反射角等于入射角的稳态函数的路径作用量最小,如果对这条路径进行微小扰动,变分为0,光程相同,光的相位相同,干涉时彼此叠加增强,但只有最值路径才有这种效果。
其他路径(入射角不等于反射角)的变分不为0,光程存在明显差异,光波干涉相互抵消,所以观察不到。后者可以通过光栅实验证明,在镜面上做一些不反射光的划痕(间隔非常小,光波长的尺度),因此存在部分光线不能相互抵消,于是,出现了诡异的一幕:一条入射光,通过镜面反射后,产生多条反射光!这说明,当实验尺度接近光波尺度时,几何光学可能会失效,需要波动光学才能解释。
那么,物质粒子为啥要遵守汉密尔顿最小作用量原理呢,这些粒子并非具有先见之明,也不可能会计算微分方程,解释只有一个,和光一样,物质粒子也具有波动性!德布罗意的博士论文提出了物质波(Matter Wave)的概念。如果实验尺度再小一点,达到物质粒子的波长尺度,经典力学也会失效,需要“波动力学”才能解释,波动力学即量子力学。分析力学也因此被视为牛顿力学和量子力学的连接点,其思想在量子力学中仍然有效。
5. 拉格朗日量与汉密尔顿量的对比
第一次看到 时感觉很奇怪,热力学第一定律告诉我们能量不灭,动能和势能相加等于常数不香吗(汉密尔顿量也确实是两者之和),动能减势能是什么鬼?
查了很多资料,一直没有满意的答案。直到看到这张图[2],才恍然大悟:
与汉密尔顿量相比(绿线),拉格朗日量(红色)表达了在时间维度上能量变化的过程!
6. 解读薛定谔方程
在德布罗意提出物质波之后的三年,薛定谔提出了薛定谔方程:
前文提到了汉密尔顿量,已具备解读薛定谔方程的大致含义的基础:
表示量子状态;
表示量子状态的变化率;
是两个常数,其中 是虚数单位 , 是约化普朗克常数;
是汉密尔顿操作符,不严格的说就是势能+动能;
put everything together,薛定谔方程的核心思想是:量子状态的变化率取决于其总能量。
评论(0)
您还未登录,请登录后发表或查看评论