跳到主要内容

数学通识

信息
2024年9月2日 · ·

Welcome to ThreeFish · General Mathematics!

《吴军数学通识讲义》

  • 原来当代与古希腊奴隶对等的公众就是所谓白领。

原文:古希腊很多奴隶其实属于白领,甚至是合伙人。他们可能是管家、家庭教师、乐师、画匠,甚至是店长--他们经营店铺,和主人分利。但不管奴隶的物质生活水平怎么样,是否有经济收入,他们都不是自由民,即便不少奴隶是有相当的人身自由的。

  • 得有先从泥淖里出来的条件。

原文:古希腊的很多奴隶都不是文盲,他们也接受教育,能识文断字,但是他们所学的都是谋生的技能。因为不是自由民,他们就不具有社会主人的心态,不会去操心那些自由民要操心的事情,当然也不用学习自由民才要学的知识,以及行使社会主人权力所需要的素养。因此,在古希腊,是否接受过通识教育,是区别自由民和奴隶的依据。

◆ 上述每一个通识讲义的单本,都会包括精选出的每个人都应该了解的知识点,它们的来龙去脉和用途,它们在学科体系中的地位,它们对人类的思维和认知起到过什么作用,以及它们对我们认知升级有什么帮助。

◆ 如果我们把提升认知水平和掌握思维方法作为学习数学的目的,其实根本不需要面面俱到学习非常多的内容,重要的是通过一些线索将各种有用的知识点贯穿起来,理解数学的方法,并利用好那些方法。

◆ 对于无穷大和无穷小这样的概念,很多人依然以为它们只是巨大的数字和极小的数字。事实上它们和我们日常遇到的具体数字不同,它们代表的是变化的趋势和变化的快慢。因此,从小学到了大学,大家对数字的理解就应该从静态发展到动态,但是实际情况并非如此。

◆ 纵观数学发展的历程,以及人类的数学思维不断拓展的历程,我们可以看到这样的趋势:从个案到整体规律,从个别定理到完整的知识体系,从具体到抽象,从完全的确定性到把握不确定性,这既是人类认知升级的过程,也应该是从小到大接受知识、提高认识的过程。

◆ 根据《时间简史(普及版)》和《大设计》的共同作者伦纳德·蒙洛迪诺(LeonardMlodinow)在《思维简史:从丛林到宇宙》一书中的讲法,人类自文明诞生之初(从美索不达米亚的苏美尔文明算起),发展了几千年,形成的所有知识体系都只能算是“前科学”。“前科学”是一种好听的说法,难听的说法叫作“巫术式”的知识体系,因为它充满了主观色彩和神秘性。在所有早期文明中,唯一的例外是古希腊。但即使是在古希腊,我们所知的、很多在科学上有重大贡献的大学问家们,比如泰勒斯、赫拉克利特、亚里士多德,他们的思维依然是前科学的,而不是科学的。因为他们对客观世界的解释,虽然有基于客观现实的成分,但是依然加入了太多主观的想象。让古希腊文明在科学上和其他早期文明真正有所不同的,是一位划时代的人物--毕达哥拉斯。

1.1 勾股定理:为什么在西方叫毕达哥拉斯定理

◆ “勾三股四弦五”的说法和“两条直角边的平方之和等于斜边的平方”这种陈述是两回事。前者只是一个特例,再多的特例所描述的规律,可能只适用于特例,而没有普遍性。

◆ 不能有例外,非常绝对

◆ 在数学上,观察的结果只能给我们启发,却不能成为我们得到数学结论的依据,数学上的结论只能从定义和公理出发,使用逻辑,通过严格证明来得到,不能靠经验总结出来

◆ 这里面最著名的例子就是哥德巴赫猜想,即任一大于 2 的偶数都可以写成两个素数之和。今天人们利用计算机,在可以验证的范围内,都验证了这个猜想是对的,但是因为没有穷尽所有的可能,就不能说猜想被证明了。因此,我们依然不能在这个猜想的基础上,构建其他的数学定理。

◆ 如果有平行宇宙存在,我们这个宇宙中的物理学规律、化学规律很可能在其他的宇宙中不再适用,但数学中的定理会依然成立。

1.2 数学的预见性:无理数是毕达哥拉斯定理的推论

◆ 互素指的是两个数写成分数的形式时不可再约分

◆ 认识本身不能有禁区,那些事先为科学设定的条条框框,最终都不得不被抛弃掉

1.3 数学思维:如何从逻辑出发想问题

◆ 一个不变的事实就是,任何建立在空中楼阁之上的复利增长都难以持续,比如庞氏骗局。

◆ 数学思维依据的不是大家的看法,不是专家的意见,也不是历史的经验,而是永远不会变的事实,以及并不复杂的逻辑推理。

◆ 那时,全世界都没有足够的财富买得起中国不断制造的产品和不断提供的服务。这时只有两个办法,一个是提高世界其他地区的购买力和经济增长,另一个是让中国经济增长降到世界的平均水平。

◆ 在后一个资本输出的例子中,我用数学发现必须做什么。这其实都用到了逻辑学中的矛盾律。什么是矛盾律?它是说一个事物不能既有 A 属性,又没有 A 属性。比如我们在前面提到证明 √2 是无理数时,如果它是有理数 plq,那么 p 和 q 这两个整数,既不能同时是偶数,又必须同时是偶数,这就违背了矛盾律。在次贷的例子中,一方面房贷的总值不能超过房市的价值,这是常识,但另一方面,房贷的一部分--其衍生品 CDS 的盘子却比整个房市的价值大,这就违反了矛盾律。类似的,中国不可能既拥有全世界大部分的财富,还让世界其他地区买得起中国的产品,这也违背了矛盾律。

◆ 今天认知升级是一个时髦的字眼,它其实不过是掌握了数学的思维方式并对其灵活应用。

1.4 黄金分割:数学和美学的桥梁

◆ 等角螺旋线

◆ 单点透视的方法,即将图中的景物,由近及远最后汇聚到一点。这样就将三维形象绘制到一个二维平面上。

◆ 印象派绘画的一大特点,就是很好地利用了当时人类在物理上对于色彩和亮度认识的进步。

1.5 优选法:华罗庚化繁为简的神来之笔

  • 这个比例有什么讲究吗?

原文:在投资的配比上,有经验的投资顾问通常建议将 62%左右的资 产放在回报高、风险也相对高的股市上,这基本上符合黄金分割的比例。在剩余的大约 38%的资产中,大约 24%的资产放在相对稳妥的债券上,这一值大约是 38%的黄金分割点。最后的百分之十几的资产,则是各种复杂的组合投资。

◆ 在投资的配比上,有经验的投资顾问通常建议将 62%左右的资 产放在回报高、风险也相对高的股市上,这基本上符合黄金分割的比例。在剩余的大约 38%的资产中,大约 24%的资产放在相对稳妥的债券上,这一值大约是 38%的黄金分割点。最后的百分之十几的资产,则是各种复杂的组合投资。

◆ 很多投资人给创业者的建议也是如此,即不要把大部分时间花在想做什么事情上,而需要花更多的时间来做。因此在一开始,创业者可以尽量尝试,但是在时间过了 38%左右,就应该明确自己该做什么了,然后把大部分时间用于做好这件事上。

◆ 采用黄金分割进行简单的试错,不失为一种高效率、高收益的做事方法。只要我们遵守一定的准则,就不会得到太坏的结果,这其实反映出数学原理的普适性。

◆ 很多人抱怨数学不够灵活,更喜欢所谓的具体问题具体分析。其实考虑到成本和收益的比值,简单而硬性的原则会比没有准则或者随意调整的准则要好得多。而数学的原则,是少数我们能够信赖的原则。

2.1 数学的关联性:斐波那契数列和黄金分割

◆ 其次,斐波那契数列增长的速率,几乎是一个企业扩张时能够接受的最高的员工数量增长速率,如果超过这个速率,企业的文化就很难维持了。这是因为企业在招入新员工时,通常要由一名老员工带一名新员工,缺了这个环节,企业人一多就各自为战了。而当老员工带过两三名新员工后,他们就会追求更高的职业发展道路,不会花太多时间继续带新人了,因此带新员工的人基本也就是职级中等偏下的人。这很像兔子繁殖,只有那些已经性成熟且还年轻的兔子在生育。

2.2 数列变化:趋势比当下重要

◆ 我们除了关心数列除了本身的趋势,还要关心它累积的效果。

2.3 级数:传销骗局里的数学原理

◆ 我们假定第一批核裂变的原子数量是 a,释放的三个中子能够命中新的原子核的平均数量是 r,那么第二批核裂变的原子数量是 ar 个,第三批是 ar 个,……。这样就形成了一个等比数列。

◆ 有好几次,我的一些企业家朋友遇到公关危机,被一些自媒体做了不实的报道,然后受到网友的攻击。他们让我帮忙讲讲好话,我通常会和他们讲,这种时候,最好的做法就是什么事情都别做,不要引起新的话题,因为通常新闻传播的 r 值会衰减得很快,负面影响会很快结束。不断解释,不过是让 r 值长期维持在较高的水平。

2.4 等比级数:少付一半利息,多获得一倍回报

◆ 很多人在买房子时,会为省一万块钱来回讨价还价,但是他们在接受贷款利率时,常常在不知不觉中会多付出 0.5%甚至更高的利率,这其实是捡了芝麻丢了西瓜。

◆ 我们讲,人要在边界里做事情,既然计算利息已经超出了自己的能力边界,就不要去借不该借的钱,而是应该恪守上面的原则。

◆ 在道的层面,我们更多的是通过数学学会看到变化,以发展和全面的方式思考问题,克服我们自身固有的静态的、孤立的和片面的思维方式;在术的层面,我们应当更多地将数学理解为工具,同时通过学习数学,学会使用工具。

3.2 探寻数学的边界:从希尔伯特第十问题讲起

◆ 数学有别于人类所构建的所有其他的知识体系,它是唯一一个具有绝对正确结论(用莱布尼茨的话讲就是 absolutetruth)的学科,因为数学是建立在公理和逻辑基础上的,只要自洽就是正确的。

◆ 数学的定理一旦成立,就有普世的意义,而不像自然科学的规律是会随着条件而改变的

◆ 数学定理的证明只能从定义和公理出发,靠逻辑推理来完成。数学的大厦,就是以公理和定义为基础,靠一条条定理,搭建而成,连接它们的是逻辑。

4.1 鸡兔同笼问题:方程这个工具有什么用

◆ 方程从本质上讲是人类设计出的一种数学工具,利用这种工具,解决一些在算术中遇到的难题特别方便。

◆ 同样的道理也可以用在学习上,如果一个人花了很大力气还学不好数学,就要想想是否在学习方法上出错了,是不是把重点放在了零碎知识的积累和具体解题技巧的掌握上?

◆ 对于理解能力不算太强的小学生来讲,一种数学工具的易学性和通用性,要远比巧妙性来得重要。

◆ 在使用方程这个工具时,最难的部分是把用自然语言描述的现实世界的问题变成用数学语言描述的等式,这也就是我们常说的列方程。人的作用其实相当于一种翻译器,做练习题的目的就是练习 把自然语言翻译成数学语言,然后用现成的工具解决它们。学习数学也好、物理也好,关键不在于刷多少道题,而是在于理解这些知识体系中工具的作用。尤其是遇到很难的数学题,常常不是靠钻牛角尖苦思冥想来解决,而是要采用更高层次的工具。

◆ 解方程这种方法从本质上讲是逆向思维--我们对于要求解的问题先存疑,带着疑问把问题描述清楚,然后反向推理,一步步得到答案。

4.2 一元三次方程的解法:数学史上著名的发明权之争

◆ 通常人们会先发现解决特定简单问题的引理。

◆ 理解决了一大类通用的问题,具有里程碑的意义,但它不是凭空产生的,而是在之前认知的基础上推进而来的。数学的发展就是这样层层叠加的,而学习数学也应该如此。

◆ 重要的是把实际问题变成数学问题,然后知道如何利用各种软件工具来解决,而不是花很多时间学一大堆无法举一反三的技巧。

◆ 一元三次方程是一定有实数解的

4.3 虚数:虚构的工具有什么用

◆ 明明是现实世界的问题,而且在现实世界里也有答案,但是却无法直接得到,非要发明一个不存在的东西作为桥梁。发明这种桥梁通常需要我们具有非常强的抽象思维能力,善于引人一个和实际问题看似无关的工具来解决问题。

◆ 很多人觉得数学越到后来越难学,就是没有能突破抽象思维的瓶颈。

◆ 自从勾股定理被发现,人类就不得不面对开方这件事,于是又定义了无理数。再往后,又因为要对负数开方,便发明了虚数的概念。实数和虚数合在一起,就形成了复数。我把人类认识数的过程用图 4.1 表示出来,它是从中心往四周扩散的。

◆ 今天,一个人接受虚拟概念的能力,是衡量他的认知水平的一个重要因素。如果他只停留在看得见摸得着的东西,他的水平就不是很高。

5.1 无穷大:为什么我们难以理解无限大的世界

◆ 我们不能以有限的认知,去理解无限的事物,能够洞察无限世界的,只有逻辑。

5.2 无穷小:芝诺悖论和它的破解

◆ 无穷小需要满足下面两个条件:(1)它不是零;(2)它的绝对值小于任何一个你能够给定的数。

◆ 无穷多个无穷小量加起来是多少呢?有三种情况,分别是:有限的数、无穷大或者无穷小。具体是哪种情况,要看是相应的无穷大往“远方”发展的速度快,还是无穷小往零的方向趋近的速度快,用数学的话讲,就是谁的阶高

◆ 在自然科学领域,用发展趋势取代静态视角来解释自然界的现象也成为一种潮流。比如现代物理学中的弦论,被认为是到目前为止最有可能统一相对论和量子力学的工具,相比今天建立在基本粒子上的物理学模型,弦论讲得就不是一个个具体的点,而是一个个趋势。

5.3 第二次数学危机:牛顿和贝克莱的争论

◆ 芝诺注意到了当时间间隔 Δt 趋近于零的时候,箭头飞行的距离(即位移)Δs 也趋近于零。但是,芝诺所不知道的是,它们的比值,也就是速度,并不是零。

◆ 导数概念的提出,使得人类能够从掌握平均规律,进入到掌握瞬间规律,从对变化本身的观察,上升为对变化速度的观察,这是人类认知的一次飞跃

◆ 挑战牛顿说,你说的无穷小的时间 Δt 到底是不是零?如果是零,它不能做分母;如果不是零,你的公式给出的依然是一个平均速度(虽然是很短暂的时间间隔),而不是瞬时速度。

◆ 无穷小这个概念本身,它是导数的基础,也是很多高等数学工具(比如收敛的数列、公理化的实数)正确性的基础。利用这些工具,人类才得以从静态或者宏观变化把握住瞬间的动态变化或者微观变化,然后近代的物理学和天文学,以及后来的古典经济学,才得以建立。

◆ 所谓时代的危机,就是因为它的成因超出了那个时代所有人的认知,才会成为危机

5.4 极限:重新审视无穷小的世界

◆ 物理学家理查德·费曼(RichardFeynman)对一些低质量物理书的评论--对新概念的定义只是字面上的解释,其结果是,你原来不懂,看了定义可能还是不太懂。

  • 极限的概念。

◆ 魏尔斯特拉斯超出前人和常人的地方有两个:一个是他定量地描述出无限的趋势,另一个是他用逆向思维让大家理解了这种趋势的含义。定量和逆向思维,是我们今天经常应用的思维方式。

5.5 动态趋势:无穷大和无穷小能比较大小吗

◆ 古希腊,主人和奴隶都需要学习,前者是主动学习知识,后者是被动学习技能。

◆ 在这个维度上,数字从一个表述数量信息的记号,上升为描述变化趋势的工具。

6.1 几何学的起源:为什么几何学是数学中最古老的分支

◆ 洪水涨落的边界,记下 12 个月涨落的边界变化就可以了

◆ 几何学发展的第二个阶段和第一个阶段几乎是平行的,就是美索不达米亚人发明了量化的角度度量。

◆ 平面几何所需要度量的最主要的对象,一个是长度,另一个就是角度

◆ 如果以 360° 作为进位的基本单位太大、太复杂,于是他们选用了它的 1/6,即 60 为进位单位。60 这个数字在数学上来说特别“漂亮”,因为它可以同时被 2、3、4、5、6、10、12、15、20、30 和 60 整除,因此使用很方便。60 进制也就这样产生了

◆ 几何学发展的第三个阶段--记录所发现的规律,传播知识,然后形成体系

◆ 古希腊人对物质生活要求很低,他们把大部分时间用于了理性的思考和辩论,这让他们能够从知识点中抽象出概念,然后形成体系;其次,古希腊没有强权的政治,在自由民的范围内,有着自由的空气和独立思考的传统,这让学者可以自由思考。

◆ 缺乏自由的奴隶,建造不出复杂宏大的金字塔

◆ 金字塔的建立,是一个复杂而庞大的系统工程,它需要人的创造力。相比金字塔,构建几何学公理体系所需要的创造力更多,只有享受足够的自由,才能完成这件事

◆ 正是这个原因,今天的大学教授都不用定点打卡上班,因为自由是科学进步的必要条件。同样,带着自由民的心态学习,和单纯为了谋生学习,其收获是完全不同的

6.2 公理化体系:几何学的系统理论从何而来

◆ 如果一个结论实在找不到根据,又符合事实,而且将来要不断地被使用,就只能称之为公理了。当然,如果是能够从其他公理推导出来的结论就不是公理,而是定理了。

7.1 非欧几何:换一条公理,几何学会崩塌吗

◆ 真正的数学家常常是像希尔伯特形容的那样,思考的是纯粹数学的问题,不问应用

◆ 所谓数学好,并不是能解出几道难题,而是在于知道什么时候使用何种数学工具最方便。

◆ 一个人不必刻意强求和别人的一致性。只要基本的设定没问题,每一个人活出自己的精彩就是对社会的贡献。

  • 黎曼几何、曲率、测地线。

原文:能否找一个例子,证明地球上某些城市之间沿曲线飞行距离比沿直线飞行距离来得短?

7.2 圆周率:数学工具的意义

◆ 初等几何学中,所有的问题都可以归结为两种--和直线图形有关的问题,以及和圆有关的问题。此外,任何有关角度的问题,其实也都和圆有关

◆ 通过经验对圆周率进行估算,是人类计算圆周率值的第一个阶段。

◆ 人们第一次发现了靠数学推算,或者说靠理性而不是实验,计算圆周率的方法。这时,人类就进入到估算圆周率的第二个历史阶段了

◆ 等到了牛顿和莱布尼茨发明了微积分,圆周率的计算就变得非常简单了,也就进入了圆周率估算的第四个阶段

◆ 有了计算机,只要愿意,一个大学生都可以轻易将圆周率计算出任意有限位,让计算机不断运行就可以了。我们也可以将这视为估算圆周率的第五个阶段。不过需要指出的是,今天用计算机计算元时,其算法仍然是基于微积分

◆ 我们靠机械动力能实现的重复运动只有直线运动和圆周运动。

◆ 无理数也分为两种,一种是像 √2、5 这样的无理数,它们本身很容易计算,而且是一个整数系数方程的解,这种无理数和有理数一同被称为代数数,黄金分割比例 φ 就是代数数;另一种则不是整数系数方程的解,它们属于超越数。超越数这个名称源于欧拉说过的一句话,它们超越代数方法所及的范围。超越数则很难计算,不幸的是 π 就是一个超越数。这件事直到 1882 年,才由德国数学家费迪南德·冯·林德曼(Ferdinandvon Lindemann)证明。除了 π,另一个著名的无理数 e 也是超越数。

7.3 解析几何:如何用代数的方法解决几何问题

◆ 要利用代数学系统性地解决几何问题,特别是比较难的几何问题,就需要构造一个系统,让点、直线、平面、三角形、圆等几何形状可以用代数的方法,也就是未知数和方程来表示。

◆ 正是由于直线和一次方程的对应关系,一次方程也因此被统称为线性方程。

◆ 在学习数学的过程中,一方面我们会遇到越来越难的问题,另一方面我们也会学习更好用的工具,工具能够弥补理解力和记忆力的不足。

◆ 在数学中,解题技巧只能解决少数问题,一套系统性的工具和方法则能解决许多问题。

◆ 数学上的“虚”是可以为现实中的“实”服务这个普遍规律的。

◆ 学好数学,不是靠做很多超出自己理解能力的难题,那样费时又费力,而是需要把自己有能力理解的知识融会贯通起来。

◆ 当一个人 40 岁的时候,发现自己从 6 岁上学到 22 岁大学毕业的这 16 年间,花了 1/3 的时间学的数学一点用没有,除了会算加减乘除,其他的全忘光了,岂不悲哀!不如尽早把学习数学当作练习使用工具,这也是通识教育的目的。

7.4 体系的意义:为什么几何能为法律提供理论基础

◆ 法律是自然的力量,是明理之人的智慧和理性,也是衡量合法与非法的尺度

◆ 如果我们对比一下罗马法的体系和欧氏几何体系,就会发现它们的共性:它们都是建立在不证自明而且符合自然原则的公理之上,通过自然的逻辑演绎创造出新的定理或者法律条文,并且在此基础之上不断扩展。这样的法律,就不会随着统治者的更换而改变,因此具有很强的生命力。

◆ 他到国会讲演时,没有再带那些和法律有关的书籍文件,而是带了一本欧几里得的《几何原本》。在国会里,林肯举起这本数学书讲,整个几何学的定理和推理都离不开其中一条公理,那就是所有的直角都相等。既然所有的直角都相等,那为什么不能人人平等。当你否认了我们所说的直角公理,即使能构建出一个几何学体系,也是不完整、没有效用的。类似地,如果我们把人的不平等设定为法律的公理,那么构建出的社会也不会是平等的。就这样,林肯让反对《解放宣言》的议员们语塞了,最终宣言被通过了。

◆ 人要做大事,心中就应该有自己的公理化体系,有自己始终不变的做人原则

◆ 几何学的发展可以大致分为四个阶段。第一个阶段是以欧几里得确立几何学的公理、并且总结了当时世界几何学成就完成《几何原本》一书为标志。这个阶段不仅确立了几何学的基础,而且确立了它的研究方法。第二阶段是 以笛卡儿提出解析几何为代表,将几何学和代数学相结合,为后来微积分等数学分支的发展提供了工具。第三阶段是以罗巴切夫斯基和黎曼提出非欧几何为标志。人们发现通过改变一条几何学公理可以得到另外的几何学系统,虽然新的系统和原来的欧式几何等价,但是在解决很多实际问题时,新系统更便捷。第四阶段是近代特别是 20 世纪后代数几何和微分几何的出现和发展。它们是几何学和近世代数以及微积分结合的产物,为今天的流体力学、计算机科学、理论物理和拓扑学的研究提供了工具。

8.2 因果关系:决定性和相关性的差别

◆ 今天,学术研究的主要目的,已经从过去那种寻找确定性,变成了挖掘尚未被人知的、能影响结果的变量,并且寻找它们和结果之间的相关性。在研究某一个变量的影响时,我们通常要屏蔽其他变量的作用。比如我们研究体积和尺寸的关系,先要假定半径是不变的,才能知道高度的影响。但这样一来,绝大部分学术研究,特别是人文和社会学科的研究,都不得不集中在几个视角,搞清楚特定变量的影响。这并非研究人员缺乏全局观,而是整个学术界给他们的分工就是如此。

9.1 向量:数量的方向与合力的形成

◆ 在数学上也要有工具来描述带有方向的数量,这种工具被称为向量。类似地,那些只有数值、没有方向的数量被称为标量。

◆ 这种求和向量的方法被称为向量相加的平行四边形法则。

◆ 三角形法则

◆ 一些企业迷信把几个高水平的人堆到一起就能产生好的效果,这其实是小学生的思维方式。如果找来的人不能与其他人好好配合,有时这个人越牛就越有副作用。

◆ 勾股定理其实是余弦定理在直角第 9 章线性代数:超乎想象的实用工具|277 情况下的特例。当然,换一个角度来看,余弦定理是勾股定理的扩展

9.2 余弦定理:文本分类与简历筛选

◆ (1)如果两个向量各个维度的分量大致成比例,则它们的夹角非常小;如果它们严格地成比例,则夹角为零;(2)如果两个向量的各个维度的分量大致“互补”,也就是说,第一个向量中某个维度的分量很大,第二个向量相应维度的分量很小,甚至为零,或者反过来,那么它们之间的夹角就接近 90°,两个向量近乎正交;(3)如果一个向量所有的维度都相等,比如像(10,10,10,10,10,10,10,10)这样的向量,它可能和任何一个向量都不太接近。这个性质我们后面还要用到。

  • 六边形战士面对分类模型。

原文:很多人在写简历时常犯的一个毛病就是重点不突出,他们所对应的向量其实就是一种每个维度数值都差不多的向量,就像我们前面说的每个分量都是 10 的向量。这种向量和其他向量的夹角都不会小,即和每个职位的匹配度都不高。很多人喜欢在简历中把自己有关无关的所有经历统统都写进去,然后把自己描绘成全能的人,其实在计算机匹配简历和工作时,这种简历常常一个职位都匹配不上。

  • 停用词表、TF-IDF。

原文:用关键词对文章或者求职者的简历进行分类时,有些高频词比如“计算机”“大学”“优秀”等会在各类的文本中或者所有人的简历中出现,由于它们的频率较高,稍微有一点误差就会影响到分类的结果。如何修正这种高频词带来的误差?

9.3 矩阵:多元思维的应用

◆ 这样横平竖直地将数字排列起来有什么用呢?其实,这样排列不是原因,而是结果。

◆ 在工作中,我们经常需要有相对固定的大的原则,以及针对各种情况的小变动,这时候就需要有一个相对固定的核心矩阵,再加上一 个增量矩阵,而不是复制一大堆数值以后逐一修改。因此,矩阵加法实际上是代表一种思维方式。

◆ 如果我们对向量进行单个处理,就无法利用各种矩阵算法的便利之处了

◆ 矩阵的加法反映出核心数量值和微小增量的关系;矩阵的乘法,则体现出将很多维度的信息综合考虑批处理的原则。这些都是我们今天在信息时代要有的多元思维方式。

◆ 这个数学分支为什么叫线性代数,我们从矩阵和向量相乘的过程就能知道答案了。在那些运算中,左边矩阵里的数字可以被看成是一组常数系数,右边竖着的向量中的数则是未知数变量,这样矩阵和向量的乘法就变成了一组线性方程。如果把它们画在空间中,就是直线、平面或者立方体,它们都是线性的,不会有任何曲线,线性代数因此而得名

◆ 变量的使用让人们可以用一个抽象的符号代表一类事物,方程和函数则用简洁、确定的方式准确描述出变量之间的关系,以及它们的变化规律。

◆ 在近代之前,人们只关心数和变量本事的性质和相互关系。到了近代,代数的研究对象从具体的数字,扩展到了各种抽象化的结构,这就出现了近世代数。

微积分篇

◆ 微积分的作用不仅限于此,它更重要的意义是提供了一种思维方式。它让我们既能够准确地把握每一个微观细节,又能够了解宏观变化的规律。更重要的是,它用数学的方法建立起了微观细节和宏观规律之间的联系。简单地讲,微分就是通过宏观现象,获得对微观规律的了解;而积分则是通过微观变化的积累,获得对宏观趋势的把控。

10.1 导数:揭示事物变化的新规律

◆ 牛顿了不起的地方在于,他认识到函数变化的速率,也就是函数曲线上每一个点切线的斜率,本身又是一种新的函数,他称之为流数,就是我们今天所说的导数,原先的函数也因此被称为原函数。导数是衡量一种函数本身变化快慢的工具。

◆ 导数的本质,就是对原函数变化快慢的规律性的描述。如果一个函数,它在不断增长,它的导数就大于零。增速越来越快,导数就越来越大;增速放缓,导数就呈现下降趋势。当然,如果一个函数的值在减少,它的导数就是一个负值

◆ 导数在人类的知识体系中至少扮演了三个角色。首先,导数是透过宏观把握微观细节的工具,通过它我们从对宏观规律的了解进人了对每一时刻细节变化的了解;其次,导数是对各种变化规律的量化表述,让我们能够比较不同函数的变化速率;最后,导数还是连接自然界很多概念的桥梁。

10.2 微分:描述微观世界的工具

◆ 对比一般性的函数 y-fx),我们用 dx 表示自变量趋于零的情况,用 dy 表示函数的微分。

◆ 从数学的角度看,梯度是微分的一个扩展。在上面的圆柱体问题中,对圆柱体函数,我们可以针对半径变化 dr 求微分 dv,也可以针对高度变化 dh 求微分 dV。在计算这样的微分时,由于只改变了一个变量,因此我们称它们为函数的(针对某个特定变量的)偏微分。当然,函数的偏微分和相应变量的微分比值是我们前面提到的导数,我们把这种导数称为偏导数。比如体积函数相对半径的偏导数是 dV 相对高度的偏导数是。如果我们把这两个微分以向量的形式放到一起,就是梯度。

  • 佩服,这真是将高等数学融入生活了,数学的思维方式。

原文:人一辈子的成败取决于很多因素,虽然我们总想全方位改进自己,但是人的精力和资源有限,在某一时刻,可能只能向一个方向努力,因此决定该朝哪个方向努力非常重要。方向搞错了就事倍功半,搞对了就事半功倍,梯度其实就是指导我们选择方向的工具。

10.3 奇点:变化连续和光滑是稳定性的基础

◆ 所谓“光滑”的,就是指一条曲线从某一点的左边和右边分别做切线,这两条切线是相同的

◆ 在股市上,如果一家公司的业绩总是表现出不平滑的变化,它的股价通常好不了,因为投资人无法预期它的表现,稳妥的基金经理人会远离这样的股票。我们常说巴菲特选股票时会选那些市场表现平稳的股票,所谓平稳,就是业绩变化的曲线是光滑的。

◆ 我们经常会听到这样两句话:一个是“人要向前看”,另一个是“根据历史预知未来”。这两句话的成立有一个前提条件,就是变化是连续光滑的,或者说可导的。

◆ 从导数出发,我们又得到了微分的概念,微分反映出函数在某个位置变化的具体数值。也就是说导数和微分它们一个表示变化率,一个表示变化具体的数值,因此它们是相关的。

11.1 积分:微分的逆运算

◆ 积分的概念:给定一个曲线,求它下方到 x 轴之间的面积,就是积分

11.2 积分的意义:从细节了解全局

  • 从动态变化看累积效应。

原文:[插图]

◆ 在生活和工作中,我们的努力就如同用力。今天晚上努力了,你自己是知道的,但是想要有所收获,需要一段时间努力的积累,这就是做积分。积累了一段时间,我们的能力就会有明显提高。再过一段时间,我们才能逐渐树立起在大家心中的好印象,因为在那段滞后的时间里,我们通过不断提升的能力,做了一件又一件漂亮的事情。简单地讲,能力是努力的积分,成绩是能力的积分,好形象是成绩的积分。

11.3 最优化问题:用变化的眼光看最大值和最小值

◆ 天世界上的很多问题,都可以转化为最优化的问题,比如炙手可热的机器学习,其实就是对一个目标函数实现最优化的过程。此外,金融上的结构化投资产品,商业上的博弈论,企业管理中的各种规划,其实也都是不同形式的最优化。

◆ 他不是直接解决那些很难的问题,而是把比较数大小的问题,变成了寻找函数变化拐点的问题,后一个问题要比前一个好解决。

  • 鞍点。

原文:立方函数一开始上升的斜率很大,然后逐渐变小并且变为 0,但是,在变为 0 以后,它没有再进一步变小进入负数的区间,而是又逐渐变大了

◆ 我们只要在找到导数等于零那个点之后,再看看它前后的点,是否发生了导数符号从正到负反转。如果发生了,导数等于 0 的那个点就是最大值的点,否则就不是。类似地,如果在导数等于 0 的那个点附近,导数符号由负转正,就说明这个点是函数最小值的点。

◆ 接下来,数学家们需要给出在有很多个局部的极大值中找到最大值的方法。但是很遗憾,到目前为止依然没有好的方法来系统性地解决这个问题,只能一个个比较。事实上,这也是今天计算机进行机器学习时遇到的一个很大的、尚未解决的问题

11.4 发明权之争:牛顿和莱布尼茨各自的贡献

◆ 他研究微积分,在很大程度上是为了解决力学问题,特别是以下三个问题。第一个问题是加速度、速度和距离的关系。这三者的关系只能通过微积分来描述。也就是说,加速度是速度的导数,速度又是距离的导数。第二个是动量、动能以及撞击力的关系。动量是动能的导数,撞击力是动量的导数。第三个是天体运行的向心加速度问题,它是速度的导数,而万有引力则是向心加速度的来源。

◆ 从他一生所做的诸多和数学相关的工作来看,他实际上是把计算看成是由简单世界到复杂世界的必经之路。

11.5 体系的完善:微积分公理化的过程

◆ A'里的元素都比 1 小,但是如果你在 A'中任意给定一个小于 1 的元素 e,我只要让 e=(e+1)/2,它就大于 e,而且也在 A'中。

  • 无理数是戴德金分割中有理数的间隙,有理数可被分割法“定位”到,无理数无法被“定位”。

原文:戴德金分割把每一个有理数和一种在数轴上的切割方式对应起来,有理数中间的空隙就被定义成了无理数,有理数和无理数共同构成了实数这个集合。

◆ 述这样的定义方法很像欧几里得定义几何学概念的方法,从一个最简单的定义出发,推导出一大堆新的知识。至于前面关于有理数的定义,其实只要有整数的定义,就能通过乘法的逆运算定义出有理数,而整数的定义则是依赖于集合论。也就是从集合论出发,最后到戴德金分割,数学家们就将数这种看似“自然而然存在”的概念,变成了严密的公理化体系

◆ 用黎曼的方法对函数积分时,是把一个函数垂直地划分为很多区域,然后计算每一个区域的面积,如图 11.13(a)所示。不过,我们也可以水平地划分区域,然后计算每一个区域的面积再相加,如图 11.13(b)所示。

◆ 具体到 0 和 1 之间的实数,它们的总长度当然是 1,其中无理数的数量是有理数的无穷多倍,因此,无理数的测度 lo=1,有理数的测度 l=0。因此,狄利克雷函数的积分就是 0x1+1*0=0。

  • 用动态的思维和视角看待这个动态的世界。

原文:很多人都醉心于从 0 到 1 的发现,但是真正伟大的发明需要走完从 0 到 N 的全过程,这中间有很长的路,任何时候进入相关的领域都不晚。

概率和数理统计篇

◆ 最初,人类数不清数,后来发明了计数方法,这就是从不确定到确定。再后来,人们掌握了丈量土地的方法,能够计算时间,能够解方程,这就越来越具有确定性了。特别是在代数学中,通过变量和函数,确定性从个案上升到了规律。利用微积分,人们对确定性的理解从宏观进入到微观,当然也能反过来,通过对事物的细微观察,了解宏观规律。微积分的出现,使得人类有了空前的自信,连那么细微、短暂的规律(比如瞬时速度)都能把握,还有什么是不能把握的呢?

12.2 古典概率:拉普拉斯对概率的系统性论述

◆ 拉普拉斯是如何定义概率的呢?他先定义了一种可能性相同的基本随机事件,也称为单位事件(或者原子事件)。比如我们同时掷两个骰子,两个骰子的点数加起来可以是从 2 到 12 之间的任何正数。那么这些数出现的概率相等吗?很多人会认为相等,因为从 2 到 12 一共有 11 种情况,每一种情况的概率就是 1/11。但是,这 11 种情况并非是基本随机事件,而是可以拆分为更小的单位事件。

  • 拉普拉斯对古典概率的定义。

原文:[插图]

◆ 数学是能从经验中获得启发的,但是不能建立在经验之上,而是要建立在公理和逻辑之上

12.3 伯努利试验:随机性到底意味着什么

  • 概率论确实是白学了。

原文:我们知道抛硬币正反两面朝上的概率各一半,但你真的抛了 10 次硬币,真的有 5 次正面朝上么?其实这种可能性只有 25%左右,这显然和大多数人的直觉完全不同了。再比如有人设了一个赌局,赢面是 10%,是否玩 10 次就能保证赢一次呢?如果不能,需要多少次才有很大的把握赢一次呢?这个结果是 26 次,这可能也颠覆了大家的认知。

◆ 伯努利试验简单到只有两种结果,非 A 即 B,没有第三种状态。A 和 B 发生的可能性不需要相同,但是在同样条件下重复试验,A 和 B 各自发生的概率需要一致。

  • 朴素贝叶斯中“朴素”的由来。

原文:所谓独立的试验,是指第二次试验的结果和第一次的结果无关,比如抛硬币就是独立的试验。

  • 伯努利试验,二项式分布。

原文:[插图]

◆ 第一,k 取不同值时的概率,在 k=N·p 附近达到最大。比如 N=20,p=0.3,k=6 时概率达到最大值 0.19 左右,k=5 的时候则降为了 0.18,而 k=10 时只有 0.03。第二,如果 N 比较大,k 在远离 N·p 之后,概率下降得很快;如果 N 比较小,概率下降得很较慢。

◆ 只有在进行大量的随机试验时,规律性才会显现出来,当试验的次数不足时,它则显现出偶然性和随意性。

12.4 均值与方差:理想与现实的差距

◆ 因为只有数据量大,得到的才是规律性,而不是巧合。

  • 稳健九层八。

原文:如果想确保获得一次成功该怎么办?你大约要做 260 左右的试验,而不是 100 次。当然,我们这里所说的 260 次是按照有 95%的“把握”计算得到的,并非 100%的把握。

◆ 假如我们做一件事情有 50%成功可能性,基本上要尝试 4 次,才能确保成功一次(还是以 95%的把握为准),相比理想状况下的两次,只多做了 100%的工作。如果我们多花点心思,将成功率提高到 75%,大约两次就可以了,只要多做 60%的工作。但是如果想省点事情,做得快一点,多试几次,是否能省些努力呢?我们假设这样只有 5%的成功可能性,大约需要 50 次才能确保成功一次,而不是理想状态中的 20 次,也就是说,我们要多做 150%的工作。

13.1. 泊松分布:为什么保险公司必须有很大的客户群

  • 泊松分布

◆ 如果我们的“池子”变大,随机事件出现的概率不变,那么得到车位的可能性会增加,但是 50%是一个上限。如果想保证 8 点到的员工能有车位要怎么办呢?那就需要增加一点余量了,也就是多准备几个车位。

◆ 资源的池子越大,越能有效地抵消随机性带来的偏差

◆ 基于不存在随机性的前提之下

◆ 把几个已经很大的池子,合并成一个超级规模的池子

◆ 想要有效地防范小概率事件所带来的灾难,大家不妨联合起来,把应付不测的资源放到一起。

13.2 高斯分布:大概率事件意味着什么

  • 置信度。

原文:那么我们有多大把握说明平均分 85 分的二班一定比 80 分的一班强呢?这就要看两个班成绩分布的曲线了。从图 13.4 中我们可以看出,虽然两个班的成绩都在浮动,但是在右边阴影的区域,二班的成绩总是在一班的“右边”,也就是大的一边,这说明在这一块区域,二班的成绩确实比一班好。这一块区域,其实代表二班发挥好的情况。类似地,左边阴影的区域,一班的成绩总是在二班的左边,也就是成绩差的一边。因此在这个区域二班的成绩也比一班好,这个区域其实代表一班发挥差的情况。但是中间斜线的区域,我们就无法判断哪个班成绩更好,这个区域其实代表了一班发挥不太差,而二班发挥不太好的情况。这个区域面积,就是我们无法作出判断的概率。相反,左边和右边区域面积,是我们能确定二班的成绩更好的概率。具体在这个问题中,中间斜线区域的面积占了两条曲线所覆盖面积的 65%。也就是说,有 65%的可能性,我们无法判断哪一个班的成绩好。同时,我们有大约 35%的信心,证明二班的成绩比一班好。这种信心通常被称为置信度。

◆ 在现实中,增加试验次数或者增加具有同样分布的样本数量,是降低标准差找到规律性最常用的方法。

  • 因为样本大,可能方差(风险)更小?

原文:股票或者基金浮动的方差被称为它们的风险。美国道琼斯指数有三十只股票,都是大公司。标普 500 指数有 500 家公司,它们包含了道琼斯指数的成分股公司,也包括了其他大公司和一些中型公司。标普 500 指数的风险是否会比道琼斯更小?

13.3 概率公理化:理论和现实的统一

  • 统计意义上的概率。

原文:如果我们将这个想法推广到任意一个随机事件,如果它的出现真的存在一个确定的概率,那么随着试验次数的增加,出现次数和试验次数的比值应该会趋近于某个极限值。这个极限值就被定义为统计意义上的概率。

  • 大数定理(切比雪夫)

原文:一个随机事件 X,只要在进行了大量的随机试验之后,结果的平均值和方差都趋近于各自的极限,那么这个随机事件多次试验后发生的相对频率,就可以被看作该随机事件发生的概率。

  • 样本空间 -> 随机事件空间 -> 概率函数定义(3 个概率论公理)。

原文:公理一:任何事件的概率是在 0 和 1 之间(包含 0 与 1)的一个实数,也就是说 P:F→[0,1]。公理二:样本空间的概率为 1,即 P(Ω)=1。比如掷骰子,从 1 点朝上到 6 点朝上加在一起构成样本空间,所有这 6 种情况放到一起的概率为 1。公理三:如果两个随机事件 A 和 B 是互斥的,也就是说 A 发生的话 B 一定不会发生,那么,A 发生或者 B 发生这件事发生的概率,就是 A 单独发生的概率,加上 B 单独发生的概率。我们把这条公理写成“如果 ANB=∅,那么 P(AUB)=P(A)+P(B)”。这也被称为互斥事件的加法法则。

14.1 前提条件:条件对随机性的影响

◆ 美国甚至有这样的笑话,说哈佛负责录取的工作人员头一天晚上把该录取学生的材料摞在了一起,把该拒绝学生的材料放在了另一摞,但是没有做标识,到了第二天,他完全分不清哪-摞是该录取学生的材料了。

  • 条件概率

原文:[插图]

◆ 在使用概率时,不能将某个条件下发生的概率和一般的概率相混淆,因为前者只是后者的一部分,而后者还包括那个条件没有发生时的概率

14.2 差异:概率、联合概率和条件概率

◆ 根据美国的统计,在过去的一个多世纪里,虽然股市的年均回报率超过 7%,但是散户的回报率只有 1%,比通货膨胀率都低。

◆ 几乎没有哪个专业的基金团队能够做到连续 5 年投资回报超过股市的平均值,因为即使是他们,常常也是将有限条件下的概率作为整体的概率去处理了

◆ 过去的表现不能代表未来

◆ 我们现在正在创造历史

◆ 很多人总是不自觉地选择对自己有利的条件做判断,以至于过高地估计成功率,过低地估计失败率。

14.3 相关性:条件概率在信息处理中的应用

◆ 视频中每一帧的图像和前面一帧有很大的相关性,也就是说,后面一帧图像中出现前面一帧中有过的或者相似的画面的可能性较大,而完全出现一个全新画面的可能性较小,利用这个特性,就能够将视频图像压缩几百倍。

14.4 贝叶斯公式:机器翻译是怎样工作的

  • 贝叶斯公式

原文:[插图]

  • 马尔可夫链

原文:第一个因子 P(YX)可以通过一个隐马尔可夫模型近似地计算出来,对于它的细节大家不必关心,大家只要把它理解为每一个中文词或者词组有哪些可能的英语翻译即可。第二个因子可以通过一个标准的马尔可夫模型计算出来,它在这里也被称为语言模型,大家把它理解成计算的是哪个汉语句子读起来更通顺就可以了。第三个因子 P(Y)则是一个常数,因为一旦给出一个要翻译的句子 Y,它就是一个确定的事情,我们把它的概率想象成 1 就可以了(其实不是 1)

◆ 在图 14.3(a)中,灰色区域和左边的圆的比例,就是召回率,而灰色区域和右边的圆的比例,就是准确率

15.1 定义:什么是统计学

◆ “霍桑效应”这个名词,它是指当被观察者知道自己成为被观察对象而改变行为倾向的反应。

15.3 古德 - 图灵折扣估计:如何防范黑天鹅事件

◆ 产生黑天鹅事件最主要的原因,就是我们把那些小概率事件,特别是在历史上没有见过的事件,都默认为是零概率事件了。一个随机事件的概率即使再小,它也不是零,那件事也会在某个条件下发生。

  • 八二定律还可以这么笼统的解释。

原文:大家都听说过一个 80∶20 定律,就是说 80%的总量常常是由 20%高频率的元素构成的,反过来,80%低频率的元素,或者说长尾的元素,只构成 20%的总量。

◆ 经过对各种语言中词频的统计发现,一个词的排位和它词频的乘积,近乎一个常数。比如在汉语中,“的”是最常见的词,排位第一,它的词频大约是 6%,于是 1x6%=6%。第二高频词为“是”这个字,它的词频大约是 3%,恰好 2x3%=6%,词频排位第三的词是“一”,它的词频是 2%多一点,3x2%也是 6%。后来经济学家和社会学家发现齐普夫定律在他们的学科中也成立,比如你把世界上所有人的财富排一个序,让序号乘以财富的数量,就会发现类似的规律。

◆ 如果我们假定只出现一次的词有 N 个,出现两次的词有 N2 个,出现三次的词有 N 个,那么 1xN、2xN₂ 和 3xN 都差不太多,因为大多数词其实只出现一次。

◆ 古德根据经验,假设 N>N,也就是说那些没被统计进来的词,数量比在统计时出现了至少一次的词多很多,这个假设不仅在语言学中是符合实际情况的,而且在几乎所有的应用中都是正确的。

  • 插值法(贾里尼克)。

原文:通常 f(xY)的权重入 z 比较大,比如是 0.7,这样能保证 fxy)本身起主导作用。如果 f(X|Y)比较大,说明#(X,Y)出现的次数很多,比较可靠,因此赋予它较大的权重也是应该的。如果 f(XY)比较小,说明它不可靠,不过由于它很小,而 z 也小于 1,我们不担 ① 严格来讲,2;和 2₂ 是和 Y 有关的,但是在应用中为了简单起见,大家常常就设置一个简单的常数。心这一项会对计算 P(XY)有多大的影响,这时无条件的概率 f(x)会起主导作用。由于(X)本身的可信度比较高,这样估计出来的条件概率 P(XY)虽然不够精确,但是范围大致可靠,在使用时不会造成灾难性的后果。特别需要指出的是,当我们在统计时没有见到 X 和 Y 同时出现的情况,由此会得到 f(X|Y)=0,这时,条件概率 P(XY)就退化成非条件概率 P(X),因为它完全由 f(x)决定。

◆ 在数学上和信息论中都可以证明,无论是插值法还是备用法,都比单纯依靠统计结果直接产生概率模型更准确。

15.4 换个眼光看世界:概率是一种世界观,统计是一种方法论

◆ 概率论还可以在数学上给我们的一些经验做背书。我们都知道应该留有一定的冗余度,这样可以提高我们所期待的大概率事件发生的可能性,防范不希望看到的小概率事件出现。类似地,我们为了防范诸多小概率事件的发生,最好准备一个大池子。概率论中关于泊松分布的理论,为这个经验做了背书。同样,我们知道对于随机性的事件,试验的次数越多,或者见到的样本数量越多,规律性就越明显,而随机性所产生的不确定性就会减少,这也是有大数定理做背书的。

◆ 我们介绍统计学的目的,是为了正本清源,通过一些例子讲清楚随机性到底意味着什么,我们该如何得到正确的统计规律,而不是主观偏见。一旦我们了解了不确定性的本质,了解了它背后的规律,并且掌握了消除不确定性、得到规律的方法,我们的认知就从自发状态进入了自由状态。

第 16 章 数学在人类知识体系中的位置

◆ 世界上有各种各样的知识体系,有些是建立在信仰基础上的,比如宗教;有些是建立在实证基础之上的,比如自然科学。数学和它们都不同,它是建立在纯粹理性(逻辑)基础之上的,因此它是不同信仰、不同语言、不同知识背景的人都能够接受的一种语言。如果我们将来能够和外星人进行通信,最有效的语言也会是数学的语言。数学的这个特点,决定了它在人类各种知识体系中都扮演着基础性的角色。

16.1 数学和哲学:一头一尾的两门学科

◆ 数学的奇迹又何以能产生呢?这可以说首先得益于其公理体系的公正性,这一点我们在介绍几何学的直角公理时已经介绍了。在公正性之上,才可能有其必要性和有效性。

◆ 要用符合逻辑的数学的方法,代替依靠测量的物理的方法,获得真知。我们前面讲到,不能用测量的方法证明勾股定理,这便符合笛卡儿的思想。

◆ 精炼我们的推理的唯一方式是使它们同数学一样切实,这样我们能一眼就找出我们的错误,并且在人们有争议的时候,我们可以简单地说,让我们计算(calculemus),而无须进一步的忙乱,就能看出谁是正确的。

◆ 如果我们仅仅像古希腊奴隶那样为了谋生而学习,掌握一点技能也就够了。但是如果我们像苏格拉底那样把自己看成主人,以这个态度来学习、来做事情,就需要在认知层面有所提高,了解数学和哲学都可以帮助我们做到这一点。

◆ 数学是基础,上面有各种自然科学,最顶上则又有哲学。

16.2 数学和自然科学:数学如何改造自然科学

◆ 马克思这样描述数学和自然科学的关系:“一种科学只有在成功地运用数学时,才算达到了真正完善的地步。”

  • 建立在数学模型上的科学 -- 后互联网时代。

原文:制造数学在很大程度上是为了发展自然科学,而非数学本身,这就如同牛顿为了研究运动学而发明了微积分一样。但是,相应的数学理论一旦出现,并反过头来作用于原来的学科时,原来的学科便脱胎换骨了。这就如同我们今天经常讲的“互联网+”,什么产业一旦利用互联网进行改造,效率就会倍增。自然科学各个学科的形成和发展,其实就是一个“数学+”的过程。

◆ 杨振宁说,数学和物理是两片生长在同一根管茎上的叶子,这非常形象地说明了数学与物理之间的关系。

◆ 在高速的状态下,测量到的时间和距离会变化。这和我们前面讲到的发现暗能量的道理很相似。20 世纪另一个物理学成就就是量子力学,也几乎完全是建立在数学基础之上的。

◆ 物理学方面很多粒子其实都是在推导数学公式时,为了让等式平衡而假设出来的,当然很多在以后被实验证实了。在宇观层面,像黑洞这种无法直接观测到的天体,以及引力波这种长期测不到的现象,也是靠数学预测的。

◆ 没有天平就没有真理。

  • 使用数学的方法论。

原文:从自然科学的各种升华过程可以看出,它们有这样三个共同点:(1)从简单的观察上升到理性的分析。今天我们观察到现象是一件很容易的事情,大部分人都能做到,但是能够对现象进行理性分析的人很少。这是每一个人都需要锻炼和提高的。(2)从给出原则性结论到量化的结论。虽然我们不需要像拉瓦锡那样随身带着天平,但是需要明白很多事情必须量化度量才能得到准确的结论。从前面所讲到的计算利息的内容,你就能体会量化的重要性了。(3)将自然科学公式化,或者说用数学的语言来描述自然科学。今天,不论是哪个国家的人,看到了 F=ma,都知道是牛顿第二定律;看到 E=Mc2,都知道是爱因斯坦的质能方程;看到 H₂O,都知道是水。古代很多科学手稿,是用自然语言而非数学语言来描述物理学的规律,这种做法不仅不形象,而且里面有一些彼此矛盾的地方难以发现。在采用了数学公式描述自然科学规律之后,由于公式的严谨性,一旦有矛盾之处,就很容易被发现。

16.3 数学和逻辑学:为什么逻辑是一切的基础

  • 同一律

原文:自己不懂的逻辑,头脑不清,讲出话违反了同一律后,就会造成别人的误解,甚至自己也会被绕进去,很多人缺乏好的沟通能力,可以溯源到讲话经常违反同一律上。

◆ 为了防止出现违反同一律的情况,就需要把概念定义得极为精确,在法律上也是如此。在生活中,我和别人沟通时,我常常会用我的语言复述一下对方的话,明确我们是在讨论同一件事情,这一点很重要。很多时候,我们和别人沟通中的误解,就来源于忽视了同一律,鸡同鸭讲。

  • 矛盾律

原文:矛盾律的通常表述是:在某个事物的某一个方面(在同一时刻),不可能既是 A 又不是 A。

◆ 为了防止大家在使用矛盾律时偷换概念,逻辑学家们一般强调四个“同一”,即同一时间,同一方面、同一属性、同一对象,总之强调的是独一无二的事件。

  • 排中律

原文:排中律的表述是,任何事物在明确的条件下,都要有明确的“是”或“非”的判断,不存在中间状态。

◆ 讲到排中律,就不得不讲西方人和东方人在思维上的一种差异。在美国的大学和研究生升学考试 SAT 和 GRE 中,都要写作文,作文题目通常是就一个观点发表赞同或者反对的意见。中国学生的思维方式,常常是“既要……又要……”,比如让他分析是否要禁烟草,他会说,“因为吸烟对人体有害,因此我赞成禁烟,但是来自烟草的税收在国家的总税收里占很大的比例,所以,也不赞成完全禁烟。”这种作文或许在中国的高考中或许能得到不错的分数,但是在 SAT 和 GRE 的考试中,都会是不及格的分数,因为它首先违反了排中律。

  • 充分条件律 -> 逻辑的四个基本原则

原文:所谓“充分条件律”,讲的是任何结论都要有充足的理由,这也就是我们常说的因果原理。任何数学的推理,都离不开充分条件律。

16.4 数学和其他学科:为什么数学是更底层的工具

  • 运筹学

原文:我们要想缩短整个的生产时间,就需要缩短关键路径上的时间,这就是运筹学的思想。

  • 企业管理的公理化。

原文:一个企业最重要的是它的愿景使命、价值观和文化。

◆ 不仅企业如此,我们每一个人立足于社会,也应该有自己心中的公理、定理和推论。康德讲的头顶的星空和内心的道德律,就是他的公理。

◆ 历史学的研究不会像数学那样有对有错,但是却会有好和坏、合理和荒诞的分别。而评判的标准就是其假设前提,也就是公理的客观性,以及论证的逻辑性。

16.5 未来展望:希尔伯特的讲演

◆ 数学的完备性和一致性之间会有矛盾,让他这种数学大一统的想法破灭。

◆ 伽利略曾经说过:一个人只有学会了自然界用于和我们沟通的语言和标记时,才能理解自然;而这种语言就是数学,它的标记就是数学符号。

◆ 康德有句名言:“我断言,在任何一门自然科学中,只有数学是完全由纯粹真理构成的。”

◆ 事实上,我们直到能够把一门自然科学的数学内核剥出并完全地揭示出来,才能够掌握它。

◆ 如果只有实用主义的头脑,而缺了那些不为利益所动的“傻瓜”,就永远不会有今天工业的成就。

◆ 我们必须知道,我们必将知道!

附录 4 一元 N 次方程 x N =1 的解

◆ [插图]

附录 6 大数定律

  • 弱大数定律 vs. 强大数定律。

原文:[插图]间(μ-e,μ+8)以外的概率趋近于零。但还是有可能落在外面的,只不过可能是很小,且会随着 n 的增大,这种可能越来越小。强大数定律讲的条件严格一些,它讲的是随机变量 X 落在(μ-e,μ+e)外的概率等于零。