豆瓣8.8分高分神作《数学之美 第三版》之第一章读书笔记,带你了解古代文字和语言背后的数学(持续更新中)

目录

1. 远古时代的信息传递

2. 文字的起源

3. 数字的起源

4. 文字和语言背后的数学

4.1 编码原理

4.2 压缩与解压

4.3 校验码


1. 远古时代的信息传递

在人类文明的曙光初现时,我们的祖先便已经利用原始而本能的声音,通过一系列复杂的声调与节奏,来交流信息与情感。这种史前时代的沟通方式,在其核心本质上,与我们当代所运用的通信手段并无二致:它们都是一种信息的编码与解码过程。然而,鉴于早期人类社群的生活相对单纯,他们所需要交换的信息量相对较少,因此,简单的吼叫和身体语言就足以满足其基本的交流需求。在那个时代,尚未迫切需要借助文字或数字这样的抽象符号系统,来传达复杂的概念或记录事件。

2. 文字的起源

在文明发展的历程中,信息交流的需求日益增长,单纯的口头传递已不足以应对复杂的社会交往,且人类记忆的局限性也迫切需要一种更为持久和可靠的记录方式。于是,文字应运而生,成为承载和传递知识的关键工具。古埃及人于公元前3000年发明象形文字,其符号数量随着社会需求不断扩张,但随时间演进,概念聚类的现象出现,使得文字数量得以稳定。这种聚类过程与现代机器学习算法有异曲同工之妙,古代依靠漫长的岁月,而现代则借助计算机瞬间完成。

然而,文字的聚类特性也带来了解读上的歧义性,如多音字的存在使得同一文字在不同的语境下有不同的读音和含义,有时即便结合上下文也难以明确其确切意义。这也对现代的翻译技术造成了影响,无论多高大上的翻译软件,都会

文字的出现确保了知识的传承,使得文明得以延续,正如中华文明所展现的那样。地理隔离孕育了不同的文字系统,而不同文明间的交流则依赖于翻译。作者在此强调了一个观点:不同文字系统在记录信息的能力上是等价的,这构成了翻译可能性的基础。现代科学甚至采用数字来描述信息,这构成了现代通信技术的基础。

作者讲了一个历史小故事:1798年在罗塞塔,一位法国中尉发现了一块刻有象形文字、埃及拼音文字和古希腊文的古埃及石碑。由于古埃及曾受希腊和罗马的统治,象形文字逐渐失传,仅祭司们仍知其秘。直至1822年,法国语言学家商博良根据罗塞塔石碑上的其他两种文字,破解了象形文字的秘密,从而让失传的象形文字重获新生,也让古埃及的历史得以为现代人所阅读。

基于这段历史,作者提出了两个深刻的启示:首先,数据的冗余存储至关重要,正如罗塞塔石碑所示,三种语言的并存确保了信息的不丢失;其次,对于翻译工作而言,拥有双语或多语对照资料是极其重要的,无论是在过去还是现在,翻译都依赖于这样的语料。

正是因为罗塞塔石碑的翻译故事,许多现代翻译软件以“罗塞塔”命名,以此纪念那段跨越时空的语言之旅。

3. 数字的起源

在追溯数字起源时,作者提到最初人类认知的数字范围极其有限,仅能辨识至数字3。超出这个范围,无论数字多大,均以“许多”笼统称之,未能形成精确计数系统。随着时间推移,人类开始借助手指进行计数,由此可能孕育出今天我们广泛采用的十进制系统。

在数字记录上,从最初的骨片和木块上的刻痕,逐步演变为书写形式数字。当十指不足以应对更复杂的计数需求时,进位制的发明代表了一个重大突破,显示我们祖先已能够对数量进行编码。雅玛文明采用的二十进制较为复杂,限制了其文化的发展传播。

中国与罗马文明分别发展出独特的编码体系。中文数字通过“个、十、百、千、万、亿、兆”等表达数量级,而罗马数字则用“I、V、X、L、C、D、M”表示对应的数值。中文采用乘法逻辑,如三百万写作“3*100*10000”;罗马数码则基于加减法原则。明显地,中文计数方式因其简洁性而优于罗马系统。

古印度人的编码系统更为先进,使用“0, 1, 2, 3, 4, 5, 6, 7, 8, 9”这些数字,即阿拉伯数字。之所以这样称呼,是因为这一系统由阿拉伯人传入欧洲而普及。阿拉伯数字不仅简洁,还标志着数字与文字分离,使语言和数学得以独立发展,两者在近千年的研究中没有任何交集。

4. 文字和语言背后的数学

4.1 编码原理

巴比伦的楔形文字,起初被误认为象形文字,后经研究发现其实是拼音文字的雏形,每个楔形符号对应一个音素。这一发现是语言学上的重大突破,因为它揭示了人类语言从具体形象向音素抽象的转变。

腓尼基人的贡献在于他们将复杂的楔形文字简化为22个字母,这一简化不仅提高了书写效率,也为文字的传播和演化铺平了道路。他们将这一体系带到了爱琴海诸岛,影响了希腊人的祖先,并促成了希腊文字的诞生。希腊文字的优化和改良,使得拼写与读音紧密相连,极大地提高了语言的表达效率。

随着亚历山大大帝的军事扩张和罗马帝国的建立,古希腊的拼音文字逐渐成为欧亚非大陆的主要语言体系,至今仍对西方文字产生深远影响,被称为拉丁文字。

这一演变过程不仅反映了人类对世界的认知进步,也体现了语言编码的抽象化和效率化。无论是拼音文字还是意形文字,都不约而同地遵循了信息论中的“最短编码原理”,即常用词汇趋于简短,罕见词汇则相对冗长。这一点在文字的自然演进中得到了巧妙的体现,无疑揭示了人类语言发展的普遍规律。

4.2 压缩与解压

在古代,纸张的昂贵以及书写介质的稀缺性,如龟壳、骨头、竹简等,使得刻字成为一种既耗时又耗力的活动。因此,古人在书写时极为节约用字,每个字都力求精炼至极,文言文便是这种精神的产物,它以极度的简洁著称,追求以最少的字数表达最丰富的意义。这种做法在当时实际上是一种“文字压缩”技术。

相对而言,现代的日常口语交流和将文言文翻译成白话文的过程,则可以比作是对古代文言文的“解压”,通过增加文字量来降低信息密度,使得语义变得更加明晰易懂。这一过程不仅反映了语言的适应性和演变,也展示了随着时间推移,人类沟通方式的演进。

4.3 校验码

在古代犹太文化中,抄写圣经被视为一项神圣的任务,对精确度要求极高,因为任何错误都被视为对上帝的亵渎。为了确保抄本的无误,犹太人采用了一种独特的方法:他们将每个希伯来字母与一个特定的数字相对应。在进行圣经抄写时,他们会在每页完成后,仔细计算每一行和每一列字母对应的数字总和,并与原始经文的相应数值进行对比。这种方法有效地帮助他们识别出任何潜在的错误,确保了文本的完整性。

这一古老的校验技术,在当时尚未被命名为“校验码”,却无意中预示了现代计算机和通信领域中广泛使用的校验码概念。这些方法,如循环冗余校验(CRC)和哈希函数,都是基于类似的原理,即通过数学计算来验证数据的完整性和一致性。古代犹太人的这种创新做法,不仅体现了他们对神圣文本的尊重,也无意中展现了他们在信息验证技术上的先进性。

最近更新

  1. TCP协议是安全的吗?

    2024-05-10 11:00:04       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-05-10 11:00:04       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-05-10 11:00:04       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-05-10 11:00:04       18 阅读

热门阅读

  1. 替换掉Springboot框架中的Tomcat,使用undertow

    2024-05-10 11:00:04       16 阅读
  2. https忽略ssl证书校验

    2024-05-10 11:00:04       9 阅读
  3. STM32 定时器最佳分频

    2024-05-10 11:00:04       9 阅读
  4. npm i 与npm install的区别,接上回的npm ERR! code 128

    2024-05-10 11:00:04       12 阅读
  5. 木钻:muzuan.cn

    2024-05-10 11:00:04       11 阅读