抱歉,您的浏览器无法访问本站

本页面需要浏览器支持(启用)JavaScript


了解详情 >

数字、文字、自然语言 一样,都是信息的载体。

语言和数字的产生为的是同一个目的 :记录和传播信息。

1948年,香农提出信息论,人们才把 数学和语言 联系起来。

1. 信息

<img src="/images/nlp/history-info-1.jpg" width=“480” height=“400” align=“middle” /img>

人类最早利用 voice 进行 通信

<img src="/images/nlp/history-info-2.png" width=“650” height=“100” align=“middle” /img>

人类文明的进步,需要表达的信息量越来越多,人类发明的自然语言

语言的出现是为了人类之间的通信。字母、文字、数字 是信息编码的不同单位。任何一种语言都是一种编码方式,语言的语法规则是编解码的算法。

2. 文字和数字

当语言和词汇多到一定程度,人类大脑记不住所有词汇,高效记录信息的形式出现,人类便发明了 文字

文字

古埃及,读音相同的词用同一个符号来记录。

文字按照聚类会带来歧义性,弄不清多义字在特定环境的含义,就要依靠上下文

不同的文明,由于地域原因,历史上互相隔绝,便会有不同的文字。文明的融合与冲突,不同文明下的人们进行交流(通信),那么翻译的需求便产生了。不同的文字系统在记录信息上的能力是等价的。

罗塞塔 Rosetta Stone 石碑 [古埃及象形文字、埃及拼音文字、古希腊文] 的破译对于 NLP 学者的两点指导意义 :

  1. 信息的冗余是信息安全的保障
  2. 语言的数据,我们称之为 语料

Rosetta Stone, Google推出的翻译软件

数字

祖先需要记录物件的个数越来越多,所以开始发明了计数系统,也就有了 数字。因为 10 个手指头,所以发明了 10 进制。

描述数字最有效的是 古印度人,他们发明了 10个 阿拉伯数字。数字的革命性在于它的简单有效,而且 标志着数字和文字的分离。这在客观上让 自然语言的研究 和 数学的研究 在几千年里没有重合的轨迹。

3. 文字和语言背后的数学

象形文字拼音文字 是一个飞跃,描述物体方式上,从外表进化到了抽象的概念,同时不自觉的采用了对 信息的编码。同时祖先对文字的编码还非常合理,常用字短,生僻字长。这完全符合信息论中的 最短编码理论。

这种文字设计(其实是一种编码方法)带来的好处是写起来省时间、省材料。

公元前26世纪,约4700年前,出现了楔形文字(一种拼音文字)

在古代,在造纸术发明之前,人们说话还是类似白话文,文字书写要刻在 龟壳、石碑、竹简 等上,很费时间和材料,所以惜墨如金,使得古文非常简洁。

类比信息科学 :

  • 通信时: 如果信道较宽,信息不必压缩,可直接传递;
  • 通信时: 如果信道较窄,信息在传递前需要尽可能压缩,然后在接收端进行解压缩。

词语 : 是有限和封闭的集合 (其实可设置完备的编码规则)
语言 : 是无限和开放的集合 (不可以设置完备的编码规则)

任何语言的都有语法规则覆盖不到的地方,这些不精确性,也造就了语言的丰富多彩。

4. 小结

了解 文字、数字、语言 的历史

  • 通信的原理和信息传播的模型
  • (信源) 编码 和 最短编码
  • 解码的规则 : 语法
  • 聚类的概念
  • 双语对照文本,语料库 和 机器翻译
  • 多义性和利用上下文消除歧义性

Reference

  • 《数学之美》 读书笔记

Comments