首页 理论教育 《欢乐颂》小说探讨大数据时代的数学思维力量

《欢乐颂》小说探讨大数据时代的数学思维力量

时间:2023-11-16 理论教育 版权反馈
【摘要】:《欢乐颂》的前两个音相同,因此我们在开头部分记下“*r”。接下来,第五个音与最高的第四个音相同,随后便是依次降低的4个音,因此,《欢乐颂》第一句的帕森斯编码就是“*ruurdddd”。比如,如果我们记得《欢乐颂》的旋律,但是想不起它的名字,我们就可以登录“音乐大百科”之类的网站,输入“*ruurdddd”,这一小串符号足以把选择范围缩小至《欢乐颂》与莫扎特《第12号钢琴协奏曲》。正是出于这个原因,压缩技术才成为一种可能。

《欢乐颂》小说探讨大数据时代的数学思维力量

我在前面对贝蒂荣人身测定法的介绍并不完全准确。事实上贝蒂荣并没有记录各种人体特征的具体数值,而仅仅给出了大、中、小这三个等级。在测量手指长度时,把罪犯分成三类:手指较短的罪犯、手指长度中等的罪犯和手指较长的罪犯。在接下来测量肘长时,再把这三个类别分别分成三个子类,因此,罪犯一共被分成了9个类别。贝蒂荣人身测定法通常包括5种测量数据,可以把罪犯分成243(即35)个类别。在这243个类别中,每个类别针对眼睛与头发的颜色又有7种选择。因此,贝蒂荣最终把罪犯分成了1701(即35×7)个类别。如果被逮捕的人数超过1701个,那么某些类别囊括的嫌犯人数必然超过1个。但是,每个类别囊括的人数会很少,警察就可以很方便地从那些记录卡中找出与嫌犯数据相匹配的人的照片。如果我们愿意增加测量项目,那么每增加一个,类别的数量就会变成以前的三倍。这样,我们可以很容易地把这些类别变得足够小,使每个贝蒂荣代码仅代表一个罪犯(在贝蒂荣的研究中指的是某个法国人)。

这种利用简短的符号串记录人体特征等复杂事物的手段非常简单明了,而且它的应用并不仅限于人体特征。比如,帕森斯编码可以用于为乐曲分类,下面我来为大家介绍帕森斯编码的工作原理。选择一首我们都知道的乐曲,比如《贝多芬第九交响曲》的华丽终曲《欢乐颂》。我们用符号“*”标记第一个音符,然后从三个符号中选择一个来标记它后面的那个音:如果这个音比前面的音高,就用符号“u”表示;如果比前面的音低,就用符号“d”表示;如果两者相同,就用符号“r”表示。《欢乐颂》的前两个音相同,因此我们在开头部分记下“*r”。随后的两个音相继升高,记作“*ruu”。接下来,第五个音与最高的第四个音相同,随后便是依次降低的4个音,因此,《欢乐颂》第一句的帕森斯编码就是“*ruurdddd”。

我们不可能根据贝蒂荣的测量结果画出银行抢劫犯的画像,同样,我们也不可能根据帕森斯编码再现贝多芬的代表作。但是,如果我们的文件柜中装满了帕森斯编码,这些符号串就可以帮助我们准确地辨识任何乐曲。比如,如果我们记得《欢乐颂》的旋律,但是想不起它的名字,我们就可以登录“音乐大百科”之类的网站,输入“*ruurdddd”,这一小串符号足以把选择范围缩小至《欢乐颂》与莫扎特《第12号钢琴协奏曲》。如果我们哼唱16个音,就会产生43046721(即316)种帕森斯编码。这个数字肯定大于所有乐曲的数目,因此,这个编码代表两首歌的可能性非常小。每增加一个符号,就会把编码的种类扩大到原来的3倍。由于指数级增长的神奇性,利用一段非常短的编码,我们就可以高效地区分两首乐曲。

但是这种做法存在一个问题,我们还是回过头从贝蒂荣人身测定法说起。如果警察逮捕的那些人的肘长与手指长度都分属同一个类别,会导致什么结果呢?两种测量数据本来能产生9种类别,但在这种情况下只剩下三种:较短的手指/较短的肘长、中等长度的手指/中等长度的肘长、较长的手指/较长的肘长。此时,贝蒂荣人身测量数据文件柜的抽屉有2/3会处于闲置状态。类别的总数不是1701个,而是少得多的567个,因此,我们辨识罪犯的能力会下降。我们还可以换一种方式来考虑这个问题,我们以为测量了5种数据,但是,如果肘长与手指长度这两个数据项所包含的信息一模一样,那么实际上测得的数据仅有4种,可能得到的卡片数量就会由1701张(即7×35)锐减至567(即7×34)张。存在相关关系的测量数据越多,有效类别的数量就越少,贝蒂荣人身测定法的效果就越差。(www.xing528.com)

高尔顿敏锐地发现,即使手指长度与肘长不属于同一个类别,只要它们有相关性,就会产生同样的结果。测量数据间的相关性会使贝蒂荣记录卡包含的信息量变少。高尔顿的敏锐判断力使他在学术上再次表现出先见之明,他的这个发现其实是一种思维方式的雏形。半个世纪之后,克劳德·香农在他的信息论中为之赋予了完整的形式。我们在第13章讨论过,香农的信息论可以给出比特在嘈杂的信息渠道中传输速度的变化范围,他的理论也能以差不多的方式,表现变量之间的相关性使记录卡中信息量减少的程度。也就是说,测量数据间的相关性越强,贝蒂荣记录卡包含的信息量(按照香农的理解)就越少。

如今,尽管贝蒂荣人身测定法已经风光不再,但是,认为“记录身份的最佳方式是一串数字”这种观念已经占据绝对优势,我们生活环境成了数字化信息的世界,相关性会使有效信息量减少的理念也成为最核心的组织原则。过去,照片就是在有化学涂层的相纸上将颜料排成某种图案的产物,而现在则变成了一串数字,其中的每个数字代表像素的亮度与颜色。一部400万像素照相机捕捉的画面就是由400万个数字组成的数字串,因此这部照相机在拍摄照片时需要留出不小的内存。但是,这些数字相互之间有很强的相关性。如果一个像素是鲜绿色的,那么下一个像素可能同样是鲜绿色的,所以这幅图像中实际包含的信息远少于400万个数字的信息表达能力。正是出于这个原因,压缩技术才成为一种可能。[2]压缩是一种非常重要的数字技术,可以将图像、视频、音乐和文本储存到远小于我们预期的内存空间中。相关性概念的提出使压缩技术成为可能,但是在实际操作中还涉及一些更现代的概念和想法,例如让·莫雷(Jean Morlet)、斯特凡·马拉特(Stéphane Mallat)、伊夫斯·梅耶尔(Yves Meyer)和英格丽·多贝西(Ingrid Daubechies)等人于20世纪七八十年代提出的“小波理论”,以及发展势头迅猛的压缩传感技术。后者源于2005年伊曼纽尔·康戴斯(Emmanuel Candès)、贾斯汀·罗姆博格(Justin Romberg)与陶哲轩合著的一篇论文,随后迅速发展成应用数学的一个非常活跃的子领域

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈