首页 理论教育 大数据时代的数学思维:魔鬼数学规划十维空间之旅

大数据时代的数学思维:魔鬼数学规划十维空间之旅

时间:2023-11-16 理论教育 版权反馈
【摘要】:高尔顿提出的相关性概念对我们所处的世界具有不可估量的影响。从这个意义上讲,高尔顿的相关性概念,与名气比他大的表哥(达尔文)的伟大发现之间有某种共通之处。4个数字的组合可以看成是四维空间中的点,那么,表中表示加州各地气温情况的那10个数字,就是十维空间中的点。这就是用几何语言表述的皮尔逊公式,两个变量之间的相关性是由这两个向量之间的夹角决定的。

大数据时代的数学思维:魔鬼数学规划十维空间之旅

高尔顿提出的相关性概念对我们所处的世界具有不可估量的影响。它的影响力不仅触及统计学,而且涵盖科学活动的所有领域。关于“相关性”一词,我们首先应该了解的是“相关关系并不意味着因果关系”。即使一个现象不会导致另一个现象,根据高尔顿的理解,这两个现象之间也可能存在相关性。其实,这并不是什么新发现。人们早就知道兄弟姐妹更有可能有相同的身体特征,还知道并不是因为哥哥高所以妹妹也高。但是,这个现象背后仍然暗藏着某种因果关系:父母高,在遗传因素的作用下,两个孩子也高。在后高尔顿时代,我们可以大谈特谈两个变量之间的相关性,但是对于两者之间是否存在某种因果关系(无论是直接还是间接的因果关系)却不得而知。从这个意义上讲,高尔顿的相关性概念,与名气比他大的表哥(达尔文)的伟大发现之间有某种共通之处。达尔文指出,在讨论进化时即使不带有任何目的,也可能产生研究价值,而高尔顿的研究则证明,在针对相关性开展有意义的讨论时无须关注潜在的因果关系。

高尔顿给出的相关性的原始定义存在某种局限性,仅适用于分布遵循钟形曲线定律的变量。但是,卡尔·皮尔逊很快就对他的这个概念进行了修正,使其适用于所有变量。

皮尔逊的公式里有许多平方根与比例,如果我们对笛卡儿几何学的掌握没有达到驾轻就熟的程度,皮尔逊的公式就不可能对我们有所启发,因此,我在这里就不列出这个公式了,大家也无须查阅相关资料。不过,皮尔逊的公式有一个非常简单的几何描述方法。从笛卡儿开始,数学家就热衷于在现实世界的代数描述与几何描述之间来回切换。代数的优势在于形式严谨,易于输入电脑;而借助几何学,我们则可以凭直觉处理眼前的难题,当拥有绘图能力时,这个优势会更加明显。有很多数学知识我无法真正地理解,但是,一旦了解了它的几何含义之后,我就会豁然开朗。

那么,在几何学中,相关性指的是什么呢?为方便理解,我们回过头,再次研究2011年1月和2012年1月10个加州城市1月份平均气温的表格。我们发现,2011年的气温与2012年的气温之间存在非常强的正相关性,根据皮尔逊的公式,该相关系数是0.989。

在研究两个不同年份气温测量数据之间的关系时,我们可以把表中各数据项减去相同的量,这个操作不会影响结果。如果2011年的气温与2012年的气温之间存在相关性,那么它与“2012年的气温+5华氏度”之间也必然存在相关性。我们还可以换一种方法来考虑这个问题:如果我们把图中所有的点都向上移动5英寸,那么高尔顿的椭圆形不会改变,发生改变的只是它的位置。事实证明,如果把这些气温值加上或减去一个相同的量,将更有利于我们的分析研究。比如,在这个案例中,两列数值分别减去2011年与2012年的气温平均值,我们就会得到下表:

在这张表中,数据为负值时表示该城市气温较低,如特拉基;数据为正值时表示气温较高,如圣迭戈。

接下来的步骤非常关键。记录2011年1月气温情况的那一列有10个数字,因此这一列就是一串数字,它还是一个点。这是怎么回事呢?这得归功于笛卡儿。我们可以把两个数字的组合(x,y)看成平面上的一个点,x自原点向右,y自原点向上,并画出一个从原点指向点(x,y)的短箭头,这个箭头叫作“向量”(vector)。

同样,维空间中的点可以表示成三个数字的组合(x,y,z)。只要我们不因循守旧,敢于创新,就能有所突破。4个数字的组合可以看成是四维空间中的点,那么,表中表示加州各地气温情况的那10个数字,就是十维空间中的点。不过,更好的做法是把它看成一个十维向量。

此时,大家有足够的理由提出疑问:我应该怎么考虑这个十维向量?它到底是什么样子?

十维向量的样子如下图所示:

这是高级几何学中隐藏的一个小秘密。拥有处理十维(甚至一百维、一百万维)几何体的能力似乎是一件非常美妙的事,但是,我们的脑海里只能产生二维最多三维几何体的形象,这是我们思维能力的极限。值得庆幸的是,这种有限的思维能力足以帮助我们处理一些问题。

高维几何体似乎有些神秘,因为我们生活在一个三维世界里(加上时间维度就是四维,如果我们是弦论学家,就可能是二十六维。即便如此,我们也会认为宇宙在其中大多数维度上的延伸是有限的)。我们为什么要研究高维几何体呢?

时下特别流行的数据研究给出了一个答案。大家还记得前面讨论的用400万像素照相机拍摄的那幅照片吧,那幅照片被描述成了400万个数字,每个数字对应一个像素。(这是在不考虑颜色的情况下得到的结果。)因此,该影像就是一个四百万维向量,或者说,是四百万维空间中的一个点。随时间变化的影像就可以表示成一个在四百万维空间中移动的点,在四百万维空间中留下一条线。也就是说,不知不觉中,我们已经在研究四百万维向量的微积分问题了,而且,我们还会发现这样的研究其乐无穷。

接下来我们继续讨论气温问题。表中有两列数据,每列都是一个十维向量,如下图所示:

这两个向量的方向大致相同,表明这两列数据实际上区别不大。我们已经知道,2011年最冷的城市在2012年也非常冷,气温高的城市情况亦大致如此。

这就是用几何语言表述的皮尔逊公式,两个变量之间的相关性是由这两个向量之间的夹角决定的。如果用三角学来描述,相关性就是夹角的余弦。至于你是否记得余弦的含义,这并不重要,你只需知道0度角(即两个向量指向相同方向)的余弦为1,180度角(两个向量指向相反方向)的余弦为-1。如果两个向量的夹角为锐角(小于90度的角),那么它们之间存在正相关关系;如果两个向量的夹角大于90度,即为钝角,那么它们之间存在负相关关系。笼统地讲,当夹角为锐角时,两个向量“指向相同方向”;而当夹角为钝角时,两个向量会“指向相反方向”。

如果夹角既不是锐角也不是钝角,而是直角,那么这两个变量之间不存在相关性。在几何学中,我们把夹角为直角的两个向量叫作“垂直”(perpendicular)或“正交”(orthogonal)向量。数学家以及那些对三角学情有独钟的人经常延伸“orthogonal”这个词的内涵,用它来表示某个东西与手头上的东西没有任何关系。例如,“你可能以为你深受欢迎的原因与你的数学技能有关,但是,根据我的经验,这两者之间没有任何‘交集’(orthogonal)”。慢慢地,为三角学痴迷者们所青睐的这种用法就变成了人们广泛使用的语言。我从美国高等法院近期发生的口头辩论中摘选了一段,帮助你们了解这个现象。

弗雷德先生:我认为那个问题与我们在这里讨论的问题没有任何“交集”,因为我们州承认……

首席法官罗伯茨:对不起。没有任何什么?

弗雷德先生:交集。两者毫无关联,没有任何相关性。

首席法官罗伯茨:哦。

法官萨卡里亚:是哪个词啊?我喜欢这个词。

弗雷德先生:交集。(www.xing528.com)

法官萨卡里亚:交集?

弗雷德先生:对,对。

法官萨卡里亚:哦。

(哄堂大笑。)

对于大家纷纷效仿使用“orthogonal”一词的行为,我是赞成的。数学术语变成日常用语已经不是新鲜事了。现在,“lowest common denominator”[3]这个表达的数学含义几乎消失了,而且这个演变过程是以指数级速度完成的。

客气地说,将三角学应用于高维向量以量化相关性,并不是人们当初发明余弦函数的初衷。公元前2世纪,尼西亚天文学家希帕恰斯(Hipparchus)写出了第一个三角函数表,目的是计算日食的时间间距,他所使用的向量都是用来描述天体的,而且毫无例外都是三维的。但是,为达到某个目的而发明的数学工具,往往也可以在其他多个方面发挥作用。

借助几何学来理解相关性这个概念,使统计数据中某些含糊不清的内容变得明晰起来。我们以富有的自由派精英分子为例,一段时间以来,这个略带贬义的词频频出现在政治专家的意见之中。戴维·布鲁克斯(David Brooks)在这个方面的见解可能最专注,也最翔实,他写了一本书介绍被他称作“波波族”的群体。[4]2001年,布鲁克斯在思考兼具城乡特色、经济富裕的马里兰州蒙哥马利县和经济水平居于中游的宾夕法尼亚州富兰克林县之间的差距时,发现根据经济水平进行政治分类的老方法已经严重滞后了。在这种旧的分类体系中,共和党支持的是钱袋子,而民主党支持的则是埋头工作的人。

在去年的总统大选中,与硅谷芝加哥北岸、康涅狄格州城郊等美国各地的其他高收入地区一样,蒙哥马利县支持的是民主党,共和党和民主党的选票分别占34%和63%;而富兰克林县则把大部分选票投给了共和党,两党得到的选票分别占67%和30%。

首先,这里说的“各地”有点儿言过其实了。威斯康星州最富裕的县是沃基莎,小布什在这里击败了阿尔·戈尔(Al Gore),但是,在全州范围内戈尔以微弱的优势取得了胜利。

其次,布鲁克斯说的是实情,我们在前面介绍的散点图中已经清楚地看到了这个现象。从当今美国大选来看,富裕的州更有可能把选票投给民主党。密西西比州和俄克拉何马州都是共和党的地盘,但是共和党根本不会奢望主导纽约州和加利福尼亚州。换言之,居住在富裕的州与把选票投给民主党,两者之间存在正相关性。

但是,统计学家安德鲁·格尔曼(Andrew Gelman)认为,布鲁克斯描述的其实是一种新型的自由主义者,他们喝着拿铁,开着丰田普锐斯,住着有品位的大房子,印有“NPR”(美国国家公共电台)字样的大手提袋中装满了现金,而实际情况更加复杂。事实上,几十年以来,有钱人把选票投给民主党的可能性一直高于那些囊中羞涩的人,而且这种情况持续存在。格尔曼及其合作伙伴深入分析每个州的统计数据,结果发现了一个非常有意思的规律。在某些州,例如得克萨斯州和威斯康星州,富裕的县会把更多的选票投给共和党。但是在马里兰、加利福尼亚与纽约等州,富裕的县则更倾向于支持民主党,而众多政治专家正好就住在这些州。他们坐在家中放眼一看,在他们周围这片富足的土地上生活的都是有钱的自由主义者,便自然而然地认为全美各地都是这样。的确,他们有这样的想法是很自然的,但是,如果看一看总体数据,我们就会知道这是一个错误的想法。

不过,这里似乎存在一个悖论。家境富裕与居住在富裕的州,这两者之间毫无疑问是存在正相关关系的,居住在富裕的州与把选票投给民主党也存在正相关关系,这是不是意味着家境富裕与把选票投给民主党之间肯定也存在正相关关系呢?用几何语言表述的话,就是:如果向量1与向量2的夹角为锐角,向量2与向量3的夹角也是锐角,那么向量1与向量3的夹角是不是也一定是锐角呢?

并非如此,我们可以画图证明。

某些关系(例如“大于”)是可以“传递”的。如果我比我儿子重,我儿子又比我女儿重,那么,我肯定比我女儿重。“与……居住在同一座城市”也具有可传递性。如果我和比尔住在同一座城市,比尔与鲍勃住在同一座城市,那么我和鲍勃一定也住在同一座城市。

但是,相关性不具有可传递性,相关性与“血缘关系”比较类似。从血缘方面讲,我与我儿子有血缘关系,我儿子与我妻子有血缘关系,但是我和我妻子之间并没有血缘关系。事实上,如果把存在相关性的变量理解成“部分DNA相同”,就不会有多大问题。假设我经营的小型理财公司只有三位投资者——劳拉、萨拉和蒂姆。他们的股票头寸非常简单:劳拉的一半头寸是脸谱网的股票,一半是谷歌的股票;蒂姆的头寸是通用汽车的股票和本田的股票各占一半;萨拉的头寸中新经济和传统经济各占半壁江山,即一半是本田的股票,一半是脸谱网的股票。很明显,劳拉的收益肯定与萨拉的存在正相关关系,因为他们的投资组合有一半是相同的,萨拉的收益与蒂姆的收益也存在正相关关系;但是,我们没有理由认为蒂姆的收益与劳拉的收益一定存在正相关关系。他们的头寸就像一对夫妻,分别贡献一半“遗传基因”,形成了一种结合体,即萨拉的头寸。

从某种意义上讲,相关性的不可传递性是显而易见的,但又不容易理解。以共同基金为例,如果知道蒂姆的收益有所上升,我们不会错误地认为可以据此推断劳拉的收益。但是,我们的直觉在其他领域的表现却没有这么好,例如,我们在考虑“优质胆固醇”时就是这样。“优质胆固醇”指的是血液中HDL(高密度脂蛋白)携带的胆固醇,几十年来,人们一直认为优质胆固醇含量与心血管问题发生率之间存在相关性,优质胆固醇含量越高,出现心血管问题的风险就越低。通俗地讲,如果你的优质胆固醇含量充足,那么你捂着胸口倒地而亡的可能性往往比较小。

我们还知道某些药物可以有效地增加优质胆固醇的含量,其中比较常见的是维生素B族中的烟酸(niacin)。如果烟酸可以增加优质胆固醇含量,那么,大量摄入烟酸应该可以取得比较好的效果。我的医生就提议我这样做,估计你的医生也会给出类似的建议,除非你还未成年或者是马拉松选手这种代谢能力很强的人。

问题是,我们并不清楚烟酸是否有效。小规模临床试验结果表明补充烟酸的做法可以取得较好的疗效,但是,2011年,美国国家心肺血液研究所提前一年半中止了该所的一个大规模临床试验,原因是结果非常不理想。服用烟酸补充剂的病人的确提升了体内的优质胆固醇含量,但是他们患心脏病中风的概率跟其他人没有任何区别。为什么会这样呢?这是因为相关性是不可传递的。烟酸与优质胆固醇含量之间存在相关性,高含量的优质胆固醇与低心脏发病率之间存在相关性,但这并不意味着烟酸可以预防心脏病。

然而,这也不意味着增加血液中HDL携带的优质胆固醇含量的做法行不通。每种药物都不相同,而临床效果有可能与增加优质胆固醇含量的方法有关系。我们回过头再讨论一下理财公司的问题。我们知道蒂姆的收益与萨拉的收益存在相关性,因此,我们有可能采取某些措施增加蒂姆的收益,从而增加萨拉的收益。如果我们采取的方式是通过发布虚假的利好消息来促使通用汽车的股票涨价,蒂姆的收益就会提高,而萨拉的收益却没有变化。但是,如果我们发布的是关于本田股票的虚假利好消息,那么蒂姆与萨拉的收益都会提高。

如果相关性具有可传递性,医学研究就会容易得多,因为几十年来我们积累了大量的观察结果和相关数据,已经知道很多现象之间存在相关性。如果相关性真的具有可传递性,医生只需要这些相关性之间建立联系,就可以有效地治疗各种疾病。我们知道女性的雌性激素与低心脏发病率之间存在相关性,我们还知道荷尔蒙替代疗法可以提高雌性激素的含量,因此,我们可能会认为荷尔蒙替代疗法可以降低妇女患心脏病的风险。事实上,这是临床治疗的传统观点,而真实情况则要复杂得多。21世纪初,一项涉及大量随机临床试验的长期研究——妇女健康临床研究的报告称,采用雌性激素与黄体酮组合的荷尔蒙替代疗法,实际上增加了研究对象患心脏病的风险。后来的研究又得出了另外一些结果:荷尔蒙替代疗法对不同女性人群的疗效也不相同,单纯采用雌性激素的治疗方案可能比采用雌性激素与黄体酮组合的治疗方案,更有利于女性的心脏健康,等等。

在现实生活中,我们几乎根本无法预测某种药物对某种疾病有什么样的疗效,即使我们非常了解这种药物对优质胆固醇或者雌性激素含量等生物标记物的影响。人体是一个异常复杂的系统,我们可以测量的特征为数甚少,更不用说操控这些特征了,但我们可以在相关性的基础上进行观察。有可能取得预期疗效的药物非常多,因此我们只能通过临床试验找出合适的药物。但是,大多数临床试验会遭遇失败,令我们一次次地感到沮丧。因此,开发新药不仅需要大量资金,更需要的是持之以恒、越挫越勇的心态。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈