北京学区房
它不像正态分布,有个胖乎乎的钟形曲线,告诉你中间最可能,两边越来越渺茫,像是生活里那些总往平均值靠拢的琐事。也不像指数分布,一开始蹦得老高,然后迅速衰减,仿佛等待一件随时可能发生却发生后就不再计算剩余时间的事件。这个均匀分布,它就是摊平的、熨帖的,毫无偏倚。
从数学上讲,这摊平的感觉体现在它的概率密度函数上。在一个限定的、有界的区域R内,这个函数值是个常数;一旦跑出R,函数值立刻归零。就像那张桌面,只在桌面范围内有“可能性”,桌子外?连想都不用想。而这个常数多大呢?很简单,为了保证总的概率加起来是1(毕竟沙子总得落在某个地方),这个常数就得是1除以区域R的总面积。你想啊,密度嘛,得让“密度”乘以“面积”等于总“质量”(概率),这里的总质量是1。所以,概率密度函数 f(x, y) = 1 / Area(R),当 (x, y) 属于 R;f(x, y) = 0,当 (x, y) 不属于 R。就这么直白,不绕弯子。
那这玩意儿有啥用?难道现实世界真有哪件事能完美地符合这般纯粹的均匀分布?或许很难找到绝对完美的例子。风吹沙落会有偏差,针尖落下会有惯性,你闭眼点图纸,手也可能偏向习惯的方向。但这是一种极好的简化模型,是复杂现实的“骨架”之一。
比如,经典得不能再经典的“在规定时间内碰面”的问题。假设你和朋友约在下午三点到四点之间在一个广场见面。你们都同意,各自的到达时间都是独立且随机的,而且在三点到四点这个小时内是均匀分布的。也就是说,你三点零一分到的可能性,跟你三点三十五分到的可能性是一样的,都是那个小时内任何一个特定时刻的公平一票。好了,现在假设你们都只会等待对方10分钟。如果我在3:15到了,你必须在3:05到3:25之间出现,我们才算碰上。这个“碰上”的概率有多大?
这个问题,用二维随机变量来描述就再恰当不过了。设你朋友的到达时间是随机变量 X,你的到达时间是随机变量 Y。它们都在 [3:00, 4:00] 这个区间内,长度是60分钟。我们将这个时间段映射到 [0, 60]。那么,(X, Y) 就是一个二维随机变量,它在一个 60x60 的正方形区域内服从均匀分布。这个正方形的面积是 60 60 = 3600。
你们碰面的条件是 |X - Y| <= 10。也就是说,Y必须落在 [X-10, X+10] 这个区间里。在那个 60x60 的正方形坐标系里,X轴是你朋友的时间,Y轴是你的时间。|X - Y| <= 10 这个不等式代表的是什么区域呢?把它拆开就是 Y <= X + 10 和 Y >= X - 10。在图上画出来,是两条平行于对角线 Y=X 的直线:Y = X + 10 和 Y = X - 10。所有满足碰面条件的点 (X, Y) 就会落在由这两条直线,以及正方形边界围起来的一个区域里。
这个区域的形状,如果你画一下会发现,是那个 60x60 的正方形砍掉了两个角,切掉的部分是两个等腰直角三角形,腰长都是 60 - 10 = 50。所以,中间碰面的那个区域的面积,就是总面积减去那两个三角形的面积:3600 - 2 (1/2 50 50) = 3600 - 2500 = 1100。
看吧,纯粹的几何问题出现了!因为概率密度函数是常数(1/3600),在这个均匀分布下,任何一个子区域内的概率,就直接等于该子区域的面积除以总区域的面积。所以,你们能碰面的概率就是 1100 / 3600 = 11 / 36。大约是 0.305。
这个结果,嗯,三十个百分点出头,似乎也不是很高?是啊,仅仅因为“随机且均匀”地选择到达时间,并且只等短短10分钟,碰面的概率就限制住了。它强迫你去思考:如果不是均匀分布呢?如果大家都有点拖延症,总是偏向晚到?或者都习惯早到?分布形态一旦变了,这个碰面区域的“概率质量”分布就不再均匀,计算方法也得跟着变复杂,得乖乖去算那个非匀的概率密度函数在特定区域上的积分了。
所以,二维随机变量的均匀分布,它简单,它公允,它提供了一个最基础、最干净的概率空间模型。它是构建更复杂模型的地基,也是衡量“非均匀”有多“非”的一杆秤。它告诉你,在理想世界里,机会是如何均匀地摊开在每一个角落的。而现实,总是喜欢在这种平整的画布上,随意泼洒一些深浅不一、厚薄不均的颜料。但即便如此,理解那层底色的均匀,总是没错的。它给你的直觉,那种“概率与面积成正比”的朴素想法,在很多地方,依然闪闪发光。
相关问答