凤凰周刊官网

数据为何喜爱从“1”开始?

来源:未知 作者:凤凰周刊 发布时间:2021-02-22
摘要:两班牙马德里自治区的179座城市中,大约三分之一的城市(准确地说是54座)都表现出居民人口数以“1”开头的特点。这是本福特定律的一个例子。本福特定律指出,从实际生活得出的...

两班牙马德里自治区的179座城市中,大约三分之一的城市(准确地说是54座)都表现出居民人口数以“1”开头的特点。这是本福特定律的一个例子。本福特定律指出,从实际生活得出的数据中,以“1”为首位数字的数的出现概率约为总数的30%。

本福特定律可追溯至1880年,当时美国天文学家两蒙·纽科姆在整理一本对数表书籍时发现了一个有趣现象:以“1”开头的数,其所在的页数相较其他页数破损更多。这一观察逐渐被人们遗忘,直到1938年,这个现象才引起美国工程师兼物理学家弗兰克·本福特的注意。本福特在多个来源不同的数据集合上测试了这个现象,包括美国3259座城市的居民人口、1800种物质的分子量以及美国“读者文摘”月刊308期中出现的数字。纽科姆的“第一位定律”后来被命名为“本福特定律”。

然而,并非所有数据集合都遵循本福特定律。鞋码不符合这个规律,来源于随机进程的数据一一如圣诞节彩票的中奖码一一也不符合。即便如此,本福特定律依然体现在方方面面,如街道门牌号、股票价格、河流长度和国家面积等。稍作思考,就可以很容易地发现,这些数据以“1”开头的频率更高。

作为一般性规律,符合本福特定律昀数据为表示规模的、不预设限制的数据(长度、人口等)。此外,数据覆盖的数量级越高,就越符合这项定律。从这个意义上来讲,本福特定律是正态分布的“亲戚”,而正态分布自然存在于各类统计现象中。

本福特定律也可应用于实际生活中。假设西班牙企业向大气排放的二氧化碳吨数满足本福特定律,如果一家公司提供的二氧化碳排放量数据中,有15%的数据以“8”开头,则我们有理由认为这家公司的数据存在作假嫌疑。这可能不是决定性证据,但可以成为调查此事件的线索。

责任编辑:凤凰周刊

凤凰周刊订阅

微信:fhzkwx
手机号:13392956388
传真/座机:0756-2531788/0756-2602588

点击这里关闭×