其中“大数定律”解决了样本和总体的关系问题,其核心思想就是当样本量足够大的时候,样本的分布(均值)与总体的分布(真实均值)充分接近,也就是可以把二者看作是相等的。
大数定律告诉我们只要获取适合的数据样本量就可以把握住事物的分布规律,而不需要所谓的海量数据。关键是数据样本的代表性、数据的真实性有效性以及适合的样本量。
其实,大数据的“大”包括两方面的含义,其一是指数据的数量,其二是指数据的种类。在获取数据手段技术不断创新、成本下降的情况下,可以增加指标库,把我们过去无法获得或获取成本较高的指标数据纳入到我们的数据库。