大数据下的统计调查方法

(整期优先)网络出版时间:2023-02-14
/ 2

大数据下的统计调查方法

黎义霞

遵义市红花岗区统计局 563000

摘要:当前,我国统计信息系统的改革和建设日益引起人们的关注,它在推进社会信息化进程中起着无可取代的作用。在大数据时代,为了实现统计工作的现代化,必须加强对统计工作的管理,从而推动经济和社会的稳定发展。本文通过对当前大数据下统计调查发展现状进行概述,探究大数据统计的真实目的,从而探究大数据环境下统计调查的途径,以期待为相关研究提供借鉴。

关键词:大数据;统计;调查方法

引言

大数据与因特网技术的飞速发展,为统计技术的革新提供了新的技术支撑与发展环境,除此之外,大数据发展对统计科学的研究也显得尤为重要。大数据是以数据为基础的,它是一门以数据为基础的学科,它在统计研究中起着举足轻重的作用。因此,在大数据背景下,统计学工作者必须改变观念,正确理解统计与统计调查的关系,学会运用大数据进行统计调查,增强统计调查的科学性,使大数据与数理统计相结合,从而推动统计学的健康、可持续发展。在此背景下,对大数据环境下的统计调查进行探讨,有着十分重要的现实意义。

一、当前信息化统计发展现状

  统计信息化是当今社会发展的必然趋势。在大数据时代,“统计信息化”是我国统计工作改革和创新的一个重要方面。就我国当前的发展来看,多数企业在信息化建设上取得了一定的成果,具备了一定的基础条件。2011年,国家统计局顺应形势,推行了统一的数据收集处理软件平台和统一的联网直报系统,促进了统计信息化的发展。在大数据时代,数据处理方式的改进,信息化程度的提升,使统计信息化程度和质量得到提高,在大数据时代数据信息化已成为时代发展的必然。

二、大数据统计目的

从狭义上讲,大数据是高维度的数据集合,在大样本问题上,统计方法多采用抽样法来减少样本数,以保证所要求的准确率;而对于高维数据的问题,需要选择、压缩、分解等方法,才能满足统计学的需求。广义上来说,大数据是一种多源数据,是一种综合数据,将自然科学、人文、通讯、网络、商业、娱乐等多个方面的数据结合在一起,形成了一片数据的海洋,将不同学科的数据整合到一起,让不同的学科之间的界限变得模糊不清。同时,大数据包含了大量的数据类型,包括文字、图形、视频、图像等。

  通常,传统的统计方法适用范围有限,仅适用于单一的计算机存储数据的分析,而在大数据环境中,其统计方法主要包括:(1)资料流程的环境。目前的存储设备和运算能力已经不足以应付如此庞大的信息流。(2)一个磁盘存储环境.大量的资料不能满足记忆体的需要,所以需要用到硬碟。(3)贮存环境的分配。在多个存储空间中进行数据的分配,以处理海量的数据。(4)多线式的环境.对于单个电脑来说,海量的资料是不能满足的,它要求多个处理器协同工作,并共用记忆体。从这一层次来看,大数据统计的目的就是要使数据知识化,弄清数据的形成规律,并对其进行预测,并制订相应的政策,使之成为有价值的知识。通过对大数据的观测,可以对自然、经济、社会现象进行分析,从而了解流行病、社会动态、科学动态,从而为统计工作的发展提供新的思路和方法[[1]]

三、大数据环境下的统计调查途径

(一)做好数据预处理

  在大数据的背景下,统计调查要做好数据的预处理,包括数据的清理、数据的填补、数据的校正,以及对不规范的数据来源的校正,这些数据都是在严格的取样设计过程中形成的,具有很强的代表性和较小的误差。因特网的资料收集时间短、数量大、种类多,但是却不能避免资料的偏倚。因此,在进行统计调查时,要把大数据与数理统计有机地有机地结合起来,互相促进,以统计机构数据为基准,把因特网数据作为统计单位数据的补充,使统计机构数据及时更新,使数据与数据融合,提升统计调查整体质量。另外,利用多源数据的交迭,建立多源数据库,突破单一数据的限制,达到统计调查的终极目的。

(二)完善抽样调查

在大数据的背景下,取样方式要有创新与改革,取样不一定要对所有的“数据”取样,而是要根据数据的流动环境特征,从数据流中选取符合统计学需求和高准确率的样本。因此,必须加强统计部门的研究,并在此基础上,结合大数据的背景,探索具有较强适应性和一致性的采样方式,建立动态采样系统。在实际的抽样调查中,对已有的样点进行了调整,将经常发生的数据或相关数据整合到样本库中,并按照统计调查的要求,建立数据流缓冲,记录数据频率和变化,动态地调整已存在的样品,从而进一步提高样本的代表性和准确性,达到统计抽样调查的终极目的。对于个别个案,如果只采用随机取样的方法,只会选取少数个案或非个案资料,则需要统计员运用个案抽样调查的方法,以个案为样本,设定讯号强度上限,取样量必须在上限以上,然后再运用其它取样技术进行辅助,以提升样本的精确度,达到调查目的。

例如,作物播种面积调查采用抽样调查法,以省级或县级为样本,对样方地块所涵盖的所有田块开展面积调查,对样方地块设立三个取样样方,每个样方为200 m*200 m约60亩土地,分秋冬,春季,夏季三个季节对样方地块所涵盖的所有田块开展面积调查,对样方地块农作物品种进行实地调查,记录种植品种和面积,土地使用性质等,获取样本数据后,国家统计局赋予定的权属推算出样本所在的县市,各季节的农作物的种植面积。

1664444346428_328050BC-3D56-494e-BFDF-3C253E49026F

图一 粮食作物生产情况季节报表(抽样调查汇总表)

(三)数据分析与整合

由于目前数据的高维特征,统计工作者要在大数据环境中进行降维分解,研究数据的传输、运算、操作技巧,并结合统计要求进行高维矩阵、变量选择、数据流演算法等,无需存储数据,仅需数据扫描即可,利用计算机存储与外存,解决了数据传输问题,并进行数据分配与计算。尤其是在不需要统计数据丢失的情况下,对海量数据进行一个一个地分解,在计算机环境下,保证了数据的独立并行和分布推理,每台计算机的数据都具有交互作用,最后进行综合,得到了一个整体的统计。在目前的大数据背景下,统计调查的数据集没有识别出单个的关键字,这就导致了传统的关系数据库的关联方法不能用于统计,需要将多个数据库的重叠项合并起来,将不同的变量集数据合并为一个整体的、统一的数据库,并根据本地数据对统计调查的结果进行推理,从而实现统计调查的终极目的[[2]]

(四)构建网络图模型

在统计调查中,网络地图模型的构建主要是以图的形式表示,其中包含了无向图概率模型、贝叶斯网络、因果网络等。目前已有多种网上图形建模软件如 MSBN、BN Toolbox、CoCo、Tetrad等,使得统计调查的方法体系不断完善。在实际应用中,需要通过使用网络地图模型,对多个来源数据库进行实时的分析和处理,采用当地数据进行数学计算,引入了隐性变量相关性,通过关联关系图对数据进行有效的分析和预测。首先,统计师学习、研究各种数据库中的本地网络结构,并利用本地结构进行交互、协作,最后形成一个整体的网络结构。但当因果关系不能与数据分析结果相结合时,统计学家建议的主动学习模式必须转变,以主要变量作为研究对象,并对其进行因果联系,从而使统计工作更好地进行。因此,要根据数据之间的因果关系,采取“寻根问题+追根溯源”的方法,采取相应的干预措施。在此模式下,统计工作者无需建立以高维变量为基础的因果网络,而以目标节点为起点,通过局部变量的选取,实现了局部网络结构学习,并确定了目标节点的识别效果,从而改善了统计调查的整体质量[[3]]

四、结束语

  综上所述,在目前大数据环境下,迫切需要实现统计调查工作的创新和改革,以顺应时代发展的需要。统计人员要正确认识数据和统计数据之间的异同,做好数据预处理,统计抽样调查,数据分析,数据整合,建立网络地图模型,建立一个完善的统计调查体系,才能全面提升统计工作的质量。

  参考文献:


  [[1]] 周晓慧. 大数据在现代化统计调查中应用问题和路径研究[J]. 乡镇企业导报, 2022(5):3.

  [[2]] 颜晨芳, 易艳春, 尹纳,等. 大数据时代政府统计中抽样调查存在的问题及改进措施[J].  2021.

[[3]] 李云. 大数据背景下抽样方法与应用研究[J]. 山东开放大学学报, 2022(1):82-85.

作者简介:黎义霞 1988.07 女 贵州遵义 汉 大学本科 贵州师范大学 中级统计师 遵义市红花岗区统计局 研究方向:统计调查与研究、分析