大数据时代的档案工作浅探

(整期优先)网络出版时间:2016-04-14
/ 2

大数据时代的档案工作浅探

孙中华

孙中华

峄城区中医院山东枣庄277300

摘要:随着大数据时代的来临,档案大数据也应运而生。本文论述了大数据产生的原因,档案大数据的特征及档案管理运用大数据的策略。

关键词:大数据档案管理特征对策

大数据(Bigdata)又称巨量资料、海量资料,指的是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。

一、大数据是网络时代的产物

近年来在物理、天文、生物、统计等学科领域和金融、气象、军事、通讯行业中需要处理的数据已经形成了大数据现象,需要处理的数据容量发展之快,已经不能再用GB和TB为单位来衡量数据的存储容量,以P(1000个T),E(一百万个T)或Z(10亿个T)为计量单位的应用已十分常见。但是大数据真正被多数人认识和关注则是由它在互联网上不断增加的数据,为互联网公司提供了进行数据挖掘和数据分析的物质基础。互联网公司可以通过对用户网络行为数据的分析来了解用户的网络行为习惯,改进服务推广模式和广告推送途径,从而获取更大的收益。目前我国大型的网络运营、电子商务企业都有专业的人员来进行大数据分析,对包括门户、搜索引擎、电子商务等业务产生的数据及用户的网上浏览、购物、娱乐习惯等进行分析,为各种服务的精准投放提供决策依据,以适应或者影响用户的网络活动习惯,从而获得更大的发展空间。大数据时代已经在不知不觉中降临到我们的生活中,同时也给档案管理工作带来了翻天覆地的变化。

二、档案大数据及其特征

档案大数据是在档案方面涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助经营决策提供更积极目的的信息。我们通常理解为大量非结构化数据(包含所有格式的办公文档、文本、图片、图像和音频/视频信息等)和半结构化数据(结构方面缺少统一规律的数据),这些数据在获取并用于分析时会花费过多时间和金钱。

档案大数据技术的意义不在于掌握庞大的数据信息,而在于对这些有较高价值的饱含历史意义的数据进行专业化处理。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。也就是我们不仅要拥有一座矿山,还要通过各种手段发掘、开采、提炼出高价值的产品。方法和手段不一样,产出的价值是不同的。

档案大数据的特点:数据量巨大、数据类型繁多、价值密度低、处理速度快。

数据量巨大:以“十一五末”我国的馆藏档案量已达到近4亿卷,以每卷3厘米厚度计算,我国的馆藏档案能把长江从源头至入海口码个来回。根据估算我国档案正以每5年40%的速度递增。

数据类型繁多:档案涉及政府机关、集团企业、金融、通信、建筑、房产、教育、军工、法院等行业。这些行业运行不同的业务,产生档案数据是各不相同的。如文档、设计图、照片、录音材料、视频、GIS信息、水文气象信息等。这些不同的文档又存在一定的关联性。比如城市建设的平面图、设计图可以和GIS数据信息关联,同时还要关联政府建设规划文件、批复与施工文件等。这些不同类型的数据不同程度上对数据的处理能力提出了更高的要求。

价值密度低:价值密度的高低与数据总量的大小成反比。如保险档案,我们会把保险单逐一存档,但发生理赔的概率是极低的。如何通过强大的机器算法更迅速地完成数据的价值“提纯”,成为目前大数据背景下亟待解决的难题。

处理速度快:这是大数据区分于传统数据挖掘的最显著特征。在海量的数据面前,处理数据的效率就是企业的生命。档案大数据也是如此。

档案大数据与互联网大数据有着相同的特点,从档案本身属性看其特点还表现在一方面可以提供政府企业运行的依据,支持核心生产力与应用,另一方面档案仍对合规、电子取证、安全、诊断以及其他支持性应用程序有相当大的价值。

三、档案管理运用大数据的策略

(一)加强档案的规范化管理。在大数据时代,信息众多无法管理。为此必须首先建章立制,避免信息杂乱无章。在实际档案管理工作中,根据单位工作实际,制订、修订各类档案管理办法,以规范各业务系统数据的形成。同时,可引入国际标准,对各类档案形成PDCA循环管理,定期检查梳理。

(二)加强人才队伍建设。大数据是新兴的概念,所以,对于大多数档案管理人员来说对大数据的含义还不是太了解,就更不用说大数据时代所应用的各种具体信息技术。这就需要加强大数据时代的人才建设,只有自身软实力增强了,才能更好地做好规划设计,才能在大数据时代做好档案工作。

(三)在档案的收集过程中要做到全流程控制。档案管理工作要从前端进行控制,确保档案的规范化管理。将档案管理融入到办公系统、科技创新管理、网络支撑等管理系统中,将文件、数据归档流程写入发文环节、验收环节等,抓好文档的前端控制。从技术手段上控制,将电子文件、数据的归档分办逻辑归档、物理归档。针对不同数据类别采取不同处理办法,与档案系统建立实时接口。

(四)在档案管理上要做到全技术支持。由于档案数据量会快速增长,因此对档案管理系统的设计采取基于云计算的技术,以满足服务器的快速扩容及数据量的快速增长,这样会大幅降低系统投资及维护成本。传统纸质档案以“卷”为单位,在大数据时代,无法对海量数据进行组卷,只能以“件”、“数据库”为管理对象。由于档案数据的快速增长,因此无法对其中每份档案“逐份鉴定”,只能对某个项目、事件采取“宏观鉴定”。在档案统计方面,从原来的以“页”、“米”为单位改为以“GB”为统计单位。在档案安全管理方面,需要对每分档案保留检索、利用日志,避免档案信息泄密。

(五)在档案利用中要做到全智能服务。传统的档案管理以文档管理为主,档案基本处于被动利用,沉淀的档案没有人去分析利用。在大数据时代,档案系统中除了大量的文档之外,还有海量数据,并且数据利用的效果要大于文档利用效果。因此要通过建立各种数据模型,对海量数据进行聚类、分类、相关性分析,找到数据之间的关系,进而提高决策水平和档案利用效率。当然,数据、文档都是“死”的,档案人员只有将这些“死”数据变成“活”信息,工作的价值才会得到更好的体现。

大数据时代的来临,对档案管理工作来说既是机遇也是挑战,档案行业需要努力抓住这个机遇,同时也要严肃对待挑战。随着大数据技术的发展和完善,大数据必有广阔的应用前景,档案管理在大数据时代将获得巨大的突破,档案信息资源中蕴藏着的巨大知识宝藏将会真正得到开发和利用。