微观数据开发应用情况简介

一、概述

根据党中央、国务院关于政府信息公开、统计数据开放共享的要求,为充分发挥微观数据资源在政策制定和学术研究等方面的重要作用,提升我国哲学社会科学研究水平,更好地服务于经济社会发展和国家治理方略的实施,国家统计局决定向中华人民共和国境内具有法人资格的政府部门、高等院校及其下属的非营利性科研机构开放微观数据。

为了做好微观数据开发应用工作,国家统计局建立了微观数据实验室,与清华大学共同建立了国家统计局—清华大学数据开发中心。国家统计局—清华大学数据开发中心于2017年6月29日正式成立,作为国家统计局在国内的首个试点单位,依托于清华大学经济管理学院。微观数据实验室面向中央部委及其下属科研机构开放;数据开发中心在试运行期间,面向“双一流”建设高校及中国社会科学院、中国科学院、中国工程院等科研机构开放。

综合考虑社会需求和统计工作现状,试点阶段,先行开发应用的微观数据范围为:

(一)规模以上工业企业财务状况年度调查微观调查数据;

(二)住户收支调查微观调查数据;

(三)2010年第六次全国人口普查微观调查数据;

(四)2015年1%人口抽样调查微观调查数据;

(五)第三次全国经济普查微观调查数据;

(六)第三次全国农业普查微观调查数据。

微观数据开发应用工作将按照推进公开、稳中求进的工作原则,及时总结相关经验,条件成熟后积极扩大数据开放范围。

1、规模以上工业企业财务状况调查数据包括2012年至2016年的年度数据,在三个省级地区的规模以上工业企业中,按10%的比例随机抽取样本企业,并对企业数据进行了脱敏处理。包括资产负债类、损益分配类和其他三大类,主要有流动资产负债、固定资产原价、资产总计、流动负债合计、负债合计、主营业务收入、主营业务成本、营业利润、利润总额和平均用工人数等32个指标。

2住户收支调查微观数据包括2005年、2008年和2010年城乡住户收支调查微观数据各1万户,共6万户。微观数据均已进行匿名化处理,仅保留省份信息。城镇、农村包括家庭基本情况、户人均收入情况、户人均消费情况、家庭基本设施等方面共计指标分别为40和32个。其中,农村住户调查为自加权,无权数信息。

3、2010年第六次人口普查微观数据库为中国2010年人口普查原始个体样本数据。2010年人口普查采用了长、短两种普查表,短表包括反映人口基本状况的项目,长表包括所有短表项目和人口的经济活动、婚姻家庭、生育和住房等情况的项目。长表抽取了10%的户填报,短表由其余的户填报。本数据库是对普查表长表数据进行系统抽样获得,抽样比为0.995%,占总人口(不包含现役军人和难以确定常住地的人口)的比重为0.95‰。数据库包括户记录405660条,人记录1267381条。数据的主要结构指标对总体具有较好的代表性,能够满足大多数研究的需要。

数据库使用常住人口口径。数据指标涵盖性别、年龄、民族、户籍情况、受教育程度、行业、就业、迁移流动、社会保障、婚姻、生育、死亡、住房情况等59个相关指标。

为防止个人特征的泄漏,数据库已进行匿名化处理,删除了能够辨识到住户以至个人的信息,屏蔽了个别变量的极端值,请用户在使用时注意。

4、2015年1%人口抽样调查微观数据库为中国2015年1%人口抽样调查原始个体样本数据。2015年全国1%人口抽样调查以全国为总体,以各地级市(地区、盟、州)为子总体,采取分层、二阶段、概率比例、整群抽样方法,在全国31个省、自治区、直辖市中抽取了2977个县(市、区),33671个乡(镇、街道),85365个村(居)委会的89147个调查小区。共调查登记常住人口2131万人,占全国总人口的1.55%。

本数据库是对2015年1%人口抽样调查原始数据进行系统抽样获得,占总人口(不包含现役军人和难以确定常住地的人口)的比重为1‰。数据库包括户记录432447条,人记录1371252条。数据的主要结构指标对总体具有较好的代表性,能够满足大多数研究的需要。

为便于用户正确使用数据,数据库提供了权数变量(户权数和人权数)。经过加权处理后,各地区的数据已经按全国统一的抽样比换算,可以直接对比。

数据库使用常住人口口径。数据指标涵盖姓名、性别、年龄、民族、户籍情况、受教育程度、行业、就业、迁移流动、社会保障、婚姻、生育、死亡、住房情况等60个相关指标。

为防止个人特征的泄漏,数据库已进行匿名化处理,删除了能够辨识到住户以至个人的信息,屏蔽了个别变量的极端值,请用户在使用时注意。

5、第三次全国经济普查微观数据库是对第三次全国经济普查中的全部企业法人单位抽样取得,不包含金融和铁路系统单位,按照10%的比例进行抽样。数据分非工业企业、规模以下工业企业、规模以上工业企业三部分。

非工业企业的指标包括:行业大类代码、单位所在地行政区划代码、开业时间、从业人员期末人数、登记注册类型、企业控股情况、营业状态、营业收入、主营业务收入、资产总计、R&D人员合计、R&D人员折合全时当量、R&D经费内部支出、R&D项目数。经济类指标单位为千元。其中R&D人员合计、R&D人员折合全时当量、R&D经费内部支出、R&D项目数这四个指标只有纳入一套表调查单位的重点服务业企业才包含。抽样方法是按照单位所在地省级行政区划代码和行业大类代码分层,层内按主营业务收入排序后按照10%的比例等距抽样,层内企业个数小于5不参加抽样。对从业人员期末人数、营业收入、主营业务收入、资产总计四个指标设定了临界值,指标数值大于临界值时,均用临界值来代替。

规模以下工业企业指年主营业务收入在2000万元以下的工业法人企业。指标包括:行业大类代码、资产总计、实收资本、主营业务收入、从业人员期末人数等。经济类指标单位为元。

抽样和处理过程如下:按照行业大类代码分层,并按主营业务收入降序排列;层内企业个数小于等于5的不参加抽样,每层前3位企业不参加抽样;按照10%的比例等距抽样后,相邻的两个样本数值型指标相加,作为一个新样本。

规模以上工业企业指年主营业务收入达到2000万元及以上的工业法人企业。

6、第三次全国农业普查微观调查数据包括行政村普查数据和乡镇普查微观数据。

行政村普查数据样本是在全国约60万个行政村普查表数据记录中抽取的部分样本,包含约6万条村级单位数据。

本数据样本包含了行政村类型、地形地貌、全国特色景观旅游名村、基础设施配置等基本属性和基础设施的指标。数据涵盖了行政村基本情况、年末人口、社会保障、基本社会服务、土地经营及流转、农田水利、特色种养业、畜禽集中养殖小区、村集体经济组织财务、村干部情况等方面的指标。

为防止推断识别出具体行政村,数据已进行脱敏处理,删除了能够辨识到具体行政村的特征信息,用户在使用时需注意。

乡镇普查微观数据样本是在全国约4万个乡级单位普查表数据记录中抽取的部分样本,包含约4千条乡级单位数据。

本数据样本指标包含乡级类型、乡级属性、地形地貌等基本属性指标,还涵盖了乡级单位基本情况、交通设施、人口、经济、贸易市场、教育文化卫生、生活保障、公共事业等方面的指标。

为防止推断识别出具体乡级单位,数据已进行脱敏处理,删除了能够辨识到具体乡级单位的特征信息,用户在使用时需注意。

二、数据应用

在国家统计局和清华大学双方领导的关心和支持下,国家统计局—清华大学数据开发中心的微观数据开发应用于2018年6月26日正式启动。此后,数据中心提供微观数据开发应用服务进入试运行阶段。近半年来,数据开发中心在做好服务的同时,重在发现微观数据开发应用工作流程、管理制度、技术环境、数据的数量与质量等几方面存在的问题,以提出完善微观数据开发应用工作的建议。

到目前为止,已有如下19个单位办理了机构登记:

清华大学

北京大学

中国人民大学

北京航空航天大学

北京师范大学

中央财经大学

对外经济贸易大学

中国地质大学(北京)

南开大学

上海交通大学

华东师范大学

上海财经大学

浙江大学

苏州大学

云南大学

中国科学院地理科学与资源研究所

中国社会科学院工业经济研究所

中国社会科学院经济研究所

中国科学院数学与系统科学研究院

上述单位的研究人员已向数据开发中心报送了60多份《微观数据使用申请表》,包括清华大学、北京大学等单位的大部分数据使用申请已获国家统计局批准,申请人已在数据开发中心使用微观数据。数据开发中心正在办理其余的数据使用申请审核。

使用微观数据开展研究的内容分别为:中国城乡二元结构、从消费与人力资本的角度对我国未来经济增长与发展水平进行评估、人口结构如何影响居民消费储蓄及投资行为、土地政策对人口迁移和城市分布的影响、建立国际可比的人力资本数据集、对重大经济政策与环境政策的政策归宿进行分析、企业轻资产化与融资边界问题研究、扩大中等收入群体研究、上山下乡运动对改革开放以来城乡流动的长期影响研究等等。

三、微观数据开发应用流程

微观数据开发应用包括机构登记、微观数据使用申请、进入数据中心使用数据、微观数据变更申请、中间成果上传与带离、最终成果审核及最终成果登记等环节。

1、机构登记。试点阶段,纳入微观数据开放对象的政府部门、高等院校或科研机构必须以法人单位名义填写《微观数据开发应用机构登记表》,经国家统计局确认后,将其纳入国家统计局微观数据开发应用对象白名单。

2、数据申请。进入白名单的高校或科研机构,其研究人员可以填写《微观数据使用申请表》,申请使用微观数据。数据开发中心对研究人员提出的数据申请进行审核。通过数据申请审核的研究人员可以到数据开发中心使用微观数据。

3、数据使用。研究人员使用微观数据须签署《微观数据使用承诺书》,按照有关规定使用微观数据。

数据开发中心对研究人员的活动进行全程管理与记录。

4、变更申请。数据使用期间,研究人员如有数据延期使用、增加使用新数据、添加研究人员等需要,须填写《微观数据使用变更申请书》。

5、中间成果上传与带离。研究人员如需带离中间成果,须将中间成果形成规定格式的文档,向数据开发中心提出带离申请并将中间成果上传至指定的位置,经数据开发中心对中间成果登记确认后方可带离。

6、最终成果审核。研究人员使用国家统计局微观数据取得的所有成果均需符合审核、报备、发布的有关要求。形成最终成果后,研究人员须填写《微观数据最终成果审核表》。数据开发中心组织相关领域专家学者对最终成果进行初审,国家统计局组织协调相关单位对经数据开发中心进行初审后的最终成果进行审核。

7、最终成果登记。研究人员发布最终成果后,应当按照规定填写《微观数据最终成果登记表》,数据开发中心定期将相关原始材料报国家统计局备案。