往期理论版阅读
更多
2019年9月下期
颜值与收入——劳动力市场相貌歧视问题研究/魏华颖 孙宏皓
来源:领导科学网,领导科学杂志社唯一网站
作者:魏华颖 孙宏皓
日期:2019-09-06 17:08:25
性问题进行详细阐述,仅简单地猜测情商、性格、社交意愿、价值观等难以观测变量有可能使回归方程的估计产生偏误。刘一鹏等学者将配偶的外貌作为工具变量对外貌的内生性问题进行了讨论[1],在一定程度上弥补了理论研究的空白,但是对于工具变量的选择存在一定的争议,个体的工资收入水平与配偶的外貌之间也可能存在着一定的相关性,会对估计的结果造成一定的偏误。
根据学者的猜测,情商、性格、社交意愿、个人价值观等难以观测变量可能会使回归方程的估计产生一定的偏误,但是对于同一样本来讲,这些个人特征的形成与确定需要相对较长的时间,且在这些个人特征确定后,难以随时间的推移而改变,故本研究考虑利用面板数据的优势,建立固定效应模型,采用对同一样本不同时点的观测值做差的方式,来消除不随时间变化且难以观测变量对研究的干扰。
四、数据和变量描述
(一)数据简介
本研究所采用的数据是来自中国劳动力动态调查(CLDS)2014年、2016年的追踪访问数据。中国劳动力动态调查(CLDS)是由中山大学社会科学调查中心负责开展的大型劳动力动态调查项目,旨在通过对城乡以社区为追踪范围的家庭每两年的追踪调查,系统地监测村/居社区的社会结构和劳动力及其家庭的变化与相互影响,收集和建立中国社会劳动力、家庭和社区三个层次变动趋势的追踪资料数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。中国劳动力动态调查(CLDS)于2011年3月11日正式启动,2012年完成了含有16253个劳动力样本的基线调查,并分别于2014年、2016年完成了含有16244个、21086个劳动力样本的追踪调查。
为了满足本研究所采用的基于面板数据固定效应模型的需要,须对各期数据中的劳动力样本进行匹配,在理想状态下应使用2012年、2014年、2016年三期数据,但同时参与三期调查的样本数量相对较少,故考虑采用调研时间相对较晚的2014年、2016年两期数据来构建面板数据固定效应模型。在完成两期数据劳动力样本的匹配后,对在我们所关注的变量中有残缺值的劳动力样本进行剔除,最终本研究共保留了2189个劳动力样本。
(二)变量描述
工资收入:采用劳动力样本过去一年(2014年CLDS数据为2013年、2016年CLDS数据为2015年)工资性收入除以过去一年实际工作月数的方式得到被访者的月平均工资收入,对月平均工资收入取对数值得到本研究回归方程中的被解释变量工资收入。
外貌:在CLDS数据中,对劳动力样本的外貌评价是由访问员打分产生的,打分采用10点量表的方式。根据学者之前的研究成果,将外貌评分在前30%(得分为8—10)的劳动力样本定义为外貌较好,将外貌评分在后30%(得分为1—3)的劳动力样本定义为外貌较差,将剩余样本(得分为4—7)定义为外貌中等。以外貌较差作为参照,设定外貌中等及外貌较好两个虚拟变量。
控制变量:根据学者的研究成果,本研究在回归方程中加入样本的性别、样本的年龄、样本年龄的平方项(用于描述年龄与工资收入之间的非线性关系)、样本的学历水平、样本的户口类型、样本的婚姻状况及其主要生活工作区域等作为控制变量。其中,将性别设定为虚拟变量,男性为1、女性为0;样本的年龄由访问年与出生年的差值计算得到,由于本研究所选被解释变量为工资收入,故在 |