简介:极端值亦称离群值或边远值,即在观测值中远远偏离数据主体部分的个别值,这些值不能服从假定的概率分布。如果将极端值和其它数据不加区别地等同对待,会使数据的离散程度加大,计算出的数字特征不能反映主体数据的特征。对极端值进行识别并加以处理,是探索性数据分析的一个重要问题。经过适当处理后的数据,具有较强的耐抗性,即对局部数据的不良行为具有不敏感性。在统计分析中,识别极端值的方法有以下几种:(一)四分展布法四分展布法是一种经验法,首先计算中位数和四分位数:设有数据X1,X2…Xn,将其从小到大排列,记为X(t),X(2)…X(n);当n为奇数时,n=2k+1,中位数=X(k),中位数位次为k+1;当n为偶
简介:使用CHNS(中国健康与营养调查)提供的工资横截面数据,通过Oaxaca-Blinder分解方法,在分位数回归的基础上,分别以总样本、东部样本和中西部样本,对1989—2006年、1989—1997年和1997—2006年三个时间段的工资差异的变动进行分解,研究发现:在大多数情况下,解释变量的结构效应小于解释变量的价格效应;在方向上,结构效应与工资差异变动的方向相反,而价格效应与工资差异变动方向相同;工资差异的变动无论是结构效应引起的还是价格效应引起的,都主要发生在工资分布的低端;作为重要解释变量的技能偏向型技术进步引起的工资差异变动,主要发生在工资分布的高端;在不同时间段和不同样本下,解释变量对工资差异变动的影响程度存在差异。