简介:目的建立一种预处理方法,在进行医疗费用数据挖掘时,将因变量(呈偏态分布的连续性变量)转换为分类变量,从而得到更加科学合理的研究结果。方法以广东省甲型病毒性肝炎医疗费用调查取得的115例患者为研究对象,分别采用中位数的分类方法和K-means聚类的方法作为预处理方法,对医疗费用这一呈偏态分布的因变量进行分类,然后建立支持向量机数学模型,采用支持向量机进行医疗费用影响因素分析;通过比较模型的预测精度、模型收益以及影响因素的筛选结果,确定最优的预处理方法。结果115例甲肝病人甲肝总住院费用中位数为2744.69元,呈偏态分布。应变量以中位数方法分类,采用支持向量机模型筛选影响因素结果显示,对医疗费用影响最大的有7个变量(前3位为医院等级、性别、疾病类型);采用聚类分析进行数据预处理时筛选影响因素结果显示,对医疗费用影响最大的有7个变量(前3位为医院等级、住院天数、支付方式)。与中位数方法的分类方法比较,采用聚类分析进行数据预处理时,支持向量机模型结果得到的预测精度由91.30%上升到97.39%;收益图表陡峭地升高到100.00%然后渐渐变得平缓,显示模型收益更好;影响因素筛选结果更加科学合理,符合实际情况。结论聚类分析是一种优秀的数据挖掘预处理方法,具有良好的应用性。
简介:目的探讨住院患者人院时不同血糖水平与住院时间、医疗费用及疾病预后的关系。方法选取2009年11月至2011年7月期间人院的4868例患者,按入院24h内测得的血糖水平分为非高血糖组3429例、高血糖组1439例,后者包括糖尿病和应激性高血糖患者;根据患者年龄分为非老年组(年龄〈60岁)2532例和老年组(年龄≥60岁)2336例;其中278例冠心病患者再分为高血糖组120例和非高血糖组158例。各组间进行有关数据比较。结果高血糖组患者的住院天数、医疗费用和总病死率均显著高于非高血糖组(中位数住院日:15vs10d,P〈0.01;中位数医疗费用:14064.7vs8980.9元,P〈0.01;死亡率:2.92%vs0.61%,P〈0.01)。按年龄分组后,无论是非老年组还是老年组中糖尿病和应激性高血糖患者的医疗费用均明显高于非高血糖患者,住院日明显延长;应激性高血糖患者的医疗费用明显高于糖尿病患者;非老年组中应激性高血糖患者的死亡率明显高于非高血糖患者,但与糖尿病患者相比无明显差异,老年组糖尿病和应激性高血糖患者的死亡率无明显差异,但均明显高于非高血糖患者。冠心病患者中糖尿病和应激性高血糖患者与非高血糖患者的年龄无明显差异,前两组的医疗费用明显高于非高血糖组,住院日更长(分别为14,15和12d)、死亡率更高(分别为6.41%,7.14%和0.63%)。结论入院时高血糖水平预示患者有更高的医疗花费、更长的住院时间和更高的死亡率。