摘要 根据美国艾滋病医疗试验机构ACTG公布的两组数据,可知不同时期内服用相同药物和不同药物时CD4和HIV数量的变化情况,然后建立统计回归类模型对艾滋病人的治疗方案进行分析。 本文的模型主要解决了药物对HIV和CD4的影响情况,以及药物的疗效问题,得出病人的最佳治疗方案。 问题一中,根据数据对不同病人在同一时间测试的HIV和CD4取平均值,确定拟合点,运用MATLAB软件进行多项式拟合,画出拟合图形,求出拟合多项式。根据拟合多项式预测继续治疗效果,以及服用该药无效时,病人最佳治疗终止时间段为35——39周。 问题二中,根据治疗方法,把数据分成四种类型,每种类型病人的CD4含量的变化情况可以通过与问题一相同的解法得到拟合图和解析式,通过图形的分析可以评价4种疗法的优劣(仅以CD4为标准),得到最佳治疗方案,根据拟合多项式预测继续治疗效果,以及服用该药无效时,病人最佳治疗终止时间段为33——38周。 问题三中,根据问题二中所得到的数据结合价格,运用MATLAB软件进行多项式拟合,画出拟合图形,求出拟合多项式然后通过图形比较得出最佳的是第四种治疗,其最佳终止时间段为33——38周。 该模型简单易懂,适用于大多数领域。 关键词:拟合,艾滋病,均值,求导
一、问题的重述 (1)研究附件1的数据,预测继续治疗的效果,或者确定最佳治疗终止时间(继续治疗指在测试终止后继续服药,如果认为继续服药效果不好,则可选择提前终止治疗)。 (2)研究附件2的数据,评价4种疗法的优劣(仅以CD4为标准),并对较优的疗法预测继续治疗的效果,或者确定最佳治疗终止时间。 (3) 对不同价格的药物进行分类:600mg zidovudine 1.60美元,400mg didanosine 0.85美元,2.25 mg zalcitabine 1.85美元,400 mg nevirapine 1.20美元。考虑到病人对药物的承担能力,预测对(2)中的评价和预测(或者提前终止)有什么改变。
二、问题的分析 1 我们经过对条件中治疗艾滋病的目的进行研究可以发现,服用药物后HIV和CD4变化在四种情况下是可以认为对其病情是有效的且效果从大到小排列: (1)CD4增加而且HIV在减少的情况, (2)HIV在减少的情况 (3)CD4在增加的情况 (4)CD4在减少,而其浓度减少的速度在减少的情况。 通过以上的情况,我们可以用拟合HIV和CD4所成的两个公式进行求导取值来分析,最后来预测第一、二、三问中的最佳治疗终止时间段。 2 我们对第三问中给出的条件研究得到,可以用药物的单周治疗效果来判断比较其病人的需求。 三、模型假设 假设药物之间不会构成相互影响,不会因为药物重合而改变了单独存在的疗效。 假设所测的数据符合统计规律。 假设药物对HIV和CD4影响随着它们数量变化而变化,从而认为药物对HIV和CD4的非线性关系。 假设当服用药物时,上一次服用的药性已经不会影响其效果,从而可以比较不同药物的规定时间内的效果。 假设病人年龄和药物对CD4的效果没有关系,我们统一看成同种病人只不过所试验的药物有所不同。 四、变量说明和名词的解释 A(i,j)——表示的是在第i周进行CD4和HIV检测时在此项作过检测的第j个病人的CD4; A(i,r)——表示的是在第i周进行CD4和HIV检测时在此项作过检测的第r个病人的HIV; —表示的是在第i周进行CD4和HIV检测时在此项作过检测的第j个病人的CD4的平均值; ——表示的是在第i周进行CD4和HIV检测时在此项作过检测的第r个病人的HIV的平均值; C(t)—表示CD4随时间变化的函数; G(t)-- 表示HIV随时间变化的函数; R(t)--- 表示CD4随时间变化的函数; t---表示的是测量CD4和HIV浓度时的时间; Ki---表示的在不同药物治疗中单周消耗的费用。 F(i)---表示的在不同药物治疗中的总费用
五、模型建立和求解 五.1 对第一问的研究 首先通过对附件1的作初步分析,我们知道在附件1中存在一些错误,有的数据不全,有缺失的情况;还有些数据不对,比如在日期中存在负数。对于缺失数据的情况和有负数的我们几把它们舍掉。 其次把每一检测时刻的数据进行归类,并通过下列公式计算其平均值: =;=; (1) 根据用EXCEL对数据的处理后,我们发现有些时间仅有极少人去检查,故其准确度不大,所以把这些点舍弃而取j>10的所有数据进行做散点图,出现下列图象: 图(1)CD4的变化情况 图(2)HIV的变化情况 我们根据散点图初步分析到两者的变化情况,不能预测两者处于何时它们的HIV和CD4的量达到停药的指标。因此,我们再利用MATLAB软件分别求出CD4与HIV与时间拟合的多项式子: C(t)= 0.0019*t.^5-0.0863*t.^4+1.8742*t.^3-18.9557*t.^2+78.6092*t+34.748;(2) G(t)= 0.0001*t.^4-0.0053*t.^3+ 0.0962*t.^2 -0.7503*t + 5.2023 (3) 分别求其一阶和二阶并求值对其分析比较求得最佳终止治疗的时间段;从艾滋病治疗的目的,尽量减少人体内HIV的数量,同时产生更多的CD4,至少要有效地降低CD4减少的速度,我们可以知道最佳时间段应该可以分两种情况,一种是药对病人完全没有作用,也就是说要对病人CD4和HIV都没有影响;另一种是病人的CD4已经达到正常人的数目(正常成人的CD4细胞在每立方毫米500个到1600个); 要求最佳的时间段我们可以根据,;,的变化情况结合问题分析中我们所得四种情况,运用Matlab 软件编程(见附表),我们可以求解,;,的解析式: =19/2000*t^4-863/2500*t^3+28113/5000*t^2-2667777608017091/70368744177664*t+5531630684810825/70368744177664; (4) 表示CD4随时间的变化率也可以认为是CD4的速度; =19/500*t^3-2589/2500*t^2+28113/2500*t-2667777608017091/70368744177664; (5) 表示CD4的速度变化率,即C(t)的加速度; =1/2500*t^3-159/10000*t^2+481/2500*t-7503/10000; (6) 表示CD4随时间的变化率也可以认为是CD4的速度; =3/2500*t^2-159/5000*t+481/2500; (7) 表示CD4的速度变化率,即C(t)的加速度; 结果分析 a.>0且>0可以满足药物使病人的CD4有所增加;当<0且<0时,我们可以知道HIV的数量在减少,至少可以知道其增长的速度在减少。这应该是药效最好的。 b. <0且<0, <0且<0这种组合满足第二种药效关系,即HIV在减少; c. >0且>0, >0且>0这种组合满足第三种药效关系,即CD4在增加; d. >0且>0, <0,但是>0即HIV在增加,CD4在减少,但是CD4减少的程度在降低,也就是逐渐控制了CD4的减少,因此,这种方案也是正确的,只是药效比较低; 我们知道要得到最佳终止治疗时段,就必须找到CD4浓度最大的时段,尽可能的大 我们通过对以上四种方案的评比,并通过代人具体的时间t进行求解我们选择>0且>0和<0且<0的情况,当>0和>0都取得较大值并且<0和<0取得很小的值。这种情况下的时间我们就认为是最佳时段。根据分析可以知道在33周—39周这个时间段终止用药是最佳时段。 五.2 对第二问研究 数据分析 通过对附件2的初步分析,我们知道附件2主要是把三种药物分成四种组合进行临床试验,且是每隔8周进行一次检测,数据基本符合实际情况。没有发现有特别异常的数据,我们就认为这个表的数据是正确的。但是有的病人只进行一次检测,我们认为那种情况偶然性很大,我们在觉得在处理时就不考虑这些数据。 数据整理 我们对附件2,根据服用药物的不同组合把所有病人分成四类,即根据药物的分组分类,由假设可以知道,我们不考虑病人的年龄对药性发挥的影响;我们把根据服药不同已经分成的四类情况,并在每一类情况中将他们在不同时期所测的LOG(CD4 COUNT+1)值取平均,并根据所得数据与时间作一图形,观测图形具体情况。 (3)问题求解 再根据所得LOG(CD4 COUNT+1)的值与时间分别拟合成四条曲线相互比较(用Matlab编写程序求到下列曲线,程序见附表二),如图:
图(3)LOG(CD4 COUNT+1)的变化情况 *:表示第一种疗法中LOG(CD4 COUNT+1)的变化情况 +:表示第二种疗法中LOG(CD4 COUNT+1)的变化情况 o:表示第三种疗法中LOG(CD4 COUNT+1)的变化情况 ^:表示第四种疗法中LOG(CD4 COUNT+1)的变化情况 从上图分析知道,第四种药物组合方式最优,因此,我们根据附表2(4)来求解第四种组合的拟合解析式得: R(t)=0.0002*t.^4-0.0036*t.^3+0.0272*t.^2-0.0219*t+2.8559; (8) 由第一题所建立的模型可知,我们可以用同样的模型求解,根据附表2(4)运用Matlab 软件我们可以得到R(t)的一阶导数和二阶导数如下: =1/1250*t^3-27/2500*t^2+34/625*t-219/10000; (9) 表示LOG(CD4 COUNT+1)随时间的变化率也可以认为是LOG(CD4 COUNT+1)的速度;
=3/1250*t^2-27/1250*t+34/625; (10) 表示LOG(CD4 COUNT+1)的速度变化率,即LOG(CD4 COUNT+1)的加速度; 我们要得到最佳停止用药时间,就得考虑,变化情况,我们希望它们都为正数,且越大越好,这样我们就可以知道CD4的浓度变化,运用与问题一相同的解法,我们得到在33周—38周这个时间段终止用药是最佳时段。 (4)结果分析 根据图形显示我们知道四组不同的药物组合对病人的影响是不同的,我们根据艾滋病治疗的目的,尽量减少人体内HIV的数量,同时产生更多的LOG(CD4 COUNT+1),至少要有效地降低LOG(CD4 COUNT+1)减少的速度,分别对四种不同组合作比较,由于我们用的是LOG(CD4 COUNT+1)作为治疗好坏的评价标准,所以我们在评价好坏时就看LOG(CD4 COUNT+1)随时间的变化,以及LOG(CD4 COUNT+1)是否处在一个相对稳定的状态;从图(3)我们很容易知道最佳疗法的是第四种疗法,因为它的LOG(CD4 COUNT+1)始终保持在一个相对平稳且值也保持在一个很高的状态;其次为第三种疗法,它的值也保持在一个相当高的水平,但是它的平稳度不如方案四;再次是第二种疗法;最差的是第一种疗法;根据分析可以知道在33周—38周这个时间段终止用药是最佳时段。 5.3 第三问的研究 经过了解到问题二中四组不同药物对病人的影响效果情况,我们现在考虑病人对药物的承担能力,由于两者因数的影响我们用二问中的结果和价格建立线性 关系式,并拟合图形如下: o:表示第一种疗法中CD4的变化情况 +:表示第二种疗法中CD4的变化情况 ^:表示第三种疗法中CD4的变化情况 *:表示第四种疗法中CD4的变化情况
其解答式子如下:K1=(1.65+0,85)*7/2=8.75 K2=(1.60+1.85)*7=24.15 K3=(1.60+0.85)*7=17.15 K4=(1.60+0.85+1.20)*7=25.55 C1(Y)=0.0001*F(1)/8.75.^4-0.0024*F(1)/8.75.^3+0.0324*F(1)/8.75.^2-0.1752*F(1)/8.75+2.8728 (11) C2(Y)=-0.0002*F(2)/24.15.^4+0.0047*F(2)/.24.15^3-0.0531*F(2)/24.15x..^2+0.2450*F(2)/24.15+ 2.7792 (12) C3(Y)=0.0004*F(3)/17.15..^4-0.0089*F(3)/17.15.^3+0.0863*F(3)/17.15.^2-0.3120*F(3)/17.15 + 2.9537 (13) C4(Y)=0.0002*F(4)/25.55.^4-0.0036*F(4)/25.55.^3+0.0272*F(4)/25.55.^2-0.0219*F(4)/25.55+ 2.8559 (14) 从上图我们可以得知, 四种药物与价格之间的关系波动比较大,但根据其疗效和药物价格综合考虑得出第四种治疗方案为最佳治疗方法,其最佳终止治疗的时间段为33-38周,其他三种治疗方案中按从优到次排列,第三种,第二种,第一种。 六、结果的表示与分析
结果:(1)第一个问我们得出结果为35-39周为最佳的终止治疗的时间段。 (2)第二个问我们得出第四种最优,经过计算得出结果为33-38周为最佳的终止治疗的时间段。 (3)第三个问我们得到结果为第四种疗效最好,且其最佳的终止治疗时间段为33-38周。 改进:(1)本文对所有数据只采用了平均化显得太简单化了而且误差比较大,若采用治疗前、后的原始数据进行分析,其效果会更加理想; (2)该问题中观测指标是对于HIV和CD4的变化情况,两者通常不服从正态分布,进行统计处理之前,最好先对两者的量值作平方根反正弦变换,然后对其进行前提条件检验;若经过变换后的定量资料满足参数检验的前提条件,应选用系统分组设计定量资料的方差分析处理为宜; (3)本文章第二小问建立的模型忽略了年龄的对CD4的影响,而在临床试验中发现,即使用的是同一种药物,不同“年龄”患者身上,表现出来的疗效相差也比较大,就说明 “年龄”对药物疗效的合理评价有一定的影响作用,统计学认为, “年龄”是可忽视的重要非实验因素,简称为区组因素,所以我们应该考虑患者的年龄情况以及病人自己的身体状况进行建模; (4)处理此定量资料的正确的统计分析方法,首先要正确判定与该定量资料对应的实验设计类型,然后,检验其是否满足参数检验的前提条件; (5)本文采用了统计回归模型精确度不够高,因为CD4应该是连续变化,因此,提倡用微分方程来建立模型更加有说服力; 七、模型的评价
优点: 利用了统计回归模型;本模型着眼于更贴近实际地解决问题,兼顾求解的复杂度,将其最优化; 可拓展性强,可以利用于医学里其它病种的研究,其模型可以推广到其它领域内; 缺点: 1.处理数据由于数据比较庞大,分类时可能不够精确,但处理这种情况的数据是难免的;