人工智能利用“自我学习”降低天富平台优势癌症治疗的毒性

时间：2020-11-23 15:42 作者：http://zdtnx.com.cn/ 分享到：

机器学习系统确定了能够缩小脑瘤的最小最小剂量。

麻省理工学院的研究人员正在使用新的机器学习技术，通过减少恶性胶质瘤(最具侵袭性的脑癌)的毒性化疗和放疗剂量，来提高患者的生活质量。

胶质母细胞瘤是一种出现在大脑或脊髓的恶性肿瘤，成人的预后不超过5年。患者必须忍受放疗和每月服用多种药物的联合治疗。医学专业人员通常使用最大安全剂量的药物来尽可能缩小肿瘤。但这些药性强的药物仍然会对病人产生使人虚弱的副作用。天富平台优势

在下周于斯坦福大学举行的2018年机器学习医疗保健大会上，麻省理工学院媒体实验室的研究人员在一篇论文中详述了一个模型，该模型可以使剂量疗法的毒性更低，但仍然有效。在“自我学习”机器学习技术的推动下，该模型着眼于目前使用的治疗方案，并反复调整剂量。最终，它找到了一种最佳的治疗方案，以尽可能低的效力和频率的剂量将肿瘤缩小到与传统治疗方案相当的程度。

在对50名患者进行的模拟试验中，机器学习模型设计了治疗周期，将药效降至几乎所有剂量的四分之一或一半，同时保持相同的肿瘤缩小潜力。很多时候，它完全跳过剂量，只安排一年两次而不是一个月。

“我们一直的目标,我们必须帮助病人减少肿瘤的大小,但同时,我们要确保生活质量——剂量毒性不会导致压倒性的疾病和有害的副作用,”Pratik Shah说,一位首席研究员在实验室监督这项研究。

该论文的第一作者是媒体实验室研究员Gregory Yauney。

奖励好的选择

研究人员的模型使用了一种被称为强化学习(RL)的技术，这是一种受到行为心理学启发的方法，在这种方法中，模型学习支持特定的行为，从而导致预期的结果。天富平台优势

该技术由人工智能“代理”组成，它们在不可预知的复杂环境中完成“动作”，以达到预期的“结果”。无论何时完成一个动作，agent都会收到“奖励”或“惩罚”，这取决于该动作是否朝着结果运行。然后，agent相应地调整其行为以达到那个结果。

奖励和惩罚基本上是正数和负数，比如+1或-1。它们的价值因所采取的行动而异，计算依据的是结果成功或失败的概率以及其他因素。从本质上讲，agent试图基于奖励和惩罚值对所有行为进行数值优化，以获得给定任务的最大结果分数。

这种方法被用于训练计算机程序DeepMind。2016年，该程序因在围棋比赛中击败了世界上最优秀的人类棋手之一而登上了新闻头条。“它还被用于训练无人驾驶汽车的驾驶技巧，比如驶入车流或停车，在那里车辆会不断练习，调整路线，直到正确为止。”

研究人员采用RL模型来治疗胶质母细胞瘤，使用药物替莫唑胺(TMZ)、丙嗪、洛莫司汀(lomustine)和长春新碱(PVC)的联合治疗，持续数周或数月。

该模型的代理人梳理了传统的管理方案。这些方案是基于已经在临床上使用了几十年的协议，并基于动物试验和各种临床试验。肿瘤学家使用这些已建立的协议，根据体重来预测给病人多少剂量。

当模型探索这个方案时，在每个计划的给药间隔——比如一个月一次——它会决定几个行动中的一个。首先，它可以开始或停止一剂。如果它确实给药，然后决定是否需要全部剂量，还是只需要一部分。在每一个动作中，它会触发另一个临床模型——通常用于预测治疗后肿瘤大小的变化——来看看这个动作是否缩小了肿瘤的平均直径。如果是这样，模型就会得到奖励。

然而，研究人员还必须确保模型不只是给出最大剂量和效力。因此，每当模型选择给药全剂量时，它就会受到惩罚，所以它会选择更少、更小的剂量。沙阿说:“如果我们想做的只是缩小肿瘤的平均直径，让它为所欲为，那么它就会不负责任地给药。”“相反，我们说，‘我们需要减少它采取的有害行动，以达到那个结果。’”