近日,麻省理工学院与Empirical Health研究人员合作,利用300万“人-天”的Apple Watch数据开发出一种基础模型JETS,能够以高度准确性预测多种健康状况。这项研究将“联合嵌入预测架构”(JEPA)适配于不规则的多变量时间序列数据,如可穿戴设备的长期健康数据,其中心率、睡眠、活动量等指标在时间上呈现不连续性或存在大量缺失。
研究团队使用的纵向数据集包含16,522名参与者的可穿戴设备记录,每位参与者每日记录了63项不同的时间序列指标,涵盖心血管健康、呼吸健康、睡眠、身体活动及一般统计信息。JETS模型首先在整个数据集上通过自监督预训练进行学习,随后仅在有标签的子集上进行微调。研究人员将每条观测数据构造成“三元组”(日期、数值、指标类型),将每个观测值转化为一个“token”,这些token经过掩码处理、编码,并输入预测器,用以预测被掩码片段的嵌入表示。
JETS在多项疾病预测中表现优异,如高血压预测AUROC达86.8%,房扑为70.5%,慢性疲劳综合征为81%,病态窦房结综合征亦达86.8%。该研究展示了从通常被视为“不完整”或“不规则”的健康数据中提取最大价值的潜力,即使在某些指标仅在0.4%的时间内被记录的情况下依然有效。
