今日,阿里ATH-TokenFoundry与中国人民大学高瓴人工智能学院联合宣布,开源了首个基于统一“科学语法”的多领域科学生成基础模型LOGOS。该模型在六大科学任务上展现了卓越的性能,特别是在参数效率方面,LOGOS-1B仅用1/56的参数量就超越了微软NatureLM。LOGOS构建了一个包含7类模态、总计44.87B tokens的庞大预训练语料库,覆盖生物大分子、化学实体、材料等多个领域。
LOGOS通过设计一套共享词表,将蛋白质、小分子、材料等异构对象编码成统一的离散Token序列,实现了在同一个生成空间中的理解和生成。此外,LOGOS创新性地采用了“文字描述法”,将3D空间接触模式语法化为离散Token,无需3D坐标即可构建出复杂的3D空间互作规律。这种科学语法设计有效消除了预训练与下游应用之间的gap,无需复杂的适配层或大量微调即可激活生成能力。
LOGOS已完整开源了模型权重、推理代码与技术报告,可通过HuggingFace和GitHub访问。这一开源行动将促进科学研究的进一步发展,为多领域科学任务提供强有力的支持。


