背景:在数字经济蓬勃发展的今天,健康医疗领域正经历着深刻的变革。伴随大数据、人工智能、物联网等新兴技术的广泛应用,医疗健康行业迎来了前所未有的发展机遇。大模型作为人工智能的重要组成部分,在人工智能领域中占据着关键地位,代表了当前人工智能技术发展的一个重要方向。
近年来,医疗资源的供需矛盾日益凸显,人们对于高效、精准医疗服务的需求不断增长。同时,医疗数据的爆炸式增长也为医疗大模型的发展提供了肥沃的土壤。在这样的背景下,医疗大模型应运而生,它利用先进的算法和大量的医疗数据,为医生提供更准确的诊断建议和治疗方案,为患者带来更好的医疗体验。而其中,混合专家系统在医疗大模型中展现出了独特的优势。它结合了多种不同类型的专家知识和技术,能够更加全面地分析医疗数据,提高诊断的准确性和可靠性。混合专家系统可以整合医学专家的经验知识、先进的数据分析技术以及人工智能算法,实现优势互补,为医疗决策提供更强大的支持。
一、AT-MoE技术架构
公司联袂百位院士专家,依托自主研发的医学垂类大模型“长城健康”,创新应用AT-MoE(Adaptive Task-planning Mixture of Experts,AT-MoE)自适应任务规划混合专家架构技术,自主研发了上百项院士专家模型,通过APP全面应用于基层医生的实践教育、居民健康管理等场景。
在不断发展的人工智能领域,大型语言模型 (LLM) 已经成为一股强大的力量。它们在各种任务中都取得了显著的进步,在多个行业和领域中具有革命性的潜力,通过自动化复杂任务并提供智能见解来实现。尽管取得了巨大的成功,现有的 LLM 在特定领域仍面临重大挑战。在预训练阶段,LLMs通常缺乏专门的领域知识,尤其是在医疗领域。在预训练期间有限的医学领域语料库限制了它们处理与诊断、治疗和医学研究相关任务的能力。在医疗领域,数据的复杂性和多样性构成了诊断和治疗的巨大挑战。大量的医疗信息,包括病历、科研论文和临床指南,需要复杂的模型来准确分析和解释这些数据。传统的方法往往无法应对医疗数据的复杂性和变异性。混合专家(MoE)架构为解决这些挑战提供了一个有希望的解决方案。通过整合多个模型的专业知识,MoE 架构比单个模型更有效地处理复杂的任务。目前,在大型模型领域主流的 MoE 架构专注于在模型级别引入基于门控机制的稀疏激活 MoE 层,并替换 Transformer 层中的前馈组件。然而,在医疗等复杂场景中,特别是那些需要专业知识和可解释性的领域,现有的MoE架构仍然难以实现高质量的融合学习效果。在典型的基于MoE架构的Mixtral 8x7B模型技术报告中可以发现,所有领域的分配分布非常相似,这表明在该MoE架构中尚未明确学习到特定领域的专家模式。
为了克服以上问题,大专家.COM提出了一种自适应任务计划混合专家(AT-MoE)的架构。这种架构旨在利用多个领域中的专业知识,并确保模型的可信度、可控性和可解释性。首先,我们使用参数高效的微调技术(如LoRA),训练了若干任务专用的专家,使我们的子模型能够在专门领域具有更好的问题解决能力和可解释性。随后,我们训练了一个创新的层内自适应分组路由模块,允许根据复杂的任务指令进行更有效的模块融合,从而提供最佳的任务解决方案。具体地,我们提出了一种AT-MoE架构,以解决传统MoE方法在处理复杂任务时的局限性,特别是对于单个指令包含多个意图的情景。AT-MoE架构的核心在于其动态权重分配机制。这种多模块融合方法增强了系统应对复杂和多样挑战的能力。传统的MoE缺乏任务级别的专门训练,因此在整个模型架构中没有特定于任务的专家。知识的混合和冗余阻碍了专家的专业化程度。相比之下,AT-MoE最初对各种任务场景进行了专家网络的训练。每个专家模型都有一个明确的任务领域属性。为了保证模型训练和推理的效率,我们采用了LoRA的微调方法来高效地训练每个专家子模型。对于复杂的任务场景,AT-MoE采用一种创新的自适应分组路由方案。对于每一层我们训练不同的分组融合模块。对于专家模型,在根据不同的任务类型分配权重后,应首先对每个组内的权重进行分配。需要注意的是,每个组内权重的分配也遵循一定的规范化分布。以医疗场景为例,分组可以分为三大类:1)第一类专家主要关注功能性问题,如病例生成、处方药、分诊和指导;2)第二类专家主要围绕基于领域知识的问题。该组中的每个专家代表特定领域的专业技能,例如外科手术、放射学和病理学;3)第三类专家主要负责风格类型。例如,一些专家仅提供明确结论,而其他专家则提供参考意见。通过以上自适应分组路由策略,可以合理分配任务场景下的专家权重并从而提供最佳综合答案。此外,AT-MoE使用所有任务的合并训练数据集来训练一个预合并的LoRA表示通用专家。通过动态地将通用专家和任务分组融合专家的权重进行融合,使得模型具有更强的泛化能力。在推理阶段,还可以根据任务的需要,人工地对不同的LoRA模块进行MASK,模型会自动地根据当前的MASK状态进行实时地动态权重重新分配,从而进一步提升模型的可控性。
“院士专家大模型”通过应用AT-MoE技术,破解了普通医疗大模型在应对复杂医疗问题时所产生的“幻觉”问题,大幅提高回答的前后一致性及准确度,化解了普通MoE混合专家系统在优化算法和可解释性上难以兼顾的困局,通过智能调度机制,实现不同领域专家模型间的动态协作,让不同的院士专家解决不同患者的不同问题,最后组合给出精准的解决方案,确保了模型在处理各种复杂医疗问题时的高效性和准确性,从而实现了“精准医疗”。
未来,大专家.COM将围绕可信智能技术,强化运用自主创新的AT-MoE技术,持续推进“大模型+医疗健康”深度融合,全面赋能医疗健康行业数字化发展,推进智慧医疗建设,更好服务于医、服务于民,提升患者的就医体验和人民群众健康管理水平,助力提升人民群众获得感、幸福感、安全感。
未经数字化报网授权,严禁转载或镜像,违者必究。
特别提醒:如内容、图片、视频出现侵权问题,请发送邮箱:tousu_ts@sina.com。
风险提示:数字化报网呈现的所有信息仅作为学习分享,不构成投资建议,一切投资操作信息不能作为投资依据。本网站所报道的文章资料、图片、数据等信息来源于互联网,仅供参考使用,相关侵权责任由信息来源第三方承担。
Copyright © 2013-2023 数字化报(数字化报商业报告)
数字化报并非新闻媒体,不提供新闻信息服务,提供商业信息服务
浙ICP备2023000407号数字化报网(杭州)信息科技有限公司 版权所有浙公网安备 33012702000464号