实时

您的位置:首页>资讯 >

医疗GPT来了 如何破解语料稀缺瓶颈?

在医疗领域,大型语言模型(LLM)具有广阔的应用潜力。然而,目前类似ChatGPT这样的语言模型在回答患者描述症状时,仍然缺乏精确的专业解读,与医生差距较大。其中很大一部分原因在于训练大模型的数据仍有局限性。

针对这一痛点,香港中文大学(深圳)和深圳市大数据研究院王本友教授团队利用指令微调和强化学习的方法,在ChatGPT和医生的回复中找到结合点,训练并开源了一个新的医疗大模型 华佗GPT(HuatuoGPT)。通过从ChatGPT中提取的“蒸馏数据”,并结合真实世界医生回复的数据,从而试图训练出具备像医生一样诊断能力的大型语言模型。


(资料图片仅供参考)

只提取大模型中的特定数据,这在专业上被称为“数据蒸馏”。“这种方法既保留真实医疗数据的专业性和准确性,又借助ChatGPT的多样性和内容丰富性的特点,结合两者的混合反馈进行优化,可以与用户保持流畅的交互。”研究团队表示。

另据介绍,在多轮问诊场景中,团队成员收集了涵盖20个科室的100个多轮对话进行评估。结果显示,华佗GPT在处理更加复杂的多轮问诊场景中的表现优异,在某些性能方面甚至超过GPT3.5。

第一财经记者尝试使用华佗GPT,在问诊中输入:糖尿病的症状有哪些?华佗GPT的回答比较全面;记者又反过来输入糖尿病的某些症状,问是什么疾病?但华佗GPT的回答较为宽泛,答:可能是由多种原因造成的。

“这至少能说明,这个大模型已经拥有了部分疾病谱的语料,例如糖尿病。”一位专注于医疗大模型开发的研究人员对第一财经记者分析称。

他同时指出,医疗领域的数据相对来说较为稀缺,主要由医院掌握,技术公司要获得医疗数据“门槛很高”。“如果把大模型看作是人,语料就是面包,数据就是面粉。”他说道,“语料越丰富,模型也就越强大。”

针对医疗语料缺乏的问题,业内已经开始寻求解决方案。近日,在天桥脑科学研究院(TCCI)主办的一场“面向AI模型的数据生成方法及其对医疗领域的启示”论坛上,研究人员探讨了被称为“自对话”和“自蒸馏”的训练,可以快速构建专属的大模型。

美国加州大学圣迭戈分校博士生许灿文和中山大学团队的合作者提出一种能自动生成高质量多轮聊天语料库的流程,他们利用ChatGPT与其自身进行对话,生成对话数据,再基于产生的对话数据调优,增强开源的大型语言模型LLaMA,获得了高质量的医疗专属模型“白泽”。

许灿文向第一财经记者介绍道,“白泽”在这个过程中并没有学会新的知识,只提取了大模型中的特定数据,并且保留了ChatGPT分点作答的语言能力。通过自动化的“数据蒸馏”,在特定领域能够达到ChatGPT的能力,但成本却远远低于ChatGPT,兼具经济意义和实用意义。尤其是在医疗领域,本地化或私有化建构的模型有助于消除隐私顾虑,辅助患者诊疗。

美国莱斯大学博士生唐瑞祥与合作者提出另一种新策略,即利用大型模型生成大量医疗数据,再通过小型模型对这些数据进行训练。实验结果显示,相较于直接利用大型模型执行下游任务,这一新策略能够取得更出色的效果。同时由于模型数据在本地,这也大幅降低了潜在的隐私风险。

展望未来,业内普遍认为,医疗大模型一方面是要具备广泛的适应性和泛化能力;另一方面是需要从特定任务出发,进一步精细化地处理。

上海交大博士生曹瑞升在TCCI论坛上表示:“在医疗领域,大模型应该能够做到可以针对特定类型的疾病,例如抑郁症进行专业化的任务处理,并提供更加精准和个性化的解决方案。而最终,数据生成和模型训练的过程将从分离走向融合。”

关键词:

推荐阅读
华佗GPT通过从ChatGPT中提取“蒸馏数据”,并结合真实世界医生回复的数据,从而试图训练出具备像医生一样诊

2023-05-31 21:49:25

一批新规正式施行,21个省份婚姻登记可“跨省通办”,扩大私家车新车上牌免查验试点……

2023-05-31 21:03:15

近年来,内蒙古鄂尔多斯市伊金霍洛旗以党建为引领,通过全链条保障和多种政策扶持,助推嘎查村集体经济发展

2023-05-31 20:13:56

格隆汇5月31日丨九联科技于2023年5月18日-5月31日接受机构调研,交流环节中,就“公司目前的边缘计算类、信

2023-05-31 19:31:38

由吉林省文学艺术界联合会、吉林省残疾人联合会指导,长春大学主办的“大爱无声——全国听障人士美术作品巡

2023-05-31 18:32:47

原标题:海南省修订劳动保障监察规定将外国企业常驻代表机构纳入劳动监察对象法治日报记者  邢东伟  翟

2023-05-31 15:17:28

美是感性与理性的统一,是形式与内容的统一,也是感知认知和实践创造的统一。美育不仅是一种知识的传递、艺

2023-05-31 14:57:24

含饴弄孙,颐养天年,这是很多退休老人的选择。可在江西省南昌市进贤县前坊镇太平村西湖李家村,有四位退休

2023-05-31 14:09:10

最近,四川省巴中市平昌县岳家小学五管齐下,加强校园内车辆管理,积极创建平安校园。统计教职工车辆信息,

2023-05-31 13:15:22

1、《武神的百鬼夜行》是连载中的一部动漫穿越类网络小说,作者是大胖子。2、。

2023-05-31 13:06:46

贤合庄败退京城!“明星餐饮”光环渐失明星餐饮逃不出“短命”魔咒再次上演。近日,北京商报记者发现,由艺

2023-05-31 12:24:44

5月30日周二,据英国金融时报报道,一家德国初创企业ProximaFusion 已经获得了初始资金,用于开发一种革命

2023-05-31 12:08:40

一、证券市场回顾同花顺数据显示,5月30日上证综指日内上涨0 09%,收于3224 21点,最高3230 63点;深证成指

2023-05-31 12:06:47

国家发展改革委日前印发通知,在严格成本监审基础上核定第三监管周期省级电网输配电价,进一步深化输配电价

2023-05-31 11:56:06

央视消息:最高人民法院今天(5月30日)召开新闻发布会,发布了由最高法会同全国妇联制定的《关于开展家庭

2023-05-31 10:58:16

来为大家解答以上的问题。cad怎样转换成jpg格式的图片,cad怎么转换成jpg图片这个很多人还不知道,现在让我

2023-05-31 10:43:10

从小坑可能会长出一棵强大的橄榄树。就像鳄梨的核一样,橄榄核需要一点帮助才能长成树。外壳坚硬,美国的条

2023-05-31 10:36:17

汽配股开盘走低,一体化压铸方向领跌,嵘泰股份(605133)跌超7%,博俊科技(300926)、贝斯特(300580)、欣锐科

2023-05-31 10:07:04

当前,我市小麦正处于成熟收获期,5月26日至29日,我市出现大范围阴雨天气过程,局部大雨并伴有短时强降水

2023-05-31 09:19:14

打开网易新闻查看精彩图片金融界基金09月06日讯国泰中证港股通科技ETF基金09月05日下跌2 16%,现价

2023-05-31 09:02:45