该方向旨在开发先进的人工智能工具,通过对健康医疗大数据的智能分析,实现对疾病的风险预测、疾病的智能诊疗及患者预后预测。通过逐步高效融合跨尺度多模态大数据,建立覆盖慢性病“预防-诊断-治疗-管理”全链条的高精度风险预测模型。实验室团队在生物学年龄模型构建、表观年龄与慢病共病、电子病历(包括检验结果、非结构文本、影像检查等)人工智能挖掘等方面开展多项原创性研究。此外,实验室还正在推进健康人群及高危人群的患病风险评估评级模型优化,建立综合性慢病管理应用平台,以实现个体化的风险预警预测。1.构建生物学年龄模型全球人口正步入老龄化阶段,而老龄化是各种慢性病的主要危险因素之一,给社会经济、政治及医疗都带来巨大的挑战。然而衰老的机制十分复杂,年龄并不能准确地衡量机体的生理性衰老。因此,该研究模块旨在通过表型年龄来了解整体的健康状况,识别衰老速度超过正常衰老水平的人群即处于衰老高风险状态的人群;根据对表观年龄的变化的追踪,来识别影响促进衰老的风险因素,并且通过调整和控制风险因素,达到保持健康和延缓衰老的作用。例如,实验室依据美兆体检队列数据,构建了涵盖肝、肺、肾、代谢系统、心血管系统、免疫系统功能指标的生物学年龄模型。并依托该模型,分析了表观年龄与包括癌症在内的7种慢性疾病患病的相关性,发现表观年龄增加与慢性病患病风险增加相关。2.构建基于电子病历的临床辅助诊断系统医疗领域的数字化与自动化程度在不断提高,产生了海量医疗数据,而传统研究模式主要为结构化特征筛选与基于统计的分析方法,未充分结合非结构化医学文本等临床多源信息。研究旨在基于电子病历与人工智能算法,对临床多源信息进行挖掘与高效融合,包括检验结果、非结构文本、影像检查等数据,进而构建高效而客观的临床辅助诊断系统,如烧伤患者的气管切开必要性评估,结合临床数据与机器学习构建辅助决策系统与临床适用的量表;住院患者过敏反应的监测,利用自然语言处理技术对住院报告进行自动分析而识别过敏反应;精神类疾病的辅助诊断,基于患者的问诊记录及各项检查报告,开发精神疾病的临床表型自动提取和疾病自动诊断模型。3. 利用自然语言处理识别的病理特征评估黑色素瘤患者肿瘤浸润淋巴细胞的预后意义实验室利用人工智能技术深入挖掘健康医疗大数据,发现了肿瘤浸润淋巴细胞(TIL)的预后价值。为解决人工审查病历此类密集型劳动,填补既往缺乏综合临床和组织病理学特征的大型患者队列的研究空白。实验室研究团队通过自然语言处理(NLP)算法建立的大型队列,评估了肿瘤浸润淋巴细胞TIL在皮肤黑色素瘤患者中的预后意义。研究表明,活跃的TIL是原发性皮肤黑色素瘤患者OS的独立预后因素。研究还提出,NLP是一种高效工具,可以促进涉及自由文本临床数据的大规模分析。机房建设
该方向利用一系列高尖端的基因型、表现型和整体组学的生物技术平台,旨在发现和验证用于精准预测、早筛早诊早治、疗效、预后、复发、生存的新型生物标志物集群。实验室目前配备有illumina iScan基因芯片扫描系统、MGISEQ-2000基因测序仪、BioMark HD高通量基因分析系统、Luminex液相悬浮芯片系统等高通量检测平台和QIAGEN核酸自动提取仪、MGISP-100自动化样本制备系统、全自动微流体分析系统等自动化设备、PCR系统、细胞计数仪、分光光度计、高速冷冻离心机、恒温混匀仪、凝胶成像系统等基础设备。质谱仪、数字病理成像仪和单细胞测序仪等相关设备也在筹备中。此外,实验室正在开展前沿的代谢组学、蛋白组学、单细胞测序等分子检测,同时利用人工智能对数字病理切片进行挖掘。1. 全基因测序和多组学分析实验室已与华大基因合作,进行了大规模、深入的多组学研究,利用1万例人群的全基因组测序和500例病例的多组学分析(WES、RNA-seq、甲基化和TCR测序),从遗传和表观遗传等层面深入分析与慢病及肿瘤发生发展相关的因素。其次,启动了尼古丁依赖易感基因及其与肺癌发病和预后的关联研究、糖尿病前期全基因组关联分析及其代谢状态转化、肠道菌群宏基因组学和代谢组学等前沿研究。实验室研究团队通过融合跨尺度多模态医学大数据,开展了多向多尺度多组学大数据联合分析,“干湿结合”寻找肿瘤全过程相关的新型生物标志物,支撑肿瘤全程的风险预测。2. T细胞癌免疫反应相关基因与T细胞表型的遗传关联及早期肺癌临床结局实验室以T细胞相关免疫治疗在非小细胞肺癌(NSCLC)治疗进展为研究基础,进一步探索了T细胞抗肿瘤免疫反应基因相关基因组变异对NSCLC患者预后的影响,以填补此研究空白。在此研究背景下,实验室研究团队通过多阶段研究,描述了280个T细胞抗肿瘤免疫反应相关基因的2450个单核苷酸多态性(SNPs)在941例早期NSCLC患者中的分布情况,并分析了这些SNP与患者预后及T细胞表型的相关性。研究表明,循环肿瘤免疫检查点蛋白水平可作为肾透明细胞癌患者复发、生存和T细胞抗肿瘤表型的预测因子;T细胞抗肿瘤免疫基因型与T细胞抗肿瘤表型密切相关,并可作为早期非小细胞肺癌患者生存及预后的生物标记物。3. 免疫检查点相关的血清蛋白和遗传变异可预测局部前列腺癌的结果实验室基于多组学生物医学大数据的创新临床检测技术研究,还开展了相关癌症的临床预测因素和生物学机制探索,如局部前列腺癌(PCa)。实验室研究团队评估了血清免疫检查点相关(ICK)蛋白和遗传变异在预测局部PCa结果中的作用,进一步了确定ICK变异与攻击性、BCR和进展显着相关。此外,该研究强调了血清ICK相关蛋白在预测PCa侵袭性、BCR和进展方面的预后价值,也提出了CD80中的遗传变异和mRNA表达可能是局部PCa的预测因子和潜在目标。Illumine iScan基因芯片扫描仪Biomark HD高通量基因分析平台
该方向旨在基于人群队列发现和验证可改变的慢性病危险因素,为公共卫生政策改变提供依据。通过多层次、多结构、循环探索性分析,从不同角度更细致更全面观察研究发现和验证一些新的可改变的危险因素及其交互作用,辨析可改变危险因素的联合或交互作用对慢性病的影响,寻找未知的干预靶点。实验室研究团队开展了运动、饮食、吸烟、体重指数、健康生活方式组合等与健康/疾病的相关性研究,利用成熟大型中国人群队列,为发现及验证可改变的疾病及死亡危险因素提供了一系列科学证据。其次,构建了营养健康大数据及AI前沿技术研究体系,挖掘影响中国居民健康状况的营养相关因素和作用通路。此外,开展了大量数字化精准营养与健康老龄化的干预技术研究,构建了可促进健康老龄化的数字化健康行为分析模型;针对健康素养的提升和健康生活方式的普及等重要公共健康问题开展前沿研究,并开发以循证研究为基础的公共健康政策。开展健康城市研究,基于遥感系统(RS)、互联网数据及5G+卫星通信技术等,精准防诊治与建成环境相关的疾病。(1)利用人群队列发现和验证可改变的癌症危险因素,为公共卫生政策改变提供依据实验室与台湾美兆集团有良好的合作关系,并基于共享的前瞻性队列数据库,开展了健康生活方式与慢病或癌症发生及癌症死亡的关联分析。研究根据五种健康生活方式:不吸烟、避免过度饮酒、保持中高等强度运动、保持正常体型、以及保持良好的饮食模式,构建健康生活方式评分,通过高血压、糖尿病、肾病等六种慢性非传染性疾病来量化个体慢性病负担,从而探索其潜在关联。研究证实了健康的生活方式有助于死亡风险下降和寿命获益,在高慢性病负担人群中尤为如此。因此,研究团队建议在倡导健康生活方式的同时,还应针对健康状况不佳的人群采取更全面的健康促进举措。基于台湾美兆队列,实验室研究团队也探索了低密度脂蛋白胆固醇(LDL-C)和总胆固醇(TC)与全因死亡率和特定原因死亡率之间的潜在关联。研究结果显示胆固醇与死亡率之间存在分级关系,尤其是对于肝癌、肝硬化、血红素肝硬化、出血性中风和损伤的情况。因此,研究提出自然发生的低胆固醇,在年轻的东亚人中非常普遍,并不一定是好的现象,其死亡风险也被忽视了。虽然它的作用可能有所不同,但低胆固醇可能会对这些亚洲人造成潜在的危害。(2)营养健康大数据及AI前沿技术研究体系实验室建立了营养健康大数据平台,联合并聚焦中国膳食营养大数据分析、挖掘和应用的创新性研究,结合AI人工智能技术,构建能够全面、连续、动态地反映不同地区、不同年龄居民食物消费与膳食营养状况的大数据平台;构建精准营养生物大数据库,挖掘影响中国居民健康状况的营养相关因素和作用通路。实验室为中国人群健康素养的提升和健康生活方式的普及等重要公共健康问题开展前沿研究,争取为营养健康大数据产业的健康发展提供有力的人才和技术支撑,带动以营养健康为导向的相关产业发展。(3)健康老龄化数字干预技术研究实验室通过与营养流行病学、脑科学、行为医学、心理学、社会医学等学科领域的交叉,构建了可促进健康老龄化的数字化健康行为分析模型,构建了精准营养干预的知识图谱和知识库体系;针对各类健康生活场景,开发健康生活处方智能生成系统和干预反馈机器人系统。实验室遵循以预防为主的导向,开发以循证研究为基础的公共健康政策,为促进各级政府和公共健康实践部门将健康融入所有政策提供咨询服务。例如,实验室研究团队打通临床数据与社区健康管理档案的壁垒,针对失智老人的预防、管理和治疗,通过结合认知训练、有氧锻炼、情绪管理、饮食调节、危险因素监测等数字健康干预技术,探究老年人群神经退行性疾病的发生发展,以及数字干预方案对老年人群多种健康结局的改善效果,并通过生物标志物来探索干预的生理学机制,构建起失智老人的社会安全保护体系。(4)癌症患者在癌症诊断后的吸烟、戒烟和生存情况实验室基于数据驱动的可改变疾病危险因素研究,探索了吸烟、戒烟在癌症患者诊疗旅程中的潜在影响。实验室研究团队发现,癌症患者的吸烟率仅略低于普通人群。同时,该团队也研究了癌症诊断前或癌症诊断时吸烟与癌症诊断后全因死亡率之间的前瞻性关联。研究使用23种癌症类型的成年癌症患者的前瞻性队列,基于标准化问卷收集的相关吸烟信息,使用多变量Cox回归分析全因死亡率。研究结果表明吸烟与癌症诊断后的总生存期较短有关,尤其是与非吸烟相关癌症。在癌症诊断前戒烟与风险降低有关,长期戒烟接近从不吸烟。(5)慢性病共病模式及运动与全因死亡的相关性研究实验室基于数据驱动的可改变疾病危险因素研究,刻画了人群慢性病共病罹患现状,比较了不同共病模式与全因死亡风险的关联性,筛选了高风险共病组合模式,并探索了运动对慢性病共病带来的死亡风险和寿命损失的影响。基于美兆队列的基线和随访体检数据,实验室研究团队参考国内与国际疾病分类的定义标准,确定了高血压、糖尿病、慢性肾脏疾病和慢性阻塞性肺部疾病四种慢性疾病的诊断,并展开系列研究。研究结果表明,台湾美兆体检人群中基于“糖尿病+慢性肾脏疾病”的共病模式死亡风险最高。与不运动人群相比,运动人群中慢性病共病患者的死亡风险均显著降低,且运动强度越大,降低死亡风险的效果越显著,其带来的寿命益处在慢病人群中更加显著。
该方向旨在针对健康人群、高危人群或临床患者人群等关键场景,建立串联、加值、对标国际、长期追踪、且包含多维度信息的大型前瞻性人群队列,涵盖流行病学数据、临床数据等数据库和组织样本库,以重大平台突破重点、带动整体。实验室自成立以来,陆续开展了与健康浙江百万人群队列建设相关的一系列关键工作,制定了覆盖项目全链条的标准化操作规程和质量控制手册;建设了基于体检数据的百万级健康医疗大数据平台,开展了一系列数据安全存储、隐私保护、高效管理以及质量控制等方面的研究,并开展了初步的数据分析工作;建设了标准化、智能化、高质量的生物样本库,配备了48台超低温冰箱、样本库管理系统等;初步组建了社区健康人群、高危人群和临床患者人群等示范队列;对如何与各省市和地区的相关部门合作以高效获取人群随访数据以及建立队列随访系统做了广泛而又深入的探索。1.健康医疗大数据平台建设基于浙大附属医院的历史性体检数据库,实验室搭建了健康体检大数据平台(2008年至今),已开展数据安全存储、隐私保护、高效管理以及质量控制等方面的筹备工作,并制定了一系列操作规程和质量控制手册。2.标准化高质量的生物样本库建设实验室建设了标准化、智能化、高质量的生物样本库,现已配备48台超低温冰箱、样本库管理系统等,并正在建设自动化样本库。目前为止,实验室已在内部服务器上完成了BMP样本库管理系统的安装部署,根据实际工作需要进一步完善项目、储存容器、样本类别的各项配置。实验室也组建了生物信息数据(特别是基因测序数据)存储及管理系统,高通量信息数据传输专线,以及三组数据分析计算专用高性能服务器集群。此外,实验室还建立了生物样本库信息化平台运行管理和质量控制体系,依据不同的生物样本类型,建立完善的生物样本质量管理体系,推动临床生物样本库,从以存储样本为中心的实体型建设转化为存储样本与数据并行的新型信息化生物样本库,该体系将作为健康浙江百万人群队列的重要基础构成。3.以场景为主线的人群队列建设(1)社区健康人群队列实验室在杭州和兰溪等地区设立了队列研究试点并成功开展了自然人群队列(体检人群及社区人群等)的招募工作,这些基于社区人群状态的队列研究将有助于全面的跟踪、探索人群健康状态的转变和疾病的转归。其中,兰溪多维队列已纳入近4.8万人,并从多个维度采集医疗健康大数据,进行多尺度分析与研究。该队列的主要研究目标是通过建立大型多场景人群队列,以大数据为基础、循证医学为证据、人工智能为工具,做好精准预测、预防、诊断和治疗慢性病,建立提升全域全民全生命周期的健康管理平台,科学分析影响兰溪市城乡居民健康的关键因素,发现可改变的慢性疾病的危险因素,为在人群中开展更加精准的防控策略措施提供依据,降低社会卫生经济负担。(2)高危人群队列建设实验室综合国内与国际权威的慢性病风险预测模型,基于上述健康体检大数据平台,以癌症和代谢综合征为切入点,开展了高危人群的筛选工作。实验室目前已开展了代谢综合征以及三个癌症(肝癌、肺癌和胃癌)的高危人群队列研究,收集生物样本并进行详细的流行病学问卷调查,采用现场与电话随访相结合的方式对纳入人群进行定期随访。随后,实验室研究团队采用流行病学研究、多组学研究等多种方法从多个维度探索癌症发生发展的相关因素,助力癌症的早期预防、早期诊断和个性化治疗,最终达到降低癌症发病率和死亡率的目的。(3)临床患者队列建设实验室目前已成功建立了肺癌、肝癌、肾癌、骨癌四个癌症的专病队列以及代谢综合征慢病专病队列,并基于此类癌症和慢性病人群队列,开展定期随访、生物样本采集、流行病学问卷调查等工作,并结合其临床病历资料对病理特征、治疗方式及预后信息进行数据的整理及分析。实验室研究团队从流行病学研究、多组学研究等多个维度探索癌症及常见慢性病(如糖尿病、心血管疾病等)发生发展的相关因素,助力癌症及慢性病的早期预防、早期诊断、个性化治疗和预后改善,最终达到降低发病率和死亡率的目的。(4)高效、可推广的队列随访系统实验室以美兆健康人群队列为参考,并进一步结合队列基础、人群特点、区域信息化水平及可用的数据开发平台,通过多种途径规范化高效获取队列人群的死亡、发病、预后以及环境暴露、人口迁移和失访等健康医疗大数据,正在研究构建高效、可推广的人群队列随访系统。目前,实验室团队已开展了与省公安厅、省大数据局、省医疗保障局以及多个地市相关政府机构的合作,获取队列参与者的各项信息。未来将争取与包括肿瘤登记、慢性病监测、死因监测平台等在内的多级数据库对接,并与各级医保数据库、居民健康档案数据库等高效互联。此外,团队积极开展了通过公开数据库等途径获取队列参与者相关暴露信息的研究。