Chinese English
公司新闻 媒体报道 专家观点
神州医疗:引领中文健康医疗数据要素化的敏感信息保护技术创新
2025-02-10 分享:

在数字化浪潮的推动下,数据资产化已成为各行业发展的关键驱动力,健康医疗领域亦是如此。中文健康医疗数据中蕴含着海量极具价值的信息,但其中敏感信息的保护却面临着严峻挑战。

神州医疗秉持“学以致用,因地制宜”的思想,参照国际上最严格的美国HIPAA法案(Health Insurance Portability and Accountability Act)开展个人隐私保护策略及我国适用性研究,解决国际医学信息学界存在的暴露风险量化的核心技术挑战。具体而言,首先开展去识别化策略和在中国电子病历数据中的应用情况研究,并进一步开展我国人群的敏感信息保护研究,从技术上扎根解决风险量化问题,完成了“技术验证—暴露揭示—策略制定”的全流程敏感信息保护技术构建,相关成果已发表于多个国际知名期刊。


HIPAA Safe Habor:安全港在中国还安全吗?

研究成果《Evaluation of Privacy Risks of Patients' Data in China: Case Study》(JMIR Medical Informatics, 2020),通过参照美国HIPAA法案,在中文语境中首次系统评估了HIPAA Safe Habor技术路线的“去识别-再识别”风险平衡思路,提出针对中国患者数据的独特性的技术验证方案,验证了去识别De-identification与再识别Re-identification之间的风险平衡,是中文EMR数据个人识别信息保护的有效技术路线,可以达到国际上公认的安全水平。

论文集1.png

文章:Evaluation of Privacy Risks of Patients' Data in China: Case Study

期刊:JMIR Medical Informatics(IF:3.228)

联合单位:同济大学附属上海普陀人民医院、国家癌症中心、国家癌症临床研究中心、国家癌症临床研究中心大数据中心、公安部第三研究所、公安部信息网络安全重点实验室等

研究平台:国家恶性肿瘤临床大数据平台

核心内容:本文对33个省市的83万名患者医疗数据进行预处理,包括数据编码、分区、生成有限数据集和去识别数据集等步骤,再利用g-distinct analysis方法评估风险。结果表明有限数据集风险较高,19.58%的个体可被唯一识别,而安全港数据集能显著降低风险,仅0.072%的个体可唯一识别。该研究为中国医疗机构在数据共享时评估患者隐私风险提供了参考,缩短了中美隐私研究差距。

研究亮点:

 · 探索新观察的原创性:首次对大规模全国性我国患者数据在应用HIPAA安全港标准时的重识别风险进行定量研究,尽管中国相关法规提及该标准,但此前缺乏此类定量观察。

 · 设计新实验的原创性:针对中国患者数据的独特性(如邮政编码质量低等),设计了新的数据编码、分区和掩码方案,以适应中国患者数据特征,满足风险评估需求。

 · 贡献新知识的原创性:假设HIPAA风险评估方案适用于中国患者数据并设计实验,研究结果与美国类似研究相似,量化了中国患者隐私风险,有助于政策制定者和数据中心管理员评估政策及多重识别风险的影响,且安全港数据集在隐私保护方面表现更强。




孕产敏感信息:EMR数据利用还有多少河里的石头需要摸清?

隐私与敏感信息保护是EMR数据使用的先决条件,但中英文环境具有巨大的差异,无法简单“拿来主义”,并且国际上也并无孕产敏感信息保护的先例。对此,神州医疗发表了研究成果《Effective Privacy Protection Strategies for Pregnancy and Gestation Information From Electronic Medical Records: Retrospective Study in a National Health Care Data Network in China》(Journal of Medical Internet Research, 2024),这是中国首次全国范围EMR孕产信息定量分析研究,揭示了中文EMR系统里的敏感信息分布情况,指出电子病历中孕产信息暴露的主要来源,并且提出了基于风险定量的孕产信息保护策略EPPGI,风险保护有效率(Recall)96.8%,处于国际顶尖水平。

论文集2.png

文章:Effective Privacy Protection Strategies for Pregnancy and Gestation Information From Electronic Medical Records: Retrospective Study in a National Health Care Data Network in China

期刊:Journal of Medical Internet Research(IF:5.8)

联合单位:广东医科大学、南方医科大学南方医院

研究平台:中国肾脏病大数据协作网络平台

核心内容:对中文电子病历数据中敏感妊娠信息隐私暴露风险和保护策略的大规模、多中心、全方位的深度研究。研究团队基于中国10个省、19家医院的电子健康记录数据,共1,110,053名患者纳入本次研究,通过创新的EPPGI(Extraction Protocol of Pregnancy and Gestation Information)方法,有效识别出电子病历中的孕产信息。

研究亮点:

 · 大规模数据支撑:研究基于大规模的真实世界数据,覆盖全国多中心超100万人的数据,确保了研究结果的广泛适用性和可靠性。

 · 突破性研究:这是我国首次基于全国范围的电子病历数据对敏感孕产信息暴露风险进行评价的研究,也是首次提出基于暴露风险量化的保护策略。

 · 有力的技术支持:神州医疗团队在中文临床数据处理核心技术上取得突破,为国家和各大教学医院的数据利用提供了强有力的技术保障。

 · 独特的临床视角:研究深入探讨了如何从电子病历中准确、全面地识别敏感信息,并统计了不同子数据集中的识别频率,揭示日常诊疗中孕产信息主要暴露因素并提出相应的保护措施。




性传播疾病:如何制定中文语境下敏感EMR信息保护策略?

敏感信息泄露可能导致患者巨大的社会压力,尤其在中国社会氛围中性文化趋于保守,因此对于任何性传播疾病的信息泄露,都有可能直接对患者临床治疗产生重要影响。针对此,神州医疗发表研究成果《Privacy Protection of Sexually Transmitted Infections Information from Chinese Electronic Medical Records》(Scientific Reports, 2025),对19类性传播疾病(Sexually Transmitted Infections)患者的敏感信息暴露进行风险量化研究,并制定了保护策略EPSTII对与性传播感染相关的关键词及大量同义词进行发现和保护,成功率(Recall)达到99.5%,最大限度地保障了性传播疾病患者的隐私。

论文集3.png

文章:Privacy Protection of Sexually Transmitted Infections Information from Chinese Electronic Medical Records

期刊:Scientific Reports(IF:3.8)

联合单位:广东医科大学、南方医科大学南方医院、复旦大学附属华山医院国家老年疾病临床医学研究中心

研究平台:中国肾脏病大数据协作网平台

核心内容:利用2010年至2020年间来自19家医院的11,759,139名患者的EMR数据,开发了一种基于自然语言处理的规则协议(EPSTII),用于从中国的电子病历中准确提取和保护性传播感染(STI)患者的隐私信息。通过在大规模数据集上的应用,该协议实现了超过95%的精确度和召回率,并在隐私保护方面达到了98.25%的成功率,为在数据共享过程中有效保护STI患者的隐私提供了一种创新且高效的方法。

研究亮点:

 · 开发了专门针对中国EMR系统的EPSTII协议,能够全面扫描数据库,有效防止信息泄露。

 · 通过正则表达式快速扫描整个数据库,减少了数据使用效率的影响。

 · 该方法不仅提高了识别的准确性,还减少了误报率,避免了不必要的数据去标识化,从而保持了数据的可用性。

 · 研究考虑了文化背景对STI患者隐私保护的影响,强调了在不同文化环境中保护患者隐私的重要性。




这些研究成果首次在中国开展去识别化后的再识别风险量化研究,验证HIPAA数据安全港在我国的适用性,为政策制定者和数据管理人员提供决策参考依据;除此之外,研究进一步对我国大样本人群开展隐私暴露风险的量化研究,利用先进的自然语言处理及统计技术,揭示了孕产和性传播疾病敏感信息的分布模式,并针对性地提出了保护策略。从考察HIPAA数据安全港在中国的适用性,再到基于中国数据体系和大规模人群的自主创新,神州医疗基于中文电子病历数据自主技术突破,为国内外敏感信息保护提供了深刻洞察和先进技术赋能!


TOP