近期,医疗AI领域可以说捷报频传:张康教授团队以10万张准确标注的眼底数据和5000张胸部 X线数据为基础,开发出了能与顶尖医生媲美、诊断眼病和肺炎的AI系统;经过25万儿童和家属测试的第一款自闭症AI诊断产品获FDA批准;乐普公司以2500万份心电图数据样本为基础开发的、名为AI-ECG平台的心电图自动分析诊断系统获注册审查资格……
不难看出,上述国内外医疗AI领域创新创业的新成果、新进展都离不开医疗大数据的支撑。如果把医疗AI比作一艘巨轮,那么医疗大数据绝对扮演着燃油的角色,为医疗AI可持续发展提供源源不断的动力。
医疗大数据爆炸式增长的四大特征
近年来,伴随着电子病历的实施,数字化的实验室幻灯片,高分辨率的放射图像、视频,整个医疗行业的数据量令人难以置信。根据EMC和IDC发布的报告预计,到2020年,整个医疗行业数据量将达到2314EB。在几何式增长的背后,医疗大数据呈现出四大特性:
数据推动医疗AI发展的三大表现
协助医疗AI提高效率是数据推动其发展最突出的表现。大量的数据可以起到“训练”AI系统的作用,使得系统不断提升输出结果的速度。数据库内容越丰富,对于外界需要的反应就越迅速。举个例子,传统医生看片子,通常情况2两分钟看1张片子;基于数据的医疗AI系统2分钟可以看100张片子。随着数据库容量的扩充,医疗AI的效率还会进一步提升,有可能未来AI系统2分钟可以看200张片子。由此可见,医疗AI系统效率的提升离不开数据长期的“训练”。
大量数据的积累还能有效提升医疗AI的准确率。原本的心电分析算法在自动识别房颤时只能满足基本正确的标准,但随着数据的不断充实和技术的革新,现在只要识别10秒数据就可以将自动识别准确率提升到97.5%以上。相比原来,不仅节省了时间,还提高了人工智能判断的准确程度,不得不承认这是一个质的飞跃。
第三,庞大的、医疗机构间合作的、可溯源的真实数据源能节省大量医疗AI临床研究成本,不断提升获取数据速度的同时让AI企业决策者有更多的资源与精力作出正确的决策。可以这样说,医疗AI技术充分发挥了数据的价值,而数据则是医疗AI发展的源源不断的动力,二者相辅相成。
医疗AI领域大数据获取的三大途径
既然AI系统必须通过大量真实有效的数据来“训练”自己,那么那些精准有效的数据从哪里来呢?目前,国内外医疗AI企业主要通过三种途径建立自己的医疗大数据库:
一是企业自有数据。通过大量的人力采集,再对数据进行结构化处理,形成人工智能的训练基础。大部分人工智能企业在进入这个领域之前,正是在各自领域采集到了相当多的行业数据,才考虑对数据资源进行利用,形成人工智能业务。
二是各国政府的公共数据。美国联邦政府在Data.gov 数据平台开放了来自多个领域的13 万个数据集的数据,包含医疗、商业、农业、教育等领域。我国和其他国家也陆续开放了部分领域的公共数据。
三是产业合作数据。人工智能创业公司通过和行业公司,以及产业链上游的数据公司建立合作获取数据,比如医疗方面和医院建立合作关系。IBM Watson 一开始就是通过和纪念斯隆凯特琳癌症中心合作获取病历、文献等数据。
“合规”应用才能使医疗大数据价值最大化
医疗行业关乎国计民生,具有重大的战略性意义,医疗大数据不仅是一种高附加值的信息资产,同时由于医疗行业的特殊性,在数据产生的初期即会涉及到大量个人信息。因而这一行业的发展与应用更应特别加强个人信息的保护。对于任何涉足医疗AI领域的企业,在一个法治不断健全的社会中,“合规”应用医疗大数据,其价值才能最大化。
我国已经正式实施的《中华人民共和国网络安全法》第四十二条中规定,“网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息”。由此可见,个人信息的收集和应用的边界线之一,应该是对个人信息经过特殊处理且无法识别特定个人的“去个人化”。而“去个人化”的信息在一定程度上满足了个人信息立法保护的本意,同时满足了整个产业的发展所需。从这个角度来看,“合规”也是医疗大数据行业发展的内在要求。
医疗大数据在医疗AI领域发展中有着“牵一发而动全身”的重要作用,如何正确地获取医疗大数据,将大数据转化为有价值的信息,持续为医疗AI续航是值得每一个从业者仔细思考的问题。我们相信,在大数据的辅助下,医疗AI一定会开创医疗新时代。
News
相关文章
2021-10-09
2021-07-22
2020-12-05
2021-05-08
2021-01-04
2021-03-19
2021-10-30
2021-05-26
2021-08-28
2021-05-27
Next
下一篇