1. 研究目的与意义
随着计算机性能的指数增长(摩尔定律)、数据库技术的普及以及网络技术的发展,人们开始面临数据的爆炸性增长,数据以每两年翻倍的速度增长,到 2020 年全球新建和复制的信息量将高达 44 ZB 。
医疗领域同样如此,临床医疗服务、医学研究、健康管理和公共卫生等业务范畴产生的数据也呈爆炸式的增长。
临床医疗服务数据以电子病历为代表。
2. 研究内容和预期目标
Hadoop 作为大数据处理的代表技术,其MapReduce模型涵盖了大数据应用的诸多领域,大大提高了数据处理的效率。但是由于MapReduce 模型本身的限制,以及要保证计算的容错性,Hadoop 集群在计算过程中存在较大的 I/O 磁盘开销,spark的出现弥补了Hadoop的不足,其内存计算模式能够减少迭代计算中的 I/O 磁盘开销,支持更快速和更加简易地处理大数据。据相关研究证明,Spark 在内存中数据处理速度为 Hadoop的 100 倍以上。 项目的实现有利于科研和医务人员查询使用有效信息,个人处理具有代表性的疾病案例,对海量数据进行系统的统计。在面对庞大的医疗数据时,能够作用交互统计的方式进行快速分析。
通过运用spark对医疗大数据分析和研究的过程,完成大数据技术为医疗信息服务,包括对海量结构化,半结构化,以及非机构化的关联数据进行分析处理;利用已有数据为医疗管理部门提供一定的决策选择;帮助科研工作人员查询有效信息,从而实现Spark技术在医疗信息领域的应用,更好的服务于医生、病人,以及对医疗数据统计分析有需求的个人和单位。
3. 国内外研究现状
国外对spark大数据研究已非常成熟,如谷歌在 2009 年初通过用户在网上的搜索记录成功预测甲型H1N1 流感的爆发,其“流感趋势系统”通过结合传统监测方法和大数据处理技术,可以预测美国未来一周的流感感染情况;美国的 Flatiron Health 公司,致力于通过收集和分析海量的临床数据进行癌症治疗的分析和预测,该公司已获得谷歌风投部门超过 1 亿美元的投资 ;美国政府于 2012 年 3 月发布了“大数据的研究和发展计划”,其中多个项目涉及医疗、公共卫生和生命组学研究。
国内研究也初具雏形,但与国外相比还存在着不小差距。中国计算学会大数据专家委员会和中关村大数据产业联盟主编的《中国大数据技术与产业发展白皮书 》提出,互联网、金融、电信、新媒体等领域的大数据产品创新此起彼伏,大数据的应用广度不断拓宽,深度不断加强,在电网、交通、医卫、地信、政府、农业领域的大数据应用也明显提速,由此带来的积极影响将推动 Hadoop、Spark 等大数据处理新方法更广泛地应用,实现从传统的数据处理向大数据处理的过渡。
4. 计划与进度安排
设计平台处理的数据对象为医疗服务大数据,从这个角度来说,其在设计原则上应该满足大数据系统和分布式计算的一般性原则,即可用性、容错性和可扩展性。同时,为更好地动态掌握卫勤态势,统计平台应该满足交互性查询的基本原则,即实时性。
(1)可用性。本研究的目的是为卫勤部门提供交互性、用户界面友好的数据分布统计,理论上需要零宕机提供有效的服务,因此其可用性变得十分重要。平台使用经过多领域实例验证的分布式文件系统 HDFS、数据库 HBase 及高效内存计算框架 Spark,总体上能够满足 99.9% 以上的高可用率条件。
(2)容错性。容错性指该数据分析平台在执行查询过程中遭遇错误,特别是不可恢复的系统错误和硬件错误,以及算法在遭遇输入、运算等异常时继续正常运行的能力。本研究中的存储系统对输入系统的数据采取了多副本(采用 HDFS 默认的副本数量 3)的放置策略,同时,使用了Zookeeper 分布式一致性框架来保证上层应用系统的容错性,只要系统有一半以上的物理节点处于可用状态,那么系统就能够持续正确的运行。
5. 参考文献
[1]《学习Spark》
[2]《Spark实用指南》
[3]《Scala》实用指南
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。