云存储环境下大数据实时动态迁移算法研究
杨华芬
(上海工商外国语职业学院智能制造与信息工程学院,上海 201399)
作者简介:杨华芬(1979—),女,讲师,硕士,主要研究方向为计算机应用,43513990@qq.com.
摘要:现有大数据实时动态迁移算法效率低、耗时长、迁移成本过高,为此提出一种基于优化FA模型的动态迁移算法。首先在云存储环境下构建动态迁移框架,确定数据中心和网络节点的拓扑结构;然后利用FA仿生群智能算法在数据中心区域范围内更新个体的位置并寻找最优解;最后引入适应度函数和自适应惯性权重优化算法并扩大寻优范围,实现大数据迁移成本的最小化。测试结果表明,所提算法在数据规模较大的情况下迁移效率更高,同时具有较低的硬件资源占用率。
关键词:云存储;大数据;优化FA算法;迁移算法;最优解
中图分类号:TN393 文献标识码:A 文章编号:2095-509X(2021)02-0117-06
在计算机科学技术、网络技术和信息产业的推动下,计算机网络系统的复杂程度逐渐提高[1],数据规模也呈现出PB级增长趋势[2]。大数据的特点不仅在于数据总量的海量性,更在于数据结构的多样性和复杂性,大量半结构化和非结构化的数据类型给大数据的存储与迁移带来巨大难度[3-4]。数据迁移是大数据和云计算系统中的核心技术之一,在云存储环境下大数据的实时动态迁移效率与可靠程度,将决定云计算系统的总体性能[5-6]。数据迁移的过程复杂,尤其是在非结构化和数据不兼容的系统中,既需要对迁移结构进行实时验证,还要关注数据迁移的代价和资源消耗。随着数据存储量的成倍增加,大数据动态迁移的成本也不断提高[7],而可靠性和效率却随之降低,因此在动态迁移过程中采用合理的迁移调度算法十分关键。
文献[8]提出一种基于大数据网络节点存储容量感知的综合调度策略,通过对当前节点容量的计算和分配达到均衡网络负载的目的,但该种算法未能考虑到网络访问次数增加而增加的时间消耗;文献[9]提出一种基于粒子群遗传算法的调度策略,尽管能够从全局的角度均衡网络负载,但迁移效率偏低、耗时过长;钱雪忠、金保林等[10-11]基于一种自适应模糊算法试图平衡数据迁移过程中的网络负载失衡问题,但该算法无法解决上一个周期遗留下来的分配不合理问题,导致某些数据频繁被选取,进而加大了大数据网络系统的硬件开销。针对现有的大数据实时动态迁移算法存在的问题和不足,本文在云存储环境下构建大数据实时迁移框架,基于优化的FA(火焰虫仿生)算法,解决迁移过程中节点之间的任务负载不均衡问题,在节省系统开销和硬件资源的前提下,保持较高的数据动态迁移效率。
1 云存储环境下大数据迁移框架的构建
云存储环境下大数据的存储过程具有更高的效率和更强的容错能力,但在云平台系统中各种计算设备的性能具有较大差异,因此要对数据的迁移过程做出合理的调度,保证不同的计算设备完成与之性能匹配的任务量[12]。在云计算环境中会将待迁移的所有数据划分为几个部分,分别存储于不同的调度中心,以此提高数据迁移的效率和可靠性。用于大数据迁移的云服务模型在数据均衡负载方面具有优势,当网络上多用户同时请求资源时需要在大数据迁移框架下,采用特定的迁移算法平衡繁忙服务器与空闲服务器之间的迁移任务量。大数据实时动态迁移算法只有在特定的迁移框架内才能发挥出均衡网络负载的基础性作用,本文设计的大数据动态迁移框架如图1所示。
框架内设有n个数据监控器,实时监控网络节点的大数据迁移情况,监控器能够连续记录各节点的实时负载情况,作为后续调度算法调整的数据基础。监控器采集网络节点的负载情况实时数据,并传递到数据分析中心,分析中心按照当前节点的数据流情况制定调度指令和优化策略,并将分析中心的指令共享到算法层。在云存储环境下为了提高数据的迁移效率和系统的扩展性能,一般采用NoSQL通用型数据库[13-14]。系统的数据迁移流程如图2所示。 |