数据湖的发展契机,来源于近年来的AI热潮和云计算、5G的发展,在日益发展的海量数据时代,数据已成为企业发展的核心资产,通过构建适用于大数据的底层架构,围绕Hadoop提供语义一致性、数据治理和安全性。
Hadoop作为数据湖最常用的解决方案之一,其的部署和需求仍然很大并且正在增长。在最近的一项涉及235名受访者的调查中,34%的受访者目前正在使用Hadoop进行数据和分析工作,另有55%的受访者计划在未来24个月内采取同样方案,总计需求量达到89%(Gartner,2016)。
在Hadoop大数据平台方案中,当存储空间或计算资源不足时,只能同时对两者进行扩容,将导致额外成本的增加。假设用户对存储资源的需求远大于对计算资源的需求,那么同时扩容计算和存储后,新扩容的计算资源就被浪费了,反之,存储资源被浪费。独立扩展计算或存储的架构设计,被认为是更加灵活的扩容方式。
因此,业内新扩容方式“存算分离”架构的优势逐渐明显,“存算分离”成了大数据架构发展的必然趋势,成了解决行业用户在使用Hadoop时,面临计算资源浪费、存储性能低、管理成本过高等痛点的利器。最初在Hadoop1.0时代,计算和存储是高度融合的,仅能处理单一的MapReduce分析业务;如今已经到了Hadoop3.0时代,计算存储走向分离,通过Hadoop架构策略,优化了冷热数据的存储。打造了更适合企业级市场,资源云化和灵活扩展,能够让用户享受更专业的存储,更佳的可靠性和利用率。
ISCloud分布式存储系统面向海量数据场景,针对大数据Apache Hadoop等应用场景,提供原生接口,将原生Hadoop集群从当前计算、存储一体化状态,拆分成计算和存储两个独立集群,实现“存算分离”形式,充分吸纳计算、存储两个产业的最终成果,加速释放数据价值。
• 提供标准接口,实现智能化负载均衡
非结构化的原始数据可以通过Sqoop、DistCp等工具直接存储在ISCloud分布式存储上,业务数据库结构化数据和应用数据可以通过Spark、Kafka等HBase分布式数据仓及Hadoop大数据Hive仓库内。HBase表数据和Hive内部表数据仍然通过HDFS来存储。ISCloud分布式存储在存储海量非结构化数据,甚至是海量小文件的同时,减轻HBase及Hive的压力,为后续扩容单一属性集群提供基础。
⦁ 协议互通特性,提高数据分析效率
ISCloud分布式存储采用多种协议互通技术,部署语义抽象层,面对多样化结构数据提供适合文件、对象、块及大数据的原生语义,为Apache Hadoop计算层提供了标准的Hadoop文件系统API,支持文件、大数据接口访问,免数据迁移,缩短分析路径。实现多集群数据融合互通,提升数据共享和分析效率。
• 降本增效,大幅降低TCO
随着大数据应用的全面普及,存算分离已成为企业大数据平台建设的首选。采用全对称分布式NameNode,集群性能和支持文件数随节点数目增加,单一命名空间支持文件数达百亿级。计算存储分离,按需扩展,实现精准投资。
声明
登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,本站亦不为其版权负责。如存在有侵犯您的合法权益的内容,请联系我们,本网站将立即予以删除!
云米作为全屋互联网家电的开创者,把自己定位在loT@Home,成立短短几年后即完成上市,可见其实力雄厚,近年来专注探索4G时代家庭智能化,率先发布5G loT 战略,以家电新物种的视觉... <详情>
美好的事物往往让人留念,在家电行业,能够为人们津津乐道,从普通路人转为粉丝,几乎都是因为产品质量过硬,用起来又省心又舒服。而美的就是这样的品牌,多年来持续满足消费... <详情>
加密货币行业是一个充满奇迹的行业,在这里你将体验到一切皆有可能的含义,没有任何一个人能够想到比特币竟能价值近乎2万美金,行业内新人换旧人,最终财富只停留在坚守者手中... <详情>