您当前的位置 :首页 > 汽车之家 >  >  正文  

 
分布式数据集模型与Bigalow框架的分组操作
发布时间:2020-08-25 20:55:58   来源:上海信息网
 

  

基于底层引擎的高层抽象策略可以降低用户的学习成本和代码的维护成本,高层抽象的设计和实现是关键。百度大流项目提供了一个可嵌套分布式数据集的抽象,它考虑到了模型的直观性和系统的效率。

随着分布式计算的发展,采用以数据为中心的函数式编程模型越来越普遍。在该模型中,用户可以自己考虑计算逻辑语义,而不是执行代码时的过程控制,操作人员跟踪数据的方式也大大降低了数据的迁移成本,使用户的分布式程序更接近用户的直观思维,大大降低了学习和使用的成本,屏蔽了更多的底层细节,并为分布式框架自动优化用户代码提供了空间。

星星之火的RDD是函数式编程模型的杰出代表。它是一个容错的、并行的、只读的分区数据集合,经过转换操作将产生一个新的rdd。只要定义了这些RDD的转换过程,SMARK就可以自动地将数据分割到每个物理节点,并将操作符传递给相应的节点来扩展计算。分组操作是这些转换操作中最重要的。它根据操作符生成的键对数据集进行重组,对应于MapReduce模型中映射阶段末的提取键值操作和整个混叠阶段的数据传输操作,从而保证了火花框架的通用性。

在当前RDD模型的设计中,同一密钥的键值对在分组后成为一个单机列表,所有的列表都形成一个新的RDD。然而,这种设计会导致以下三个问题:

首先,在随后的转换中,每个机器列表中的操作都是分布式框架的黑匣子,系统很难根据这些操作的性质来优化整个程序的执行。例如,SMART提供了一系列接口,例如还原键、聚合键和组合键,用于上游数据的预聚集优化,并提示用户在可能的情况下避免使用简单的groupbykey操作符。这是因为星火框架无法从组键分组之后对每个独立列表执行的操作中提取聚合语义。

其次,这些独立列表也限制了分布式框架根据需要将组内数据分发给多台机器的可能性,因此,用户通常需要手动优化代码,以避免某些节点造成内存问题。在大多数情况下,过多的手工优化代码会使代码变得丑陋和难以理解,从而使代码的维护变得更加困难。

第三,现有的分布式算法在每个包上也很难重用,例如,用户已经为整个RDD实现了逻辑回归算法,但在另一种情况下,用户需要在同一密钥下获得所有密钥值对的逻辑回归结果,此时用户只能用相同的操作逻辑重新实现一套逻辑回归算法的单机版本,这增加了开发成本。

上一篇:马自达的新SUV面临巨大的变化,不仅仅是转子发动机!
下一篇:最后一页
 相关资讯:
· 分布式数据集模型与Bigalow框架的分组操作    2018-09-14
· 马自达的新SUV面临巨大的变化,不仅仅是转子发动机!    2018-09-14
· 一天晚上,10点! 市场价值回归世界第一。 1苹果:另一个计划是如此低调    2018-09-14
· 买不起宝马X3看到它62万下降到15万水平远远超过汉兰达    2018-09-14
· 吃鸡:视觉模型不准确,声音很吵,特斯拉还有多少缺点?    2018-09-14
· 不仅演出后,而且生产力,华为MatePad艺术沙龙杭州站结束了!    2018-09-14
 
一周资讯排行
这款国产车依然坚挺!众泰和力帆纷纷倒戈,它却依旧强硬?
3月9日,中国二手车交易市场的复苏率为71.28%。
抓抢时间恢复生产 建德下涯镇积极开展灾后自救
配备轻型混合系统,兰博基尼新混合动力超限西安敞篷车版,限19台
国产SUV崛起了!11.99万跌至10.11万,2.0L爆发385Nm
开宝马7系的只有一种人他的老板开奔驰S级
全新宝马4系红色敞篷版!开出去绝对有面子!网友:S4突然不香了
长城炮越野皮卡:够劲!「试驾视频041」
这座城市SUV营地的新传奇是ES6轿车上的闪光点。
北汽新能源扩张,三电系统升级终身质量保证,目的是什么?
资讯动态
·随着新能源汽车的出现,比亚迪e 600的优势是什么?
·宝马车主将来可以免费使用CarPlay的新功能。
·新宝马5系列外露,双肾增加,正面更专横
·放弃土关越野车,探索越野。不到一个月,主人就发自内心,只说了两个字
·前五大发动机品牌质量低劣,国产发动机上榜,可称为国产车。
·四部委完善新能源汽车补贴政策,国内特斯拉没有上榜
·江淮新越野X8新SUV设计图的发布
·雨山电脑诊断产品使汽车更容易被检测到
·分娩后一周内,最好不要有这三种行为,这对自己和孩子都不好。
·您将如何选择MPV或SUV,用于国产新能源汽车?
Copyright 2009-2011 http://www.021xiw.com All Rights Reserved
版权所有: 上海信息网 网站 联系方式:2820-8476-56