普票是什么 普票是什么樣的發(fā)票
2022-12-03
更新時間:2022-06-14 16:06:08作者:佚名
rdd的特點如下:
1、RDD是Spark提供的核心抽象,全稱為Resillient Distributed Dataset,即彈性分布式數(shù)據(jù)集。
2、RDD在抽象上來說是一種元素集合,包含了數(shù)據(jù)。它是被分區(qū)的,分為多個分區(qū),每個分區(qū)分布在集群中的不同節(jié)點上,從而讓RDD中的數(shù)據(jù)可以被并行操作。
3、RDD通常通過Hadoop上的文件,即HDFS文件或者Hive表,來進行創(chuàng)建;有時也可以通過應(yīng)用程序中的集合來創(chuàng)建。
4、RDD最重要的特性就是,提供了容錯性,可以自動從節(jié)點失敗中恢復(fù)過來。即如果某個節(jié)點上的RDD partition,因為節(jié)點故障,導(dǎo)致數(shù)據(jù)丟了,那么RDD會自動通過自己的數(shù)據(jù)來源重新計算該partition。這一切對使用者是透明的。
5、RDD的數(shù)據(jù)默認(rèn)情況下存放在內(nèi)存中的,但是在內(nèi)存資源不足時,Spark會自動將RDD數(shù)據(jù)寫入磁盤。