• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

Spark 编程指南

RSS
  • Spark配置
    Spark配置
    Spark配置Spark提供三个位置用来配置系统:Spark properties控制大部分的应用程序参数,可以用SparkConf对象或者java系统属性设置Environment variables可以通过每个节点的conf/spa_来自Spark 编程指南 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:11 | 阅读:186 | 回复:0
  • Spark GraphX图操作符
    Spark GraphX图操作符
    Spark GraphX图操作符正如RDDs有基本的操作map, filter和reduceByKey一样,属性图也有基本的集合操作,这些操作采用用户自定义的函数并产生包含转换特征和结构的新图。定义在Graph中的核心操作是经过优化的实现。表 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:11 | 阅读:216 | 回复:0
  • Spark GraphX Pregel API
    Spark GraphX Pregel API
    Spark GraphXPregel API图本身是递归数据结构,顶点的属性依赖于它们邻居的属性,这些邻居的属性又依赖于自己邻居的属性。所以许多重要的图算法都是迭代的重新计算每个顶点的属性,直到满足某个确定的条件。一系列的 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:11 | 阅读:202 | 回复:0
  • Spark GraphX图构造者
    Spark GraphX图构造者
    Spark GraphX图构造者GraphX提供了几种方式从RDD或者磁盘上的顶点和边集合构造图。默认情况下,没有哪个图构造者为图的边重新分区,而是把边保留在默认的分区中(例如HDFS中它们的原始块)。Graph.groupEdges:Grap_ ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:11 | 阅读:183 | 回复:0
  • Spark GraphX顶点和边RDDs
    Spark GraphX顶点和边RDDs
    Spark GraphX顶点和边RDDsGraphX暴露保存在图中的顶点和边的RDD。然而,因为GraphX包含的顶点和边拥有优化的数据结构,这些数据结构提供了额外的功能。顶点和边分别返回VertexRDD和EdgeRDD。这一章我们将学习它们_来 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:11 | 阅读:189 | 回复:0
  • GraphX编程指南
    GraphX编程指南
    GraphX编程指南GraphX是一个新的(alpha)Spark API,它用于图和并行图(graph-parallel)的计算。GraphX通过引入Resilient Distributed Property Graph:带有顶点和边属_来自Spark 编程指南 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:10 | 阅读:181 | 回复:0
  • Spark GraphX开始
    Spark GraphX开始
    开始开始的第一步是引入Spark和GraphX到你的项目中,如下面所示import org.apache.spark._import org.apache.spark.graphx._// To make some of the examp_来自Spark 编程指南……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:10 | 阅读:182 | 回复:0
  • Spark GraphX图算法
    Spark GraphX图算法
    Spark GraphX图算法GraphX包括一组图算法来简化分析任务。这些算法包含在org.apache.spark.graphx.lib包中,可以被直接访问。PageRank算法PageRank度量一个图中每个顶点的重要程度,假定从u到v的_来自Spark 编程指南 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:10 | 阅读:203 | 回复:0
  • Spark GraphX例子
    Spark GraphX例子
    Spark GraphX例子假定我们想从一些文本文件中构建一个图,限制这个图包含重要的关系和用户,并且在子图上运行page-rank,最后返回与top用户相关的属性。可以通过如下方式实现。// Connect to the Spark clus_来自Spa ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:10 | 阅读:200 | 回复:0
  • Spark GraphX提交应用程序
    Spark GraphX提交应用程序
    Spark GraphX提交应用程序在Spark bin目录下的spark-submit可以用来在集群上启动应用程序。它可以通过统一的接口使用Spark支持的所有集群管理器,所有你不必为每一个管理器做相应的配置。用spark-submit启动应_来自S ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:10 | 阅读:210 | 回复:0
  • 独立运行Spark
    独立运行Spark
    Spark独立部署模式安装Spark独立模式集群安装Spark独立模式,你只需要将Spark的编译版本简单的放到集群的每个节点。你可以获得每个稳定版本的预编译版本,也可以自己编译。手动启动集群你能够通过下面的方式启动独立 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:10 | 阅读:188 | 回复:0
  • 在yarn上运行Spark
    在yarn上运行Spark
    在YARN上运行Spark配置大部分为Spark on YARN模式提供的配置与其它部署模式提供的配置相同。下面这些是为Spark on YARN模式提供的配置。Spark属性Property NameDefaultMeaning_来自Spark 编程指南 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:10 | 阅读:195 | 回复:0
  • Spark GraphX属性图
    Spark GraphX属性图
    Spark GraphX属性图属性图是一个有向多重图,它带有连接到每个顶点和边的用户定义的对象。有向多重图中多个并行(parallel)的边共享相同的源和目的地顶点。支持并行边的能力简化了建模场景,这个场景中,相同的顶点存 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:10 | 阅读:179 | 回复:0
  • 编写语言集成(Language-Integrated)的相关查询
    编写语言集成(Language-Integrated)的相关查询
    编写语言集成(Language-Integrated)的相关查询语言集成的相关查询是实验性的,现在暂时只支持scala。Spark SQL也支持用领域特定语言编写查询。// sc is an existing SparkContext._来自Spark 编程指南 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:09 | 阅读:217 | 回复:0
  • Spark SQL数据类型
    Spark SQL数据类型
    Spark SQL数据类型数字类型ByteType:代表一个字节的整数。范围是-128到127ShortType:代表两个字节的整数。范围是-32768到32767IntegerType:代表4个字节的整数。范围是-2147483_来自Spark 编程指南 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:09 | 阅读:187 | 回复:0
  • Spark SQL数据源
    Spark SQL数据源
    数据源Spark SQL支持通过SchemaRDD接口操作各种数据源。一个SchemaRDD能够作为一个一般的RDD被操作,也可以被注册为一个临时的表。注册一个SchemaRDD为一个表就可以允许你在其数据上运行SQL查询。这节描述了加载数据 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:09 | 阅读:203 | 回复:0
  • Spark SQL RDDs
    Spark SQL RDDs
    RDDsSpark支持两种方法将存在的RDDs转换为SchemaRDDs。第一种方法使用反射来推断包含特定对象类型的RDD的模式(schema)。在你写spark程序的同时,当你已经知道了模式,这种基于反射的方法可以使代码更简洁并且程序工 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:09 | 阅读:215 | 回复:0
  • Spark SQL parquet文件
    Spark SQL parquet文件
    Parquet文件Parquet是一种柱状(columnar)格式,可以被许多其它的数据处理系统支持。Spark SQL提供支持读和写Parquet文件的功能,这些文件可以自动地保留原始数据的模式。加载数据// sqlContext from_来自Spark 编程 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:09 | 阅读:201 | 回复:0
  • Spark SQL JSON数据集
    Spark SQL JSON数据集
    Spark SQLJSON数据集Spark SQL能够自动推断JSON数据集的模式,加载它为一个SchemaRDD。这种转换可以通过下面两种方法来实现jsonFile :从一个包含JSON文件的目录中加载。文件中的每一行是一个JSO_来自Spark 编程指南 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:09 | 阅读:221 | 回复:0
  • Spark SQL Hive表
    Spark SQL Hive表
    Hive表Spark SQL也支持从Apache Hive中读出和写入数据。然而,Hive有大量的依赖,所以它不包含在Spark集合中。可以通过-Phive和-Phive-thriftserver参数构建Spark,使其支持Hive。注意这个重_来自Spark 编程指南 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:09 | 阅读:178 | 回复:0
  • Spark Streaming减少批数据的执行时间
    Spark Streaming减少批数据的执行时间
    Spark Streaming减少批数据的执行时间在Spark中有几个优化可以减少批处理的时间。这些可以在优化指南中作了讨论。这节重点讨论几个重要的。数据接收的并行水平通过网络(如kafka,flume,socket等)接收数据需要这些数 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:08 | 阅读:178 | 回复:0
  • Spark Streaming设置正确的批容量
    Spark Streaming设置正确的批容量
    设置正确的批容量为了Spark Streaming应用程序能够在集群中稳定运行,系统应该能够以足够的速度处理接收的数据(即处理速度应该大于或等于接收数据的速度)。这可以通过流的网络UI观察得到。批处理时间应该小于批间 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:08 | 阅读:175 | 回复:0
  • Spark Streaming内存调优
    Spark Streaming内存调优
    内存调优调整内存的使用以及Spark应用程序的垃圾回收行为已经在Spark优化指南中详细介绍。在这一节,我们重点介绍几个强烈推荐的自定义选项,它们可以减少Spark Streaming应用程序垃圾回收的相关暂停,获得更稳定的 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:08 | 阅读:185 | 回复:0
  • Spark Streaming容错语义
    Spark Streaming容错语义
    Spark Streaming容错语义这一节,我们将讨论在节点错误事件时Spark Streaming的行为。为了理解这些,让我们先记住一些Spark RDD的基本容错语义。一个RDD是不可变的、确定可重复计算的、分布式数据集。每个RDD记住一_ ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:08 | 阅读:174 | 回复:0
  • Spark SQL
    Spark SQL
    Spark SQLSpark SQL允许Spark执行用SQL, HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。SchemaRDDs由行对象组成,行对象拥有一个模式(scheme)来描述行_来自Spark 编程指南 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:08 | 阅读:209 | 回复:0
  • Spark SQL开始
    Spark SQL开始
    Spark SQL开始Spark中所有相关功能的入口点是SQLContext类或者它的子类,创建一个SQLContext的所有需要仅仅是一个SparkContext。val sc: SparkContext // An existing Spa_来自Spark 编程指南 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:08 | 阅读:185 | 回复:0
  • Spark SQL性能调优
    Spark SQL性能调优
    Spark SQL性能调优对于某些工作负载,可以在通过在内存中缓存数据或者打开一些实验选项来提高性能。在内存中缓存数据Spark SQL可以通过调用sqlContext.cacheTable(tableName)方法来缓_来自Spark 编程指南 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:08 | 阅读:191 | 回复:0
  • Spark SQL其他接口
    Spark SQL其他接口
    Spark SQL其它接口Spark SQL也支持直接运行SQL查询的接口,不用写任何代码。运行Thrift JDBC/ODBC服务器这里实现的Thrift JDBC/ODBC服务器与Hive 0.12中的HiveServer2相一致。你可以用_来自Spark 编程指南 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:08 | 阅读:216 | 回复:0
  • 输入DStreams
    输入DStreams
    输入DStreams和receivers输入DStreams表示从数据源获取输入数据流的DStreams。在快速例子中,lines表示输入DStream,它代表从netcat服务器获取的数据流。每一个输入流DStream和一个Receive_来自Spark 编程指南 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:07 | 阅读:194 | 回复:0
  • DStream中的转换
    DStream中的转换
    DStream中的转换(transformation)和RDD类似,transformation允许从输入DStream来的数据被修改。DStreams支持很多在RDD中可用的transformation算子。一些常用的算子如下所示:Tr_来自Spark 编程指南 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:07 | 阅读:197 | 回复:0
  • DStream的输出操作
    DStream的输出操作
    DStreams上的输出操作输出操作允许DStream的操作推到如数据库、文件系统等外部系统中。因为输出操作实际上是允许外部系统消费转换后的数据,它们触发的实际操作是DStream转换。目前,定义了下面几种输出操作:Output ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:07 | 阅读:184 | 回复:0
  • DStreams缓存或持久化
    DStreams缓存或持久化
    缓存或持久化和RDD相似,DStreams也允许开发者持久化流数据到内存中。在DStream上使用persist()方法可以自动地持久化DStream中的RDD到内存中。如果DStream中的数据需要计算多次,这是非常有用的。像reduceBy_来自Spa ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:07 | 阅读:175 | 回复:0
  • Spark Streaming Checkpointing
    Spark Streaming Checkpointing
    Spark StreamingCheckpointing一个流应用程序必须全天候运行,所有必须能够解决应用程序逻辑无关的故障(如系统错误,JVM崩溃等)。为了使这成为可能,Spark Streaming需要checkpoint足够的_来自Spark 编程指南 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:07 | 阅读:183 | 回复:0
  • Spark Streaming部署应用程序
    Spark Streaming部署应用程序
    Spark Streaming部署应用程序Requirements运行一个Spark Streaming应用程序,有下面一些步骤有管理器的集群-这是任何Spark应用程序都需要的需求,详见部署指南将应用程序打为jar包-你必须编译你的应用程序为_来自Spa ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:07 | 阅读:191 | 回复:0
  • Spark Streaming监控应用程序
    Spark Streaming监控应用程序
    Spark Streaming监控应用程序除了Spark的监控功能,Spark Streaming增加了一些专有的功能。应用StreamingContext的时候,Spark web UI显示添加的Streaming菜单,用以显示运行的rece_来自Spark 编程指南 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:07 | 阅读:204 | 回复:0
  • Spark Streaming性能调优
    Spark Streaming性能调优
    Spark Streaming性能调优集群中的Spark Streaming应用程序获得最好的性能需要一些调整。这章将介绍几个参数和配置,提高Spark Streaming应用程序的性能。你需要考虑两件事情:高效地利用集群资源减少批数据的处理时_ ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:07 | 阅读:191 | 回复:0
  • Spark RDD 操作
    Spark RDD 操作
    SparkRDD 操作RDDs 支持 2 种类型的操作:转换(transformations) 从已经存在的数据集中创建一个新的数据集;动作(actions) 在数据集上进行计算之后返回一个值到驱动程序。例如,map 是一个转换操作_来自Spark 编程指 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:06 | 阅读:168 | 回复:0
  • Spark RDD持久化
    Spark RDD持久化
    SparkRDD 持久化Spark最重要的一个功能是它可以通过各种操作(operations)持久化(或者缓存)一个集合到内存中。当你持久化一个RDD的时候,每一个节点都将参与计算的所有分区数据存储到内存中,并且这些数据可以被 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:06 | 阅读:196 | 回复:0
  • Spark Streaming
    Spark Streaming
    Spark StreamingSpark streaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。我们可以从kafka、flume、Twitter、 ZeroMQ、Kinesis等源_来自Spark 编程指南 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:06 | 阅读:165 | 回复:0
  • Spark Streaming示例
    Spark Streaming示例
    一个快速的Spark Streaming例子在我们进入如何编写Spark Streaming程序的细节之前,让我们快速地浏览一个简单的例子。在这个例子中,程序从监听TCP套接字的数据服务器获取文本数据,然后计算文本中包含的单词数。做 ...……
    作者:菜鸟教程小白 | 时间:2022-2-2 19:06 | 阅读:179 | 回复:0
12下一页
热门推荐
专题导读
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap