Spark 编程指南-OStack程序员社区-中国程序员成长平台

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› 数据库›Spark 编程指南

Spark 编程指南

RSS

Spark配置

Spark配置Spark提供三个位置用来配置系统：Spark properties控制大部分的应用程序参数，可以用SparkConf对象或者java系统属性设置Environment variables可以通过每个节点的conf/spa_来自Spark 编程指南 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:11 | 阅读：186 | 回复：0
Spark GraphX图操作符

Spark GraphX图操作符正如RDDs有基本的操作map, filter和reduceByKey一样，属性图也有基本的集合操作，这些操作采用用户自定义的函数并产生包含转换特征和结构的新图。定义在Graph中的核心操作是经过优化的实现。表 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:11 | 阅读：216 | 回复：0
Spark GraphX Pregel API

Spark GraphXPregel API图本身是递归数据结构，顶点的属性依赖于它们邻居的属性，这些邻居的属性又依赖于自己邻居的属性。所以许多重要的图算法都是迭代的重新计算每个顶点的属性，直到满足某个确定的条件。一系列的 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:11 | 阅读：202 | 回复：0
Spark GraphX图构造者

Spark GraphX图构造者GraphX提供了几种方式从RDD或者磁盘上的顶点和边集合构造图。默认情况下，没有哪个图构造者为图的边重新分区，而是把边保留在默认的分区中（例如HDFS中它们的原始块）。Graph.groupEdges:Grap_ ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:11 | 阅读：183 | 回复：0
Spark GraphX顶点和边RDDs

Spark GraphX顶点和边RDDsGraphX暴露保存在图中的顶点和边的RDD。然而，因为GraphX包含的顶点和边拥有优化的数据结构，这些数据结构提供了额外的功能。顶点和边分别返回VertexRDD和EdgeRDD。这一章我们将学习它们_来 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:11 | 阅读：189 | 回复：0
GraphX编程指南

GraphX编程指南GraphX是一个新的（alpha）Spark API，它用于图和并行图(graph-parallel)的计算。GraphX通过引入Resilient Distributed Property Graph：带有顶点和边属_来自Spark 编程指南 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:10 | 阅读：181 | 回复：0
Spark GraphX开始

开始开始的第一步是引入Spark和GraphX到你的项目中，如下面所示import org.apache.spark._import org.apache.spark.graphx._// To make some of the examp_来自Spark 编程指南……

作者：菜鸟教程小白 | 时间：2022-2-2 19:10 | 阅读：182 | 回复：0
Spark GraphX图算法

Spark GraphX图算法GraphX包括一组图算法来简化分析任务。这些算法包含在org.apache.spark.graphx.lib包中，可以被直接访问。PageRank算法PageRank度量一个图中每个顶点的重要程度，假定从u到v的_来自Spark 编程指南 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:10 | 阅读：203 | 回复：0
Spark GraphX例子

Spark GraphX例子假定我们想从一些文本文件中构建一个图，限制这个图包含重要的关系和用户，并且在子图上运行page-rank，最后返回与top用户相关的属性。可以通过如下方式实现。// Connect to the Spark clus_来自Spa ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:10 | 阅读：200 | 回复：0
Spark GraphX提交应用程序

Spark GraphX提交应用程序在Spark bin目录下的spark-submit可以用来在集群上启动应用程序。它可以通过统一的接口使用Spark支持的所有集群管理器，所有你不必为每一个管理器做相应的配置。用spark-submit启动应_来自S ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:10 | 阅读：210 | 回复：0
独立运行Spark

Spark独立部署模式安装Spark独立模式集群安装Spark独立模式，你只需要将Spark的编译版本简单的放到集群的每个节点。你可以获得每个稳定版本的预编译版本，也可以自己编译。手动启动集群你能够通过下面的方式启动独立 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:10 | 阅读：188 | 回复：0
在yarn上运行Spark

在YARN上运行Spark配置大部分为Spark on YARN模式提供的配置与其它部署模式提供的配置相同。下面这些是为Spark on YARN模式提供的配置。Spark属性Property NameDefaultMeaning_来自Spark 编程指南 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:10 | 阅读：195 | 回复：0
Spark GraphX属性图

Spark GraphX属性图属性图是一个有向多重图，它带有连接到每个顶点和边的用户定义的对象。有向多重图中多个并行(parallel)的边共享相同的源和目的地顶点。支持并行边的能力简化了建模场景，这个场景中，相同的顶点存 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:10 | 阅读：179 | 回复：0
编写语言集成(Language-Integrated)的相关查询

编写语言集成(Language-Integrated)的相关查询语言集成的相关查询是实验性的，现在暂时只支持scala。Spark SQL也支持用领域特定语言编写查询。// sc is an existing SparkContext._来自Spark 编程指南 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:09 | 阅读：217 | 回复：0
Spark SQL数据类型

Spark SQL数据类型数字类型ByteType：代表一个字节的整数。范围是-128到127ShortType：代表两个字节的整数。范围是-32768到32767IntegerType：代表4个字节的整数。范围是-2147483_来自Spark 编程指南 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:09 | 阅读：187 | 回复：0
Spark SQL数据源

数据源Spark SQL支持通过SchemaRDD接口操作各种数据源。一个SchemaRDD能够作为一个一般的RDD被操作，也可以被注册为一个临时的表。注册一个SchemaRDD为一个表就可以允许你在其数据上运行SQL查询。这节描述了加载数据 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:09 | 阅读：203 | 回复：0
Spark SQL RDDs

RDDsSpark支持两种方法将存在的RDDs转换为SchemaRDDs。第一种方法使用反射来推断包含特定对象类型的RDD的模式(schema)。在你写spark程序的同时，当你已经知道了模式，这种基于反射的方法可以使代码更简洁并且程序工 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:09 | 阅读：215 | 回复：0
Spark SQL parquet文件

Parquet文件Parquet是一种柱状(columnar)格式，可以被许多其它的数据处理系统支持。Spark SQL提供支持读和写Parquet文件的功能，这些文件可以自动地保留原始数据的模式。加载数据// sqlContext from_来自Spark 编程 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:09 | 阅读：201 | 回复：0
Spark SQL JSON数据集

Spark SQLJSON数据集Spark SQL能够自动推断JSON数据集的模式，加载它为一个SchemaRDD。这种转换可以通过下面两种方法来实现jsonFile ：从一个包含JSON文件的目录中加载。文件中的每一行是一个JSO_来自Spark 编程指南 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:09 | 阅读：221 | 回复：0
Spark SQL Hive表

Hive表Spark SQL也支持从Apache Hive中读出和写入数据。然而，Hive有大量的依赖，所以它不包含在Spark集合中。可以通过-Phive和-Phive-thriftserver参数构建Spark，使其支持Hive。注意这个重_来自Spark 编程指南 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:09 | 阅读：178 | 回复：0
Spark Streaming减少批数据的执行时间

Spark Streaming减少批数据的执行时间在Spark中有几个优化可以减少批处理的时间。这些可以在优化指南中作了讨论。这节重点讨论几个重要的。数据接收的并行水平通过网络(如kafka，flume，socket等)接收数据需要这些数 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:08 | 阅读：178 | 回复：0
Spark Streaming设置正确的批容量

设置正确的批容量为了Spark Streaming应用程序能够在集群中稳定运行，系统应该能够以足够的速度处理接收的数据（即处理速度应该大于或等于接收数据的速度）。这可以通过流的网络UI观察得到。批处理时间应该小于批间 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:08 | 阅读：175 | 回复：0
Spark Streaming内存调优

内存调优调整内存的使用以及Spark应用程序的垃圾回收行为已经在Spark优化指南中详细介绍。在这一节，我们重点介绍几个强烈推荐的自定义选项，它们可以减少Spark Streaming应用程序垃圾回收的相关暂停，获得更稳定的 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:08 | 阅读：185 | 回复：0
Spark Streaming容错语义

Spark Streaming容错语义这一节，我们将讨论在节点错误事件时Spark Streaming的行为。为了理解这些，让我们先记住一些Spark RDD的基本容错语义。一个RDD是不可变的、确定可重复计算的、分布式数据集。每个RDD记住一_ ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:08 | 阅读：174 | 回复：0
Spark SQL

Spark SQLSpark SQL允许Spark执行用SQL, HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。SchemaRDDs由行对象组成，行对象拥有一个模式（scheme）来描述行_来自Spark 编程指南 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:08 | 阅读：209 | 回复：0
Spark SQL开始

Spark SQL开始Spark中所有相关功能的入口点是SQLContext类或者它的子类，创建一个SQLContext的所有需要仅仅是一个SparkContext。val sc: SparkContext // An existing Spa_来自Spark 编程指南 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:08 | 阅读：185 | 回复：0
Spark SQL性能调优

Spark SQL性能调优对于某些工作负载，可以在通过在内存中缓存数据或者打开一些实验选项来提高性能。在内存中缓存数据Spark SQL可以通过调用sqlContext.cacheTable(tableName)方法来缓_来自Spark 编程指南 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:08 | 阅读：191 | 回复：0
Spark SQL其他接口

Spark SQL其它接口Spark SQL也支持直接运行SQL查询的接口，不用写任何代码。运行Thrift JDBC/ODBC服务器这里实现的Thrift JDBC/ODBC服务器与Hive 0.12中的HiveServer2相一致。你可以用_来自Spark 编程指南 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:08 | 阅读：216 | 回复：0
输入DStreams

输入DStreams和receivers输入DStreams表示从数据源获取输入数据流的DStreams。在快速例子中，lines表示输入DStream，它代表从netcat服务器获取的数据流。每一个输入流DStream和一个Receive_来自Spark 编程指南 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:07 | 阅读：194 | 回复：0
DStream中的转换

DStream中的转换（transformation）和RDD类似，transformation允许从输入DStream来的数据被修改。DStreams支持很多在RDD中可用的transformation算子。一些常用的算子如下所示：Tr_来自Spark 编程指南 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:07 | 阅读：197 | 回复：0
DStream的输出操作

DStreams上的输出操作输出操作允许DStream的操作推到如数据库、文件系统等外部系统中。因为输出操作实际上是允许外部系统消费转换后的数据，它们触发的实际操作是DStream转换。目前，定义了下面几种输出操作：Output ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:07 | 阅读：184 | 回复：0
DStreams缓存或持久化

缓存或持久化和RDD相似，DStreams也允许开发者持久化流数据到内存中。在DStream上使用persist()方法可以自动地持久化DStream中的RDD到内存中。如果DStream中的数据需要计算多次，这是非常有用的。像reduceBy_来自Spa ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:07 | 阅读：175 | 回复：0
Spark Streaming Checkpointing

Spark StreamingCheckpointing一个流应用程序必须全天候运行，所有必须能够解决应用程序逻辑无关的故障（如系统错误，JVM崩溃等）。为了使这成为可能，Spark Streaming需要checkpoint足够的_来自Spark 编程指南 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:07 | 阅读：183 | 回复：0
Spark Streaming部署应用程序

Spark Streaming部署应用程序Requirements运行一个Spark Streaming应用程序，有下面一些步骤有管理器的集群-这是任何Spark应用程序都需要的需求，详见部署指南将应用程序打为jar包-你必须编译你的应用程序为_来自Spa ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:07 | 阅读：191 | 回复：0
Spark Streaming监控应用程序

Spark Streaming监控应用程序除了Spark的监控功能，Spark Streaming增加了一些专有的功能。应用StreamingContext的时候，Spark web UI显示添加的Streaming菜单，用以显示运行的rece_来自Spark 编程指南 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:07 | 阅读：204 | 回复：0
Spark Streaming性能调优

Spark Streaming性能调优集群中的Spark Streaming应用程序获得最好的性能需要一些调整。这章将介绍几个参数和配置，提高Spark Streaming应用程序的性能。你需要考虑两件事情：高效地利用集群资源减少批数据的处理时_ ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:07 | 阅读：191 | 回复：0
Spark RDD 操作

SparkRDD 操作RDDs 支持 2 种类型的操作：转换(transformations) 从已经存在的数据集中创建一个新的数据集；动作(actions) 在数据集上进行计算之后返回一个值到驱动程序。例如，map 是一个转换操作_来自Spark 编程指 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:06 | 阅读：168 | 回复：0
Spark RDD持久化

SparkRDD 持久化Spark最重要的一个功能是它可以通过各种操作（operations）持久化（或者缓存）一个集合到内存中。当你持久化一个RDD的时候，每一个节点都将参与计算的所有分区数据存储到内存中，并且这些数据可以被 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:06 | 阅读：196 | 回复：0
Spark Streaming

Spark StreamingSpark streaming是Spark核心API的一个扩展，它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。我们可以从kafka、flume、Twitter、 ZeroMQ、Kinesis等源_来自Spark 编程指南 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:06 | 阅读：165 | 回复：0
Spark Streaming示例

一个快速的Spark Streaming例子在我们进入如何编写Spark Streaming程序的细节之前，让我们快速地浏览一个简单的例子。在这个例子中，程序从监听TCP套接字的数据服务器获取文本数据，然后计算文本中包含的单词数。做 ...……

作者：菜鸟教程小白 | 时间：2022-2-2 19:06 | 阅读：179 | 回复：0

12 / 2 页下一页

客服电话

电子邮件

Spark 编程指南

关于我们

产品与服务

解决方案

139-2527-9053