设为首页
收藏本站
设为首页
点击收藏
手机版
手机扫一扫访问
迪恩网络手机版
关注官方公众号
微信扫一扫关注
公众号
忘记密码?
QQ登录
微信登录
登陆
注册
门户
Portal
开源
问答
系统
工作
资讯
论坛
BBS
硬件
编程
漏洞
安全
虚拟化
问答
投稿
文章
帖子
用户
快速发帖
客服电话
点击联系客服
在线时间:8:00-16:00
客服电话
132-9538-2358
电子邮件
[email protected]
APP下载
迪恩网络APP
随时随地掌握行业动态
官方微信
扫描二维码
关注迪恩网络微信公众号
问题反馈
返回顶部
电脑基础
选购指南
故障排查
笔记本
电脑组装
电视盒子
平板电脑
电脑周边
Python
Java
Node.js
c#
Ruby
JSP
LUA
ASP.NET
VBScript
VB.NET
Perl
Erlang
Scala
Julia
JavaScript
VUE
JQuery
Node.js
TypeScript
AJAX
HTML
CSS
BootStrap
综合其他
经典问答
漏洞分析
CVE漏洞
安全教程
安全设置
杀毒防毒
病毒查杀
脚本攻防
入侵防御
工具使用
加密解密
手机安全
安全其他
Docker
网址转二维码
网址缩短
网址转二维码
网址转二维码
qrcode.16892.net
qrcode.55276.net
qrcode.devdocs.uk
qrcode.mlink.in
qrcode.ogeek.cn
qrcode.ostack.cn
qrcode.shenghuobao.net
qrcode.shenzhenjia.cn
qrcode.sqlite.in
qrcode.vigge.cn
qrcode.vigge.net
qrcode.vigges.net
qrcode.wujigu.com
qrcode.xstack.ru
tools.16892.net
tools.55276.net
tools.devdocs.uk
OStack程序员社区-中国程序员成长平台
›
门户
›
编程
›
数据库
›
Spark 编程指南
Spark 编程指南
RSS
Spark配置
Spark配置Spark提供三个位置用来配置系统:Spark properties控制大部分的应用程序参数,可以用SparkConf对象或者java系统属性设置Environment variables可以通过每个节点的conf/spa_来自Spark 编程指南 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:11
|
阅读:186
|
回复:0
Spark GraphX图操作符
Spark GraphX图操作符正如RDDs有基本的操作map, filter和reduceByKey一样,属性图也有基本的集合操作,这些操作采用用户自定义的函数并产生包含转换特征和结构的新图。定义在Graph中的核心操作是经过优化的实现。表 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:11
|
阅读:216
|
回复:0
Spark GraphX Pregel API
Spark GraphXPregel API图本身是递归数据结构,顶点的属性依赖于它们邻居的属性,这些邻居的属性又依赖于自己邻居的属性。所以许多重要的图算法都是迭代的重新计算每个顶点的属性,直到满足某个确定的条件。一系列的 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:11
|
阅读:202
|
回复:0
Spark GraphX图构造者
Spark GraphX图构造者GraphX提供了几种方式从RDD或者磁盘上的顶点和边集合构造图。默认情况下,没有哪个图构造者为图的边重新分区,而是把边保留在默认的分区中(例如HDFS中它们的原始块)。Graph.groupEdges:Grap_ ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:11
|
阅读:183
|
回复:0
Spark GraphX顶点和边RDDs
Spark GraphX顶点和边RDDsGraphX暴露保存在图中的顶点和边的RDD。然而,因为GraphX包含的顶点和边拥有优化的数据结构,这些数据结构提供了额外的功能。顶点和边分别返回VertexRDD和EdgeRDD。这一章我们将学习它们_来 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:11
|
阅读:189
|
回复:0
GraphX编程指南
GraphX编程指南GraphX是一个新的(alpha)Spark API,它用于图和并行图(graph-parallel)的计算。GraphX通过引入Resilient Distributed Property Graph:带有顶点和边属_来自Spark 编程指南 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:10
|
阅读:181
|
回复:0
Spark GraphX开始
开始开始的第一步是引入Spark和GraphX到你的项目中,如下面所示import org.apache.spark._import org.apache.spark.graphx._// To make some of the examp_来自Spark 编程指南……
作者:菜鸟教程小白
|
时间:2022-2-2 19:10
|
阅读:182
|
回复:0
Spark GraphX图算法
Spark GraphX图算法GraphX包括一组图算法来简化分析任务。这些算法包含在org.apache.spark.graphx.lib包中,可以被直接访问。PageRank算法PageRank度量一个图中每个顶点的重要程度,假定从u到v的_来自Spark 编程指南 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:10
|
阅读:203
|
回复:0
Spark GraphX例子
Spark GraphX例子假定我们想从一些文本文件中构建一个图,限制这个图包含重要的关系和用户,并且在子图上运行page-rank,最后返回与top用户相关的属性。可以通过如下方式实现。// Connect to the Spark clus_来自Spa ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:10
|
阅读:200
|
回复:0
Spark GraphX提交应用程序
Spark GraphX提交应用程序在Spark bin目录下的spark-submit可以用来在集群上启动应用程序。它可以通过统一的接口使用Spark支持的所有集群管理器,所有你不必为每一个管理器做相应的配置。用spark-submit启动应_来自S ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:10
|
阅读:210
|
回复:0
独立运行Spark
Spark独立部署模式安装Spark独立模式集群安装Spark独立模式,你只需要将Spark的编译版本简单的放到集群的每个节点。你可以获得每个稳定版本的预编译版本,也可以自己编译。手动启动集群你能够通过下面的方式启动独立 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:10
|
阅读:188
|
回复:0
在yarn上运行Spark
在YARN上运行Spark配置大部分为Spark on YARN模式提供的配置与其它部署模式提供的配置相同。下面这些是为Spark on YARN模式提供的配置。Spark属性Property NameDefaultMeaning_来自Spark 编程指南 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:10
|
阅读:195
|
回复:0
Spark GraphX属性图
Spark GraphX属性图属性图是一个有向多重图,它带有连接到每个顶点和边的用户定义的对象。有向多重图中多个并行(parallel)的边共享相同的源和目的地顶点。支持并行边的能力简化了建模场景,这个场景中,相同的顶点存 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:10
|
阅读:179
|
回复:0
编写语言集成(Language-Integrated)的相关查询
编写语言集成(Language-Integrated)的相关查询语言集成的相关查询是实验性的,现在暂时只支持scala。Spark SQL也支持用领域特定语言编写查询。// sc is an existing SparkContext._来自Spark 编程指南 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:09
|
阅读:217
|
回复:0
Spark SQL数据类型
Spark SQL数据类型数字类型ByteType:代表一个字节的整数。范围是-128到127ShortType:代表两个字节的整数。范围是-32768到32767IntegerType:代表4个字节的整数。范围是-2147483_来自Spark 编程指南 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:09
|
阅读:187
|
回复:0
Spark SQL数据源
数据源Spark SQL支持通过SchemaRDD接口操作各种数据源。一个SchemaRDD能够作为一个一般的RDD被操作,也可以被注册为一个临时的表。注册一个SchemaRDD为一个表就可以允许你在其数据上运行SQL查询。这节描述了加载数据 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:09
|
阅读:203
|
回复:0
Spark SQL RDDs
RDDsSpark支持两种方法将存在的RDDs转换为SchemaRDDs。第一种方法使用反射来推断包含特定对象类型的RDD的模式(schema)。在你写spark程序的同时,当你已经知道了模式,这种基于反射的方法可以使代码更简洁并且程序工 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:09
|
阅读:215
|
回复:0
Spark SQL parquet文件
Parquet文件Parquet是一种柱状(columnar)格式,可以被许多其它的数据处理系统支持。Spark SQL提供支持读和写Parquet文件的功能,这些文件可以自动地保留原始数据的模式。加载数据// sqlContext from_来自Spark 编程 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:09
|
阅读:201
|
回复:0
Spark SQL JSON数据集
Spark SQLJSON数据集Spark SQL能够自动推断JSON数据集的模式,加载它为一个SchemaRDD。这种转换可以通过下面两种方法来实现jsonFile :从一个包含JSON文件的目录中加载。文件中的每一行是一个JSO_来自Spark 编程指南 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:09
|
阅读:221
|
回复:0
Spark SQL Hive表
Hive表Spark SQL也支持从Apache Hive中读出和写入数据。然而,Hive有大量的依赖,所以它不包含在Spark集合中。可以通过-Phive和-Phive-thriftserver参数构建Spark,使其支持Hive。注意这个重_来自Spark 编程指南 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:09
|
阅读:178
|
回复:0
Spark Streaming减少批数据的执行时间
Spark Streaming减少批数据的执行时间在Spark中有几个优化可以减少批处理的时间。这些可以在优化指南中作了讨论。这节重点讨论几个重要的。数据接收的并行水平通过网络(如kafka,flume,socket等)接收数据需要这些数 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:08
|
阅读:178
|
回复:0
Spark Streaming设置正确的批容量
设置正确的批容量为了Spark Streaming应用程序能够在集群中稳定运行,系统应该能够以足够的速度处理接收的数据(即处理速度应该大于或等于接收数据的速度)。这可以通过流的网络UI观察得到。批处理时间应该小于批间 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:08
|
阅读:175
|
回复:0
Spark Streaming内存调优
内存调优调整内存的使用以及Spark应用程序的垃圾回收行为已经在Spark优化指南中详细介绍。在这一节,我们重点介绍几个强烈推荐的自定义选项,它们可以减少Spark Streaming应用程序垃圾回收的相关暂停,获得更稳定的 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:08
|
阅读:185
|
回复:0
Spark Streaming容错语义
Spark Streaming容错语义这一节,我们将讨论在节点错误事件时Spark Streaming的行为。为了理解这些,让我们先记住一些Spark RDD的基本容错语义。一个RDD是不可变的、确定可重复计算的、分布式数据集。每个RDD记住一_ ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:08
|
阅读:174
|
回复:0
Spark SQL
Spark SQLSpark SQL允许Spark执行用SQL, HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。SchemaRDDs由行对象组成,行对象拥有一个模式(scheme)来描述行_来自Spark 编程指南 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:08
|
阅读:209
|
回复:0
Spark SQL开始
Spark SQL开始Spark中所有相关功能的入口点是SQLContext类或者它的子类,创建一个SQLContext的所有需要仅仅是一个SparkContext。val sc: SparkContext // An existing Spa_来自Spark 编程指南 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:08
|
阅读:185
|
回复:0
Spark SQL性能调优
Spark SQL性能调优对于某些工作负载,可以在通过在内存中缓存数据或者打开一些实验选项来提高性能。在内存中缓存数据Spark SQL可以通过调用sqlContext.cacheTable(tableName)方法来缓_来自Spark 编程指南 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:08
|
阅读:191
|
回复:0
Spark SQL其他接口
Spark SQL其它接口Spark SQL也支持直接运行SQL查询的接口,不用写任何代码。运行Thrift JDBC/ODBC服务器这里实现的Thrift JDBC/ODBC服务器与Hive 0.12中的HiveServer2相一致。你可以用_来自Spark 编程指南 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:08
|
阅读:216
|
回复:0
输入DStreams
输入DStreams和receivers输入DStreams表示从数据源获取输入数据流的DStreams。在快速例子中,lines表示输入DStream,它代表从netcat服务器获取的数据流。每一个输入流DStream和一个Receive_来自Spark 编程指南 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:07
|
阅读:194
|
回复:0
DStream中的转换
DStream中的转换(transformation)和RDD类似,transformation允许从输入DStream来的数据被修改。DStreams支持很多在RDD中可用的transformation算子。一些常用的算子如下所示:Tr_来自Spark 编程指南 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:07
|
阅读:197
|
回复:0
DStream的输出操作
DStreams上的输出操作输出操作允许DStream的操作推到如数据库、文件系统等外部系统中。因为输出操作实际上是允许外部系统消费转换后的数据,它们触发的实际操作是DStream转换。目前,定义了下面几种输出操作:Output ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:07
|
阅读:184
|
回复:0
DStreams缓存或持久化
缓存或持久化和RDD相似,DStreams也允许开发者持久化流数据到内存中。在DStream上使用persist()方法可以自动地持久化DStream中的RDD到内存中。如果DStream中的数据需要计算多次,这是非常有用的。像reduceBy_来自Spa ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:07
|
阅读:175
|
回复:0
Spark Streaming Checkpointing
Spark StreamingCheckpointing一个流应用程序必须全天候运行,所有必须能够解决应用程序逻辑无关的故障(如系统错误,JVM崩溃等)。为了使这成为可能,Spark Streaming需要checkpoint足够的_来自Spark 编程指南 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:07
|
阅读:183
|
回复:0
Spark Streaming部署应用程序
Spark Streaming部署应用程序Requirements运行一个Spark Streaming应用程序,有下面一些步骤有管理器的集群-这是任何Spark应用程序都需要的需求,详见部署指南将应用程序打为jar包-你必须编译你的应用程序为_来自Spa ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:07
|
阅读:191
|
回复:0
Spark Streaming监控应用程序
Spark Streaming监控应用程序除了Spark的监控功能,Spark Streaming增加了一些专有的功能。应用StreamingContext的时候,Spark web UI显示添加的Streaming菜单,用以显示运行的rece_来自Spark 编程指南 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:07
|
阅读:204
|
回复:0
Spark Streaming性能调优
Spark Streaming性能调优集群中的Spark Streaming应用程序获得最好的性能需要一些调整。这章将介绍几个参数和配置,提高Spark Streaming应用程序的性能。你需要考虑两件事情:高效地利用集群资源减少批数据的处理时_ ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:07
|
阅读:191
|
回复:0
Spark RDD 操作
SparkRDD 操作RDDs 支持 2 种类型的操作:转换(transformations) 从已经存在的数据集中创建一个新的数据集;动作(actions) 在数据集上进行计算之后返回一个值到驱动程序。例如,map 是一个转换操作_来自Spark 编程指 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:06
|
阅读:168
|
回复:0
Spark RDD持久化
SparkRDD 持久化Spark最重要的一个功能是它可以通过各种操作(operations)持久化(或者缓存)一个集合到内存中。当你持久化一个RDD的时候,每一个节点都将参与计算的所有分区数据存储到内存中,并且这些数据可以被 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:06
|
阅读:196
|
回复:0
Spark Streaming
Spark StreamingSpark streaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。我们可以从kafka、flume、Twitter、 ZeroMQ、Kinesis等源_来自Spark 编程指南 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:06
|
阅读:165
|
回复:0
Spark Streaming示例
一个快速的Spark Streaming例子在我们进入如何编写Spark Streaming程序的细节之前,让我们快速地浏览一个简单的例子。在这个例子中,程序从监听TCP套接字的数据服务器获取文本数据,然后计算文本中包含的单词数。做 ...……
作者:菜鸟教程小白
|
时间:2022-2-2 19:06
|
阅读:179
|
回复:0
1
2
/ 2 页
下一页
热门
推荐
More+
专题
导读
More+
热门
话题
More+
阅读
排行榜
返回顶部