最新消息:请随时分享你的乐趣!

标签:spark

技术博客

spark streaming 优化方案

磊子 1年前 (2016-01-29) 3026浏览 0评论

接上篇 spark streaming driver内存泄露 spark streaming excutor 内存泄露分析 spark streaming突然挂掉-问题分析 使用环境 hadoop 2.7 spark 1.4.1 具体优化 两个优...

技术博客

spark streaming driver内存泄露

磊子 1年前 (2016-01-27) 3520浏览 0评论

症状 spark streaming driver内存一直增长,直到小心脏受不了,凝固在那里不死但是动不了内存爆满。块丢失 环境 amabri hdp 2.3 spark 1.4.1 hadoop/yarn 2.7 yarn-client模式,两个...

技术博客

Spark如何将结果保存为一个文件

磊子 2年前 (2015-11-12) 2257浏览 0评论

问题描述 我们在用spark开发时候经常会保存数据到一个文件中如csv文件,但是spark保存指定的文件夹路径,而且保存的样式是hadoop风格的。 如:rdd.saveAsTextFile("foo") 他会保存为foo/part-XXXXX格式文...

技术博客

Spark-MLlib 1.5.1 机器学习库

磊子 2年前 (2015-10-22) 1890浏览 0评论

Spark机器学习库 (MLlib) 导读 翻译自: http://spark.apache.org/docs/1.5.1/mllib-guide.html MLLIB 是spark的一个机器学习的库。 它的目标是使实用机器学习可伸缩的和容易。 它...

知识无边

spark streaming & kafka Receiver 突然挂了

磊子 2年前 (2015-09-30) 3232浏览 0评论

背景 Spark Streaming 1.3.1 Kakfa 0.8.2.2.3 这个问题困扰了好久好久,每天早上上班先检查spark streaming 是否在处理数据。结果很失望。 然后百度(坑)就不说了,Google了好久也没有找到问题。 原本...