利用R语言实现spark大数据分析与可视化

系统概述在日常业务分析中， R是非常常用的分析工具，而当数据量较大时，用R语言需要需用更多的时间来完成训练模型，spark作为大规模数据计算框架，采用内存计算，可以短时间内完成大量的数据的处理及计算模型，但缺点是不能图形展示， R语言的sparkly则提供了R语言和Spark的接⼝，实现了在数据量大的情况下，应用Spark的快速数据分析和处理能力结合R语言的图形化展示功能，方便

0x12A2A7F

6730人浏览 · 2017-02-23 21:20:14

0x12A2A7F · 2017-02-23 21:20:14 发布

系统概述

在日常业务分析中， R是非常常用的分析工具，而当数据量较大时，用R语言需要需用更多的时间来完成训练模型，spark作为大规模数据计算框架，采用内存计算，可以短时间内完成大量的数据的处理及计算模型，但缺点是不能图形展示， R语言的sparkly则提供了R语言和Spark的接⼝，实现了在数据量大的情况下，应用Spark的快速数据分析和处理能力结合R语言的图形化展示功能，方便业务分析，模型训练，同时R语言还可以与Hadoop，HDFS，Hbase，redis，MongoDB等大数据平台数据实现交互，以及作业递交与分析，本文主要介绍平台的架构方法，以及各个组件基本使用方法。

系统构建与调试

基础环境介绍：
操作系统 RHEL 6.5 / CentoOS 6.5
已安装软件 Hadoop Hbase Hive Spark Redis MongoDB Mysql 等大数据应用软件

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

快讯｜复旦发布全球首篇WAM系统性综述366篇论文绘制技术版图，飞捷科思自研可微分物理引擎Fysics指标超8B模型，维泛智能类脑芯片BiGPU融合ANN与SNN，Sim2Real实证：空间特征泛化远

脑启社区

EM-Core自动驾驶类脑世界模型——全域客观认知底座（V1.0 正式版）

本文档为 EM-Core 自动驾驶认知系统的核心认知底座规范，是 ECC 认知大脑开展推理、预判、决策的**唯一客观依据**。本模型与 MLNF-Mem 记忆中枢完全物理解耦，作为漏斗外侧独立挂载的外置模块（ad-44）运行，仅通过 `WM_QUERY` 标准消息向 ECC-01 情境解析模块和 ECC-03 因果推理模块提供风险向量与属性查询服务，不参与记忆晋升、遗忘或行为决策。适用于全场景自动