Day15-Python基础学习之PySpark

PySpark

安装: pip install pyspark

# pySpark入门
from pyspark import SparkConf, SparkContext
# 创建SparkConf对象
conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
# 基于SparkConf类对象创建SparkContext对象
sc = SparkContext(conf=conf)
# 打印spark运行版本
print(sc.version)
# 停止SparkContext对象的运行
sc.stop()
​
# 加载数据,即数据输入
conf1 = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc1 = SparkContext(conf=conf1)
# 通过parallelize方法将python对象加载到spark内,成为RDD对象
rdd1 = sc1.parallelize([1, 2, 3, 4, 5])
rdd2 = sc1.parallelize((1, 2, 3, 4, 5))
rdd3 = sc1.parallelize("abcdefghijklmnop")
rdd4 = sc1.parallelize({1, 2, 3, 4, 5})
rdd5 = sc1.parallelize({"key1": "value1", "key2": "value2"})
# 要查看rdd里的内容,需要使用collect方法
print(rdd1.collect())
# 注意字典打印出来只有key
sc1.stop()
​
# 读文件通过textFile方法,成为rdd对象
conf2 = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc2 = SparkContext(conf=conf2)
rdd = sc2.textFile("D:/test.txt")
print(rdd.collect())

# 数据计算map方法
from pyspark import SparkContext, SparkConf
import os
os.environ['PYSPARK_PYTHON'] = "D:/Study/Environment/Python/python.exe"
​
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)
​
rdd = sc.parallelize([1, 2, 3, 4, 5])
# 通过map方法将全部数据乘10
def func(data):
    return data*10
rdd2 = rdd.map(func)
print(rdd2.collect())
​
rdd3 = rdd2.map(lambda x: x*10).map(lambda x: x+5)
print(rdd3.collect())

相关推荐

  1. Day15-Python基础学习PySpark

    2024-04-22 11:26:02       32 阅读
  2. Day19-Python基础学习Socket

    2024-04-22 11:26:02       44 阅读
  3. Day17-Python基础学习设计模式

    2024-04-22 11:26:02       35 阅读
  4. Python基础学习Day_06

    2024-04-22 11:26:02       21 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-22 11:26:02       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-22 11:26:02       100 阅读
  3. 在Django里面运行非项目文件

    2024-04-22 11:26:02       82 阅读
  4. Python语言-面向对象

    2024-04-22 11:26:02       91 阅读

热门阅读

  1. CSS简单的选择器

    2024-04-22 11:26:02       34 阅读
  2. Linux第二章

    2024-04-22 11:26:02       32 阅读
  3. AirServer投屏软件

    2024-04-22 11:26:02       48 阅读
  4. 几道练习题八

    2024-04-22 11:26:02       37 阅读
  5. 数据结构中顺序表的应用

    2024-04-22 11:26:02       29 阅读
  6. 使用go_concurrent_map 管理 并发更新缓存

    2024-04-22 11:26:02       36 阅读
  7. html-docx-js网页转为word格式框架

    2024-04-22 11:26:02       33 阅读
  8. Es6Proxy基础用法

    2024-04-22 11:26:02       33 阅读
  9. 笔记:Python 选择结构练习题

    2024-04-22 11:26:02       41 阅读
  10. tcp inflight 守恒算法(tcp_ccr)

    2024-04-22 11:26:02       34 阅读
  11. 将数据库中的数据接入Echarts图表

    2024-04-22 11:26:02       30 阅读
  12. PostCSS概述

    2024-04-22 11:26:02       35 阅读
  13. 环境感知——自动驾驶模型训练(菜鸟版本)

    2024-04-22 11:26:02       30 阅读
  14. 考研依据数学思维导图,整理出的章节知识大纲

    2024-04-22 11:26:02       36 阅读