数据科学导论续

一、大数据采集的流程和方法

大数据采集的流程和方法

系统日志采集方法

 很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,例如:

  • Flume:分布式日志收集系统,最初由Cloudera开发,现是Apache的一个开源项目。
  • Chukwa:开源分布式数据收集系统,构建在HDFS和MapReduce框架之上。它可以用于监控(2000个以上节点,每天产生数据量在TB级别)Hadoop集群的整体运行情况并对他们的日志进行分析。
  • Scrible:Scribe是facebook开源的日志收集系统,在facebook内部已经得到大量的应用。Scribe为日志的“分布式收集,统一处理”,提供了一个可扩展的、高容错的方案。
  • Kafka:最早是LinkedIn的开发的消息系统,现是Apache的一个开源项目。

Apache Flume

数据库采集方法 

网络数据采集方法

网络爬虫工具基本可以分为3类。

(1)分布式网络爬虫工具,如Nutch。

(2)Java网络爬虫工具,如Crawler4j、WebMagic、WebCollector。

(3)非Java网络爬虫工具,如Scrapy(基于Python语言开发)

通用网络爬虫

二、大数据计算框架概述

大数据计算框架概述

Hadoop

MapReduce

Spark实时处理系统

流计算框架

Storm

 Trident

交互式分析框架

在解决了大数据的可靠存储和高效计算后,如何为数据分析人员提供便利日益受到关注,而最便利的分析方式莫过于交互式查询。这几年交互式分析技术发展迅速,目前这一领域知名的平台有十余个,包括Google开发的Dremel和PowerDrill,Facebook开发的Presto, Hadoop服务商Cloudera和HortonWorks分别开发的Impala和Stinger,以及Apache项目Hive、Drill、Tajo、Kylin、MRQL等。

一些批处理和流计算平台如Spark和Flink也分别内置了交互式分析框架。由于SQL已被业界广泛接受,目前的交互式分析框架都支持用类似SQL的语言进行查询。早期的交互式分析平台建立在Hadoop的基础上,被称作SQL-on-Hadoop。后来的分析平台改用Spark、Storm等引擎,不过SQL-on-Hadoop的称呼还是沿用了下来。SQL-on-Hadoop也指为分布式数据存储提供SQL查询功能。

Hive

Apache Flink

三、云计算概述

云计算本质上是一个分布式的架构,能够为海量数据提供充足的计算和存储资源,充分挖掘。

并行计算

并行计算可分为时间上的并行和空间上的并行。时间上的并行是指流水线技术,而空间上的并行则是指用多个处理器并发地执行计算。

传统意义上的并行与分布式计算的区别是:分布式计算强调的是任务的分布执行,而并行计算强调的是任务的并发执行。

分布式计算

网格计算

云计算

云计算的“云”就是存在于互联网上的服务器集群中的资源,它包括硬件资源(服务器、存储器、CPU等)和软件资源(例如应用软件,集成开发环境等)。

简而言之﹐云计算是一种商业计算模型,它将计算任务分布在由大量计算机构成的资源池上,使用户能够按需获取计算能力,存储空间和信息服务。 不同的学者、机构给出了至少上百种不同的定义

IaaS

PaaS

 SaaS

按部署模式分类

相关推荐

  1. MySQL导入/导出数据

    2024-04-30 07:40:03       22 阅读
  2. mysql数据导出导入

    2024-04-30 07:40:03       22 阅读
  3. 数据结构-数据结构导论

    2024-04-30 07:40:03       42 阅读
  4. Qt中对Udp数据打包发送和接收(

    2024-04-30 07:40:03       36 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-04-30 07:40:03       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-30 07:40:03       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-30 07:40:03       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-30 07:40:03       20 阅读

热门阅读

  1. firefox 浏览器常见问题(技巧)总结

    2024-04-30 07:40:03       13 阅读
  2. conda的一些问题

    2024-04-30 07:40:03       11 阅读
  3. (一)Python3接口自动化测试,request https工具类

    2024-04-30 07:40:03       12 阅读
  4. 摇杆控制电机

    2024-04-30 07:40:03       15 阅读
  5. Docker笔记

    2024-04-30 07:40:03       12 阅读
  6. rpc和http的区别,使⽤场景

    2024-04-30 07:40:03       13 阅读
  7. 李沐72_深度学习优化算法——自学笔记

    2024-04-30 07:40:03       10 阅读
  8. 利用Python生成器和迭代器高效处理大数据文件

    2024-04-30 07:40:03       10 阅读
  9. 99个Python函数语法从小白进阶大佬

    2024-04-30 07:40:03       12 阅读