自己动手做大数据系统（第2版）

客户端扫购有惊喜

编辑推荐
"?在本书第1版的基础上，按照离线大数据和流式大数据两个场景进行划分 ?在代码实现上以Python为主，紧贴主流编程语言 ?代码的可用性增强"
内容简介
在第一版的基础上，根据近几年大数据领域近期新出现的各种流行组件，逐个进行介绍，并以两个具体的示例，贯穿各个章节，对组件之间的协同工作关系进行剖析。新增大数据平台架构选型及很好实践案例，大数据治理，流计算开发，flink等流式大数据处理。基于docker的大数据运维部署等部分，书中所使用的示例程序，是基于笔者在进行企业培训时，企业提出的业务需求而展开，示例程序更有代表性。
作者简介

目录
第一部分大数据概述第1章大数据的时代背景及应用落地2 1.1 大数据与“云大物区智”的关联2 1.2 大数据平台的应用优势4 1.3 大数据平台的技术架构选型和产品对比4 第2章大数据系统的安装及配置7 2.1 服务器及操作系统的准备7 2.2 JDK、PYTHON和SCALA8 2.3 HADOOP12 2.3.1 安装环境的确认及文件准备16 2.3.2 配置环境变量及无密码传输16 2.3.3 配置Hadoop的对应参数18 2.3.4 启动并验证Hadoop20 2.4 SQOOP20 2.4.1 Sqoop安装文件的准备22 2.4.2 Sqoop的安装及配置23 2.4.3 Sqoop运行验证24 2.5 HIVE25 2.5.1 安装文件的准备26 2.5.2 配置环境变量和安装MySQL26 2.5.3 配置Hive参数26 2.5.4 验证Hive的相关服务29 2.6 ZOOKEEPER和HBASE29 2.6.1 ZooKeeper安装文件的准备30 2.6.2 ZooKeeper的安装及配置30 2.6.3 ZooKeeper运行验证31 2.6.4 HBase安装文件的准备31 2.6.5 HBase的安装及配置31 2.6.6 HBase运行验证32 2.7 FLUME33 2.8 KAFKA35 2.9 SPARK37 2.9.1 Spark安装文件的准备38 2.9.2 Spark的安装及配置38 2.9.3 Spark运行验证39 2.10 FLINK39 2.11 开源大数据系统各组件的组合40 2.12 CDH41 2.13 FUSIONINSIGHT42 2.14 小结44 第二部分离线大数据处理第3章使用PYTHON爬虫获取数据47 3.1 PYTHON爬虫模块的安装47 3.1.1 requests模块的安装及验证47 3.1.2 Beautiful Soup模块的安装及验证47 3.2 抓取并解析JSON数据49 3.2.1 利用Fiddler找出所抓取的网址49 3.2.2 解析JSON对象51 3.3 抓取并解析HTML中的数据52 3.3.1 使用Beautiful Soup提取网页内容52 3.3.2 保存抓取内容53 3.3.3 不同爬虫模块所适用的场景55 3.4 使用PYTHON提取文章的关键字55 3.4.1 中文分词和关键字的提取55 3.4.2 Python的中文分词模块jieba56 3.4.3 使用自定义词典和停用词57 3.4.4 提取文章的关键字58 3.5 小结60 第4章 HIVE在大数据中的角色61 4.1 HIVE的核心概念及配置使用61 4.1.1 Hive在大数据生态系统中的作用61 4.1.2 Hive的几种使用方法62 4.1.3 使用Tez引擎替代MapReduce65 4.2 概要设计和物理模型的创建68 4.2.1 使用Hive要解决哪些问题68 4.2.2 数据库的概要设计68 4.2.3 物理模型的定义及创建表73 4.3 加载爬虫数据79 4.4 数据的合并、去重和转换80 4.4.1 数据的合并80 4.4.2 利用临时表去掉重复的数据81 4.4.3 使用Hive内置函数转换数据83 4.5 使用UDF实现数据的转换84 4.5.1 用户自定义函数的实现原理84 4.5.2 利用Python实现UDF84 4.5.3 数据进入rpt表87 4.6 使用PYTHON操作HIVE89 4.6.1 安装impyla模块89 4.6.2 使用Python读取数据示例89 4.7 ETL数据调度和数据治理90 4.7.1 数据处理的自动化90 4.7.2 数据治理95 4.8 小结96 第5章使用HBASE实现大数据存储97 5.1 非关系型数据库及HBASE97 5.2 HBASE的几个核心概念98 5.3 HBASE数据操作命令99 5.3.1 HBase客户端99 5.3.2 创建表及插入数据100 5.3.3 按照行键值检索102 5.3.4 扫描检索102 5.3.5 删除表和数据104 5.4 使用PYTHON操作HBASE107 5.4.1 启动HBase Thrift Server107 5.4.2 安装happybase模块107 5.4.3 插入数据及删除数据107 5.4.4 组合查询代码示例109 5.5 把HIVE数据导入HBASE110 5.6 用HIVE外部表读取HBASE数据111 5.7 小结112 第6章 SPARK数据分析引擎113 6.1 SPARK简介113 6.2 SPARK集群的配置及启动114 6.2.1 Spark集群的安装与配置115 6.2.2 作业提交方式116 6.2.3 操作界面的启动类型117 6.2.4 三类Web监控界面119 6.3 调用HIVE数据121 6.3.1 使用beeline客户端121 6.3.2 使用HiveContext对象122 6.3.3 使用Spark SQL123 6.3.4 使用JDBC123 6.4 调用HBASE数据123 6.4.1 设定环境变量123 6.4.2 读数据示例124 6.5 使用PYSPARK进行数据分析126 6.5.1 将RDD转换为DataFrame127 6.5.2 Spark SQL等值连接129 6.5.3 使用matplotlib绘制直方图129 6.6 小结130 第7章使用FLASK实现数据展示131 7.1 FLASK框架简介及站点搭建流程131 7.2 FLASK微框架的特性132 7.3 使用MVC模式搭建项目框架133 7.3.1 访问地址133 7.3.2 MVC模式简介133 7.3.3 项目目录结构134 7.4 检索及加载新闻数据135 7.4.1 模型层的开发135 7.4.2 模型层的单元测试136 7.4.3 控制器层的开发138 7.4.4 控制器层的单元测试139 7.4.5 视图层的开发140 7.5 小结141 第二部分技术点总结141 第三部分流式大数据处理第8章使用FLUME获取网站访问日志145 8.1 FLUME的安装及数据流模型145 8.1.1 Flume简介及安装145 8.1.2 Flume的数据流模型146 8.2 核心组件的配合使用146 8.2.1 6种核心组件146 8.2.2 配置文件147 8.2.3 flume-ng命令148 8.3 各种数据组合的流动方式150 8.3.1 将日志收集至文件150 8.3.2 Sink的多路复用152 8.3.3 使用Avro作为数据源154 8.3.4 Channel的多路复用155 8.4 APACHE服务器的日志格式158 8.5 合并两个网站的日志160 8.6 小结162 第9章 KAFKA的安装、配置及其与FLUME的整合163 9.1 KAFKA的特性及安装、配置163 9.1.1 Kafka的特性和适用场合163 9.1.2 安装、配置Kafka164 9.2 几种术语166 9.3 BROKER的使用方法167 9.3.1 单节点单Broker168 9.3.2 单节点多Broker169 9.3.3 分布式Broker172 9.3.4 分区及偏移量174 9.3.5 分区选择策略176 9.4 分布式生产者/消费者176 9.4.1 两个生产者176 9.4.2 消费者组177 9.5 KAFKA CONNECTOR180 9.5.1 File Source181 9.5.2 File Sink182 9.6 KAFKA和FLUME的整合183 9.6.1 给Flume提供数据183 9.6.2 从Flume中获取数据184 9.7 使用PYTHON连接KAFKA186 9.8 小结187 第10章 REDIS数据库简介188 10.1 REDIS的特点及适用场景188 10.2 REDIS的安装及命令行使用方法188 10.2.1 Redis的安装及启动188 10.2.2 命令行客户端189 10.2.3 5种数据类型190 10.2.4 字符串命令191 10.3 使用PYTHON操作REDIS193 10.4 使用JAVA操作REDIS194 10.5 小结195 第11章 FLINK简介及其与KAFKA的整合196 11.1 FLINK概述及其与SPARK的区别196 11.2 FLINK的架构、特性及工作流程196 11.3 FLINK的安装199 11.3.1 单节点的安装199 11.3.2 集群的安装201 11.3.3 利用ZooKeeper实现Flink的高可用性203 11.4 FLINK的作业提交方式205 11.4.1 以Standalone方式运行205 11.4.2 利用YARN Session运行207 11.4.3 利用Python调用Flink服务212 11.4.4 使用REST API查看状态213 11.5 FLINK-KAFKA CONNECTOR214 11.5.1 Flink为Kafka提供数据215 11.5.2 Flink从Kafka接收数据219 11.6 使用FLINK统计PAGEVIEW221 11.6.1 Flink开发的一般步骤221 11.6.2 Flink DataStream API221 11.6.3 将数据落地至Redis和HBase227 11.7 小结235 第12章网站页面访问量的动态展示236 12.1 百度的ECHARTS图表功能简介236 12.2 页面访问量的动态统计238 12.2.1 模型层的开发239 12.2.2 控制器层的开发242 12.2.3 视图层的开发242 12.3 生成词云图和占比饼图245 12.3.1 词云图模型层的开发245 12.3.2 词云图控制器层的开发248 12.3.3 词云图视图层的开发249 12.3.4 关键字饼图的模型层开发249 12.3.5 关键字饼图的控制器层开发250 12.3.6 关键字饼图的视图层开发251 12.4 访问日志检索252 12.5 小结253 第三部分技术点总结253 第四部分云平台搭建第13章搭建基于云平台的容器级数据系统256 13.1 云平台256 13.1.1 云平台架构256 13.1.2 云平台的搭建及部署259 13.1.3 云平台的高级配置303 13.2 基于云平台的容器集群309 13.2.1 Magnum309 13.2.2 Docker Swarm311 13.2.3 Mesos和Marathon的结合316 13.2.4 Kubernetes323 13.3 基于容器的大数据系统331 13.4 小结339
精彩书评

书摘