Big Data - Lotso's Blog

Lotso's Blog

Sign in

Big Data

A collection of 2 posts

Spark 海量数据处理性能优化实战指南：从 60 分钟到 7 分钟的优化之旅

Spark 海量数据处理性能优化实战指南：从 60 分钟到 7 分钟的优化之旅

前言 TL;DR（太长不读版）：本文基于实际的 10 亿行数据处理项目，详细讲述如何通过系统化的优化方法将 Spark 作业的执行时间从 60 分钟优化到 7 分钟，性能提升 8.6 倍。涉及数据倾斜诊断、两阶段 Join、内存优化、Shuffle 优化等深度优化技巧。在大数据时代，Apache Spark 已成为企业数据处理的首选工具。相比 MapReduce，Spark 通过内存计算模型和执行优化大幅提高了对数据的处理能力（在不同情况下，速度可以达到 MR 的 10-100 倍）。然而，仅仅使用 Spark 是不够的。如何优化 Spark 作业以充分发挥其性能潜力，是每个大数据工程师都需要掌握的技能。本文基于我在实际项目中的优化经验，从理论到实践，带你深入了解 Spark

使用 KVM 部署 Hadoop 集群

使用 KVM 部署 Hadoop 集群

在学习 CS5488 时, 在本地 Ubuntu Server22.04部署了 3 节点 Hadoop 集群. 记录部署步骤, 常用命令, 踩坑.