Lotso's Blog
  • Home
  • About
Sign in

Big Data

A collection of 2 posts
Spark 海量数据处理性能优化实战指南:从 60 分钟到 7 分钟的优化之旅
Big Data

Spark 海量数据处理性能优化实战指南:从 60 分钟到 7 分钟的优化之旅

前言 TL;DR(太长不读版):本文基于实际的 10 亿行数据处理项目,详细讲述如何通过系统化的优化方法将 Spark 作业的执行时间从 60 分钟优化到 7 分钟,性能提升 8.6 倍。涉及数据倾斜诊断、两阶段 Join、内存优化、Shuffle 优化等深度优化技巧。 在大数据时代,Apache Spark 已成为企业数据处理的首选工具。相比 MapReduce,Spark 通过内存计算模型和执行优化大幅提高了对数据的处理能力(在不同情况下,速度可以达到 MR 的 10-100 倍)。 然而,仅仅使用 Spark 是不够的。如何优化 Spark 作业以充分发挥其性能潜力,是每个大数据工程师都需要掌握的技能。 本文基于我在实际项目中的优化经验,从理论到实践,带你深入了解 Spark
14 Jan 2026 17 min read
使用 KVM 部署 Hadoop 集群
Hadoop

使用 KVM 部署 Hadoop 集群

在学习 CS5488 时, 在本地 Ubuntu Server22.04部署了 3 节点 Hadoop 集群. 记录部署步骤, 常用命令, 踩坑.
16 Nov 2025 22 min read
Page 1 of 1
Lotso's Blog © 2026
  • Sign up
Powered by Ghost