C/DAWS : Data Analysis with Spark

4 gün (24 Saat) İleri Seviye Sınıf / Online NoSQL ve Büyük Veri


Spark, temelde açık kaynak olan bir veri işleme platformudur. Hem standalone hem de cluster yapısında çalıştırabileceğiniz bu platformu doğrudan apache sitesinden indirerek veya dağıtımlarını edinerek kullanabilirsiniz. Üstelik bir çok bulut bilişim sağlayıcısı tarafından kendi bulut çözümleri arasında farklı şekillerde hizmet olarak sunulmaktadır. Spark ile Apache Hadoop platformuna göre 100 kat daha hızlı veri işleyebilirsiniz."Data Analysis with Spark" eğitiminden sonra Spark SQL ile veri ambarı ve veri gölleri oluşturabilir, Spark Streaming ile akış halindeki milyonlarca veriyi analiz edebilir, Spark ML ile Makine Öğrenimi çalışmaları yürütebilir, Spark GraphX ile en kısa yol, varlıklar arası ilişkiler gibi çeşitli graph problemlerine çözüm üretebilirsiniz. Bu eğitim Spark ile Veri Analizi konusunda büyük bir ilerleme kaydetmenizi sağlayacak.


Eğitim İçeriği

Introduction to Data Analysis with Spark

  • Spark Architecture
  • Engine and Ecosystem
  • Setting Up Your Environment
  • Introduction to Spark Shells
  • Introduction to Core Spark Concepts
  • Standalone Applications

Programming with RDDs

  • RDD Basics
  • RDD Operations
  • Transformations and Actions
  • Persistence (Caching)
  • Working with Key/Value Pairs
  • Data Partitioning (Advanced)

Loading and Saving Your Data

  • File Formats and Filesystems
  • Structured Data with Spark SQL
  • Databases
  • External Data Sources

Advanced Spark Programming

  • Accumulators
  • Broadcast Variables
  • Piping to External Programs
  • Numeric RDD Operations

Running on a Cluster

  • Spark Runtime Architecture
  • Deploying Applications with spark-submit
  • Cluster Managers

Spark SQL

  • Loading and Saving Data
  • JDBC/ODBC Server
  • User-Defined Functions
  • Spark SQL Performance

Spark Streaming

  • Architecture and Abstraction
  • Transformations and Windowing
  • Output Operations
  • Input Sources
  • Streaming UI

Machine Learning with MLlib

  • Machine Learning Basics
  • Algorithms and ML Problem Types
  • Pipeline API

Connecting the dots with GraphX

  • Graph processing with Spark
  • Graph algorithms

Tuning and Debugging Spark

  • Configuring Spark with SparkConf
  • Components of Execution: Jobs, Tasks, and Stages
  • Spark Web UI and Logs
  • Key Performance Considerations

Öncesinde Önerilenler

Sonrasında Önerilenler