C/PSS : PySpark ile Spark SQL

3 gün (18 saat) İleri Sınıf / Online NoSQL ve Büyük Veri


Yetenekli ve geniş kütüphane yelpazesine sahip Python dili ve ister tek bilgisayar, istersek onlarca bilgisayarın gücünü kullanan Spark ile Büyük Veri Analizi yapabilirsiniz. "PySpark ile Spark SQL" eğitiminde Veri Mühendislerinin veri okuma, işleme, dönüştürme, görselleştirme ve depolama konusundaki ihtiyaçlarına odaklanıyoruz. Bu eğitimde güncel Veri Analitiği yaklaşımları ve Veri Modelleri ışığında Spark, Python, SQL üçlüsünün Spark SQL bileşeni ile kullanımları konusunda detaylara vakıf olabileceksiniz.


Eğitim İçeriği

Module 1: Veri Analitiliği

  • Veri Analiziinde Sıkça Yapılan Hatalar
  • Veri Analitiği Tipleri
  • Veri Analizi Süreçleri
  • Veri ve Metaveri Tipleri
  • Veri Yönetimi Modelleri
  • Veri Yönetiminde Teknoloji Evrimi
  • Büyük Veri ve Mücadele Noktaları
  • Ölçeklenirme, MPP Mimarisi ve Dağıtık Mimari
  • Çevik ve İleri Veri Modelleme Teknikleri
  • Lambda ve Delta Mimarileri

Module 2: Apache Spark ile Tanışma

  • Spark Mimarisi ve Bileşenleri
  • Spark Çalışma Ortamının Hazır Edilmesi
  • Spark Shell, VSCode, Jupyter Kullanımı
  • Spark Ortam Değişkenleri
  • RDD, Action, Transformation, Lazy Aggregation
  • Map-Reduce, Broadcast, Shuffle, Accumulators

Module 3: Spark SQL ile Veri İşlemeye Giriş

  • Spark SQL ile Çalışma (Python ve SQL)
  • Spark Session Oluşturma
  • RDD, DataFrame ve Dataset
  • PySpark, HiveQL, Pandas on Spark

Module 4: Spark ile Veri İşleme

  • Yapısal (Databse) ve Yapısal Olmayan (CSV, Json, Parquet vs.) Veri Kaynaklarına Bağlanma
  • Veri Görselleştirme ve Betimleyici İstatistik Teknikleri ile Veri Keşfi
  • Veri Okuma, Filtreleme, Gruplama, Birleştirme vs.
  • UDF ile Çalışma
  • Diller Arasında Geçiş Yaparak Veri İşleme
  • Spark ML Pipeline ile Veri Dönüştürme
  • Spark MetaStore ile Çalışmak
  • Spark ile Veri Depolama Çeşitleri (Managed / Unmanaged Table)
  • Delta Disk Yapısı ve Tablo Tipi
  • Partitionlar ile Verinin Organize Edilmesi

Module 5: Spark Üzerinde Akan Veri Analizine Giriş

  • Batch vs Stream Veri
  • Spark Streaming vs Structured Streaming
  • Akan Veri Kaynakların Okunması
  • Akan Verinin Analizinde Pencereleme ve Sınırsız Tablo ile Çalışma
  • Akan Verinin Sorgulanması, Dönüştürülmesi ve Depolanması

Module 6: AirFlow ile Tanışma

  • AirFlow Nedir ve Ne işe Yarar?
  • AirFlow Bileşenleri
  • AirFlow ile DAG (Workflow) Oluşturma
  • Python ile DAG Zamanlama

Module 7: Spark Ayarları

  • SparkConf ile konfigurasyon
  • Job, Task ve Stage, DAG vs
  • Spark Web UI ve Loglar
  • Performans İyileştirme İpuçları

Öncesinde Önerilenler

Sonrasında Önerilenler