Войти
  • 990Просмотров
  • 2 месяца назадОпубликованоКорсаков о Data

Kafka в 2025 для дата-инженера: Полный разбор на практике с Python, S3 и ClickHouse.

🔥 В этом видео ты узнаешь всё, что должен знать дата-инженер о Apache Kafka. Показываю реальный практический кейс: как собирать, хранить и анализировать данные событий (clickstream) с помощью Kafka, Python, S3 (MinIO) и ClickHouse. Ссылки: Менторство/консультации по IT – TG канал – Instagram – Habr – GitHub проекта – Инфраструктура для data engineer Kafka – 🔻 Что тебя ждет: • Что такое Kafka, зачем она нужна и как работает принцип WORM (Write Once Read Many) • Как устроены сообщения, топики и группы в Kafka (на живых примерах) • Как писать и читать сообщения в Kafka через Python и CLI • Как собирать clickstream для музыкального сервиса • Как сохранять данные из Kafka в S3 (Minio) в формате Parquet • Как читать данные из Kafka и S3 в ClickHouse • Советы и лучшие практики для дата-инженеров при работе с Kafka • Топовые ошибки, которые совершают новички (и как их избежать) • Сравнение инструментов: Spark, Kafka Connect, NiFi и др. • Рекомендации по выбору формата данных и партиционированию 💡 В конце ролика — советы, которые сэкономят тебе кучу времени и нервов! Таймкоды: 00:00 – Начало 01:04 – Что такое Kafka (Кафка) 03:06 – Свойства и специфика Kafka (Кафки) 03:45 – Что такое Producer (Продюсер) 04:05 – Что такое Consumer (Консумер) 05:10 – Разбор инфраструктуры проекта 06:35 – Запуск кода для записи в Kafka (Кафку) 07:56 – Изучение интерфейса Kafka UI (Кафки) 09:24 – Чтение Kafka (Кафки) через командную строку (CLI) 12:22 – Чтение Kafka (Кафки) через командную строку (CLI) при указании группы и объяснение что такое группа 15:45 – Чем можно читать Kafka (Кафку) 16:45 – Разбор типовой задачи дата-инженера, связанной с Kafka (Кафкой) 17:55 – Разбор ClickStream (кликстрима) 20:25 – Предпочтительный вариант записи в Kafka (Кафку) 22:52 – Запуск ClickStream 24:40 – Простое чтение Kafka (Кафки) через Python (питон) 25:28 – Запись данных из Kafka (Кафки) в s3 через Python (питон) 29:36 – Чтение Kafka (Кафки) и запись в ClickHouse (кликхаус) через ClickHouse (кликхаус) 35:00 – Разбор архитектуры приложения на Python (питоне) для работы с Kafka (Кафкой) 36:42 – Разбор архитектуры приложения на ClickHouse (кликхаус) для работы с Kafka (Кафкой) 37:27 – Модели ClickHouse (кликхауса) для работы с Kafka (Кафкой) 37:38 – Рекомендации #Kafka #DataEngineering #ClickHouse #Python #ETL #S3 #Clickstream #BigData #Streaming #DataAnalytics