Публикация #193 — Data Engineers (@sql

TGStat

Введите текст для поиска

Расширенный поиск каналов

Russian

Язык сайта

Russian English Uzbek
Вход на сайт

Каталог

Каталог каналов и чатов Поиск каналов
Добавить канал/чат
Рейтинги

Рейтинг каналов Рейтинг чатов Рейтинг публикаций
Рейтинги брендов и персон
Аналитика
Поиск по публикациям
Мониторинг Telegram

Data Engineers

21 Nov 2024, 14:40

Открыть в Telegram Поделиться Пожаловаться

Microsoft 𝗣𝘆𝗦𝗽𝗮𝗿𝗸 interview questions for Data Engineer 2024.

1. How would you optimize a PySpark DataFrame operation that involves multiple transformations and is running too slowly on a large dataset?

2. Given a large dataset that doesn’t fit in memory, how would you convert a Pandas DataFrame to a PySpark DataFrame for scalable processing?

3. You have a large dataset with a highly skewed distribution. How would you handle data skewness in PySpark to ensure that your jobs do not fail or take too long to execute?

4. How do you optimize data partitioning in PySpark? When and how would you use repartition() and coalesce()?

5. Write a PySpark code snippet to calculate the moving average of a column for each partition of data, using window functions.

6. How would you handle null values in a PySpark DataFrame when different columns require different strategies (e.g., dropping, replacing, or imputing)?

7. When would you use a broadcast join in PySpark? Provide an example where broadcasting improves performance and explain the limitations.

8. When should you use UDFs instead of built-in PySpark functions, and how do you ensure UDFs are optimized for performance?

Data Engineering Interview Preparation Resources: https://topmate.io/analyst/910180

All the best 👍👍

1.8k 0 10 3

Каталог

Каталог каналов и чатов Подборки каналов Поиск каналов Добавить канал/чат

Рейтинги

Рейтинг каналов Telegram Рейтинг чатов Telegram Рейтинг публикаций Рейтинги брендов и персон

API

API статистики API поиска публикаций API Callback

Наши каналы

@TGStat @TGStat_Chat @telepulse @TGStatAPI

Почитать

Наш блог Исследование Telegram 2019 Исследование Telegram 2021 Исследование Telegram 2023

Контакты

Поддержка Почта Вакансии

Всякая всячина

Пользовательское соглашение Политика конфиденциальности Публичная оферта

Наши боты

@TGStat_Bot @SearcheeBot @TGAlertsBot @tg_analytics_bot @TGStatChatBot

Язык сайта