home.social

#грязные_данные — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #грязные_данные, aggregated by home.social.

  1. [Перевод] Укрощение «диких» CSV: продвинутые техники DuckDB для инженеров данных

    CSV-файлы редко бывают такими простыми, какими кажутся на первый взгляд. За внешней структурой часто скрываются проблемы с типами, разделителями, схемами и «сломанными» строками, из-за которых загрузка данных превращается в цепочку костылей и ручной предобработки. В этой статье — практический разбор того, как DuckDB позволяет диагностировать и обрабатывать такие случаи прямо в SQL: от понимания того, как система интерпретирует файл, до устойчивой загрузки и работы с неконсистентными данными. Разобраться в CSV

    habr.com/ru/companies/otus/art

    #CSV #DuckDB #обработка_данных #грязные_данные #качество_данных #импорт_данных #data_engineering #etl

  2. [Перевод] Укрощение «диких» CSV: продвинутые техники DuckDB для инженеров данных

    CSV-файлы редко бывают такими простыми, какими кажутся на первый взгляд. За внешней структурой часто скрываются проблемы с типами, разделителями, схемами и «сломанными» строками, из-за которых загрузка данных превращается в цепочку костылей и ручной предобработки. В этой статье — практический разбор того, как DuckDB позволяет диагностировать и обрабатывать такие случаи прямо в SQL: от понимания того, как система интерпретирует файл, до устойчивой загрузки и работы с неконсистентными данными. Разобраться в CSV

    habr.com/ru/companies/otus/art

    #CSV #DuckDB #обработка_данных #грязные_данные #качество_данных #импорт_данных #data_engineering #etl

  3. [Перевод] Укрощение «диких» CSV: продвинутые техники DuckDB для инженеров данных

    CSV-файлы редко бывают такими простыми, какими кажутся на первый взгляд. За внешней структурой часто скрываются проблемы с типами, разделителями, схемами и «сломанными» строками, из-за которых загрузка данных превращается в цепочку костылей и ручной предобработки. В этой статье — практический разбор того, как DuckDB позволяет диагностировать и обрабатывать такие случаи прямо в SQL: от понимания того, как система интерпретирует файл, до устойчивой загрузки и работы с неконсистентными данными. Разобраться в CSV

    habr.com/ru/companies/otus/art

    #CSV #DuckDB #обработка_данных #грязные_данные #качество_данных #импорт_данных #data_engineering #etl

  4. [Перевод] Укрощение «диких» CSV: продвинутые техники DuckDB для инженеров данных

    CSV-файлы редко бывают такими простыми, какими кажутся на первый взгляд. За внешней структурой часто скрываются проблемы с типами, разделителями, схемами и «сломанными» строками, из-за которых загрузка данных превращается в цепочку костылей и ручной предобработки. В этой статье — практический разбор того, как DuckDB позволяет диагностировать и обрабатывать такие случаи прямо в SQL: от понимания того, как система интерпретирует файл, до устойчивой загрузки и работы с неконсистентными данными. Разобраться в CSV

    habr.com/ru/companies/otus/art

    #CSV #DuckDB #обработка_данных #грязные_данные #качество_данных #импорт_данных #data_engineering #etl

  5. Интеграционные тесты в Go: как избавиться от флаков и боли

    Всем привет! Меня зовут Александр Голубь, и я пишу на Go уже 7 лет. Когда я только начинал, казалось, что юнит-тестов достаточно. Функции проверены, сборка зелёная — можно релизить. Но первый же боевой проект показал, что это иллюзия. В продакшене всё падает, хотя юниты сияют зелёным. Почему? Потому что реальный сервис — это не только код, но и PostgreSQL, Redis, Kafka, внешние API. Данные проходят через цепочку зависимостей, и любая несовместимость ломает систему. Юнит-тесты этого не ловят. Тут нужны интеграционные.

    habr.com/ru/companies/netology

    #флаки #интеграционные_тесты #go #грязные_данные #асинхронная_доставка #eventually #shared_state #dockertest #тестирование #golang