#mapreduce — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #mapreduce, aggregated by home.social.
-
🚀✨ Behold, the thrilling tale of querying 3 billion vectors—a journey where Vicki Boykis heroically attempts to decode Jeff Dean's cryptic wisdom on #mapreduce. Spoiler: It's basically a nerdy treasure hunt for semantically similar items, but with more floating-point numbers than your brain can handle. 💻🧠
https://vickiboykis.com/2026/02/21/querying-3-billion-vectors/ #HackerNews #VickiBoykis #treasureHunt #techJourney #floatingPoint #HackerNews #ngated -
🚀✨ Behold, the thrilling tale of querying 3 billion vectors—a journey where Vicki Boykis heroically attempts to decode Jeff Dean's cryptic wisdom on #mapreduce. Spoiler: It's basically a nerdy treasure hunt for semantically similar items, but with more floating-point numbers than your brain can handle. 💻🧠
https://vickiboykis.com/2026/02/21/querying-3-billion-vectors/ #HackerNews #VickiBoykis #treasureHunt #techJourney #floatingPoint #HackerNews #ngated -
🚀✨ Behold, the thrilling tale of querying 3 billion vectors—a journey where Vicki Boykis heroically attempts to decode Jeff Dean's cryptic wisdom on #mapreduce. Spoiler: It's basically a nerdy treasure hunt for semantically similar items, but with more floating-point numbers than your brain can handle. 💻🧠
https://vickiboykis.com/2026/02/21/querying-3-billion-vectors/ #HackerNews #VickiBoykis #treasureHunt #techJourney #floatingPoint #HackerNews #ngated -
🚀✨ Behold, the thrilling tale of querying 3 billion vectors—a journey where Vicki Boykis heroically attempts to decode Jeff Dean's cryptic wisdom on #mapreduce. Spoiler: It's basically a nerdy treasure hunt for semantically similar items, but with more floating-point numbers than your brain can handle. 💻🧠
https://vickiboykis.com/2026/02/21/querying-3-billion-vectors/ #HackerNews #VickiBoykis #treasureHunt #techJourney #floatingPoint #HackerNews #ngated -
Обучаем ML-модели и запускаем batch-инференс на YTsaurus, как в Яндексе
Привет! Меня зовут Алексей Архипенко, я руковожу группой разработки ML‑инфраструктуры в команде YTsaurus. Мы часть Yandex Infrastructure и предоставляем пользователям внутри Яндекса инфраструктурный фундамент для самых разных задач машинного обучения. YTsaurus — основная платформа для хранения и обработки данных Яндекса, которая доступна на GitHub под лицензией Apache 2.0. Это позволяет всем желающим загрузить систему на свои серверы, а также дорабатывать её под свои нужды. Мы уже писали в прошлых постах про её выход в опенсорс и дальнейшее развитие , а также кейсы использования в рекламе . Сегодня расскажу, как Яндекс запускает в ней почти все ML‑обучения и batch‑инференс.
https://habr.com/ru/companies/yandex/articles/979336/
#ytsaurus #ml #batch_processing #gpu #gpu_вычисления #mapreduce #map_reduce
-
Обучаем ML-модели и запускаем batch-инференс на YTsaurus, как в Яндексе
Привет! Меня зовут Алексей Архипенко, я руковожу группой разработки ML‑инфраструктуры в команде YTsaurus. Мы часть Yandex Infrastructure и предоставляем пользователям внутри Яндекса инфраструктурный фундамент для самых разных задач машинного обучения. YTsaurus — основная платформа для хранения и обработки данных Яндекса, которая доступна на GitHub под лицензией Apache 2.0. Это позволяет всем желающим загрузить систему на свои серверы, а также дорабатывать её под свои нужды. Мы уже писали в прошлых постах про её выход в опенсорс и дальнейшее развитие , а также кейсы использования в рекламе . Сегодня расскажу, как Яндекс запускает в ней почти все ML‑обучения и batch‑инференс.
https://habr.com/ru/companies/yandex/articles/979336/
#ytsaurus #ml #batch_processing #gpu #gpu_вычисления #mapreduce #map_reduce
-
Обучаем ML-модели и запускаем batch-инференс на YTsaurus, как в Яндексе
Привет! Меня зовут Алексей Архипенко, я руковожу группой разработки ML‑инфраструктуры в команде YTsaurus. Мы часть Yandex Infrastructure и предоставляем пользователям внутри Яндекса инфраструктурный фундамент для самых разных задач машинного обучения. YTsaurus — основная платформа для хранения и обработки данных Яндекса, которая доступна на GitHub под лицензией Apache 2.0. Это позволяет всем желающим загрузить систему на свои серверы, а также дорабатывать её под свои нужды. Мы уже писали в прошлых постах про её выход в опенсорс и дальнейшее развитие , а также кейсы использования в рекламе . Сегодня расскажу, как Яндекс запускает в ней почти все ML‑обучения и batch‑инференс.
https://habr.com/ru/companies/yandex/articles/979336/
#ytsaurus #ml #batch_processing #gpu #gpu_вычисления #mapreduce #map_reduce
-
Обучаем ML-модели и запускаем batch-инференс на YTsaurus, как в Яндексе
Привет! Меня зовут Алексей Архипенко, я руковожу группой разработки ML‑инфраструктуры в команде YTsaurus. Мы часть Yandex Infrastructure и предоставляем пользователям внутри Яндекса инфраструктурный фундамент для самых разных задач машинного обучения. YTsaurus — основная платформа для хранения и обработки данных Яндекса, которая доступна на GitHub под лицензией Apache 2.0. Это позволяет всем желающим загрузить систему на свои серверы, а также дорабатывать её под свои нужды. Мы уже писали в прошлых постах про её выход в опенсорс и дальнейшее развитие , а также кейсы использования в рекламе . Сегодня расскажу, как Яндекс запускает в ней почти все ML‑обучения и batch‑инференс.
https://habr.com/ru/companies/yandex/articles/979336/
#ytsaurus #ml #batch_processing #gpu #gpu_вычисления #mapreduce #map_reduce
-
Создаём мини-фреймворк для MapReduce в Scala с конкретной реализацией
Статья демонстрирует построение минималистичного MapReduce-фреймворка на Scala для локальных экспериментов. Рассматриваются стадии Map , Shuffle и Reduce с ленивыми вычислениями через Iterator , а также абстракции ввода/вывода IO и локальные исполнители с виртуальными потоками.
https://habr.com/ru/articles/966986/
#MapReduce #Scala #java21 #многопоточность #функциональное_программирование #sbt #фреймворк #jvm #bigdata #data_engineering
-
Создаём мини-фреймворк для MapReduce в Scala с конкретной реализацией
Статья демонстрирует построение минималистичного MapReduce-фреймворка на Scala для локальных экспериментов. Рассматриваются стадии Map , Shuffle и Reduce с ленивыми вычислениями через Iterator , а также абстракции ввода/вывода IO и локальные исполнители с виртуальными потоками.
https://habr.com/ru/articles/966986/
#MapReduce #Scala #java21 #многопоточность #функциональное_программирование #sbt #фреймворк #jvm #bigdata #data_engineering
-
Создаём мини-фреймворк для MapReduce в Scala с конкретной реализацией
Статья демонстрирует построение минималистичного MapReduce-фреймворка на Scala для локальных экспериментов. Рассматриваются стадии Map , Shuffle и Reduce с ленивыми вычислениями через Iterator , а также абстракции ввода/вывода IO и локальные исполнители с виртуальными потоками.
https://habr.com/ru/articles/966986/
#MapReduce #Scala #java21 #многопоточность #функциональное_программирование #sbt #фреймворк #jvm #bigdata #data_engineering
-
Создаём мини-фреймворк для MapReduce в Scala с конкретной реализацией
Статья демонстрирует построение минималистичного MapReduce-фреймворка на Scala для локальных экспериментов. Рассматриваются стадии Map , Shuffle и Reduce с ленивыми вычислениями через Iterator , а также абстракции ввода/вывода IO и локальные исполнители с виртуальными потоками.
https://habr.com/ru/articles/966986/
#MapReduce #Scala #java21 #многопоточность #функциональное_программирование #sbt #фреймворк #jvm #bigdata #data_engineering
-
Распределенные вычисления в Apache Ignite 3
В статье разбираются возможности распределённых вычислений в Apache Ignite 3 . Покажу, как развернуть кластер в Docker, задеплоить собственные джобы и сравнить Ignite 3 с предыдущей версией. Затронем новые возможности Ignite как полноценной распределённой платформы, а не просто in-memory кэша.
https://habr.com/ru/articles/954928/
#distributed_computing #распределённые_вычисления #colocated_computations #коллокационные_вычисления #inmemory_database #java #apache_ignite_3 #mapreduce
-
Распределенные вычисления в Apache Ignite 3
В статье разбираются возможности распределённых вычислений в Apache Ignite 3 . Покажу, как развернуть кластер в Docker, задеплоить собственные джобы и сравнить Ignite 3 с предыдущей версией. Затронем новые возможности Ignite как полноценной распределённой платформы, а не просто in-memory кэша.
https://habr.com/ru/articles/954928/
#distributed_computing #распределённые_вычисления #colocated_computations #коллокационные_вычисления #inmemory_database #java #apache_ignite_3 #mapreduce
-
Распределенные вычисления в Apache Ignite 3
В статье разбираются возможности распределённых вычислений в Apache Ignite 3 . Покажу, как развернуть кластер в Docker, задеплоить собственные джобы и сравнить Ignite 3 с предыдущей версией. Затронем новые возможности Ignite как полноценной распределённой платформы, а не просто in-memory кэша.
https://habr.com/ru/articles/954928/
#distributed_computing #распределённые_вычисления #colocated_computations #коллокационные_вычисления #inmemory_database #java #apache_ignite_3 #mapreduce
-
Распределенные вычисления в Apache Ignite 3
В статье разбираются возможности распределённых вычислений в Apache Ignite 3 . Покажу, как развернуть кластер в Docker, задеплоить собственные джобы и сравнить Ignite 3 с предыдущей версией. Затронем новые возможности Ignite как полноценной распределённой платформы, а не просто in-memory кэша.
https://habr.com/ru/articles/954928/
#distributed_computing #распределённые_вычисления #colocated_computations #коллокационные_вычисления #inmemory_database #java #apache_ignite_3 #mapreduce
-
#ITByte: #MapReduce is a programming model and framework designed for processing large datasets in a parallel and distributed manner.
It's particularly useful for tasks that can be broken down into smaller, independent pieces.
https://knowledgezone.co.in/posts/What-is-MapReduce-6677bf67af6322731de3b7e9
-
Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS
Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы. Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.
https://habr.com/ru/companies/oleg-bunin/articles/884560/
#ytsaurus #mapreduce #olap #oltp #антифрод #распределенные_системы #оптимизация #обработка_данных #хранилища_данных
-
Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS
Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы. Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.
https://habr.com/ru/companies/oleg-bunin/articles/884560/
#ytsaurus #mapreduce #olap #oltp #антифрод #распределенные_системы #оптимизация #обработка_данных #хранилища_данных
-
Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS
Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы. Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.
https://habr.com/ru/companies/oleg-bunin/articles/884560/
#ytsaurus #mapreduce #olap #oltp #антифрод #распределенные_системы #оптимизация #обработка_данных #хранилища_данных
-
Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS
Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы. Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.
https://habr.com/ru/companies/oleg-bunin/articles/884560/
#ytsaurus #mapreduce #olap #oltp #антифрод #распределенные_системы #оптимизация #обработка_данных #хранилища_данных
-
Соединение SortMergeJoin в Apache Spark
Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика работы оператора доступна в открытом репозитории проекта. Вот здесь :) Первое, что рассмотрим - это конструктор кейс-класса 1. Конструктор SortMergeJoinExec
-
YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся
20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании. Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.
-
YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся
20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании. Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.
-
YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся
20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании. Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.
-
YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся
20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании. Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.
-
Leveraging map-reduce and LLMs for enhanced cybersecurity network detection: https://corelight.com/blog/map-reduce-llms-cybersecurity-network-detection
-
so, gonna write some stuff on #HDFS #MapReduce #yarn and maybe clustering. Also, #machinelearning was suggested but I think that may be too broad of a topic for this. I did cover Machine Learning in a blog back in 2023, but this time is for KB, not blog: https://www.openlogic.com/blog/using-cassandra-kafka-and-spark-ai
Hmm, perhaps some sort of ML performance (as in disk io, etc not accuracy) document would be good but still, where to even start.
If anyone has beginner resources, I'll likely be pointing folks to some resources
-
so, gonna write some stuff on #HDFS #MapReduce #yarn and maybe clustering. Also, #machinelearning was suggested but I think that may be too broad of a topic for this. I did cover Machine Learning in a blog back in 2023, but this time is for KB, not blog: https://www.openlogic.com/blog/using-cassandra-kafka-and-spark-ai
Hmm, perhaps some sort of ML performance (as in disk io, etc not accuracy) document would be good but still, where to even start.
If anyone has beginner resources, I'll likely be pointing folks to some resources
-
so, gonna write some stuff on #HDFS #MapReduce #yarn and maybe clustering. Also, #machinelearning was suggested but I think that may be too broad of a topic for this. I did cover Machine Learning in a blog back in 2023, but this time is for KB, not blog: https://www.openlogic.com/blog/using-cassandra-kafka-and-spark-ai
Hmm, perhaps some sort of ML performance (as in disk io, etc not accuracy) document would be good but still, where to even start.
If anyone has beginner resources, I'll likely be pointing folks to some resources
-
so, gonna write some stuff on #HDFS #MapReduce #yarn and maybe clustering. Also, #machinelearning was suggested but I think that may be too broad of a topic for this. I did cover Machine Learning in a blog back in 2023, but this time is for KB, not blog: https://www.openlogic.com/blog/using-cassandra-kafka-and-spark-ai
Hmm, perhaps some sort of ML performance (as in disk io, etc not accuracy) document would be good but still, where to even start.
If anyone has beginner resources, I'll likely be pointing folks to some resources
-
so, gonna write some stuff on #HDFS #MapReduce #yarn and maybe clustering. Also, #machinelearning was suggested but I think that may be too broad of a topic for this. I did cover Machine Learning in a blog back in 2023, but this time is for KB, not blog: https://www.openlogic.com/blog/using-cassandra-kafka-and-spark-ai
Hmm, perhaps some sort of ML performance (as in disk io, etc not accuracy) document would be good but still, where to even start.
If anyone has beginner resources, I'll likely be pointing folks to some resources
-
Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0
Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие. Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал , как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.
https://habr.com/ru/companies/yandex/articles/857708/
#ytsaurus #mapreduce #map_reduce #инфраструктура #большие_данные #big_data #алгоритмы
-
Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0
Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие. Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал , как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.
https://habr.com/ru/companies/yandex/articles/857708/
#ytsaurus #mapreduce #map_reduce #инфраструктура #большие_данные #big_data #алгоритмы
-
Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0
Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие. Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал , как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.
https://habr.com/ru/companies/yandex/articles/857708/
#ytsaurus #mapreduce #map_reduce #инфраструктура #большие_данные #big_data #алгоритмы
-
Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0
Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие. Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал , как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.
https://habr.com/ru/companies/yandex/articles/857708/
#ytsaurus #mapreduce #map_reduce #инфраструктура #большие_данные #big_data #алгоритмы
-
The Hadoop ecosystem comprises various tools and frameworks designed to handle large-scale data processing and analytics. Let's discuss the core components, namely Hadoop, HBase, and Hive, along with other significant tools such as Pig, Sqoop, Flume, Oozie, and Zookeeper.
https://linuxexpert.org/so-you-wanna-do-big-data/
#Hadoop #HBase #Hive #BigData #HadoopEcosystem #HDFS #MapReduce #YARN #Pig #Sqoop #Flume #Oozie #Zookeeper #DataProcessing #DataAnalytics #DataWarehousing #ETL #DataIngestion #Security
-
The Hadoop ecosystem comprises various tools and frameworks designed to handle large-scale data processing and analytics. Let's discuss the core components, namely Hadoop, HBase, and Hive, along with other significant tools such as Pig, Sqoop, Flume, Oozie, and Zookeeper.
https://linuxexpert.org/so-you-wanna-do-big-data/
#Hadoop #HBase #Hive #BigData #HadoopEcosystem #HDFS #MapReduce #YARN #Pig #Sqoop #Flume #Oozie #Zookeeper #DataProcessing #DataAnalytics #DataWarehousing #ETL #DataIngestion #Security
-
The Hadoop ecosystem comprises various tools and frameworks designed to handle large-scale data processing and analytics. Let's discuss the core components, namely Hadoop, HBase, and Hive, along with other significant tools such as Pig, Sqoop, Flume, Oozie, and Zookeeper.
https://linuxexpert.org/so-you-wanna-do-big-data/
#Hadoop #HBase #Hive #BigData #HadoopEcosystem #HDFS #MapReduce #YARN #Pig #Sqoop #Flume #Oozie #Zookeeper #DataProcessing #DataAnalytics #DataWarehousing #ETL #DataIngestion #Security
-
The Hadoop ecosystem comprises various tools and frameworks designed to handle large-scale data processing and analytics. Let's discuss the core components, namely Hadoop, HBase, and Hive, along with other significant tools such as Pig, Sqoop, Flume, Oozie, and Zookeeper.
https://linuxexpert.org/so-you-wanna-do-big-data/
#Hadoop #HBase #Hive #BigData #HadoopEcosystem #HDFS #MapReduce #YARN #Pig #Sqoop #Flume #Oozie #Zookeeper #DataProcessing #DataAnalytics #DataWarehousing #ETL #DataIngestion #Security
-
The Hadoop ecosystem comprises various tools and frameworks designed to handle large-scale data processing and analytics. Let's discuss the core components, namely Hadoop, HBase, and Hive, along with other significant tools such as Pig, Sqoop, Flume, Oozie, and Zookeeper.
https://linuxexpert.org/so-you-wanna-do-big-data/
#Hadoop #HBase #Hive #BigData #HadoopEcosystem #HDFS #MapReduce #YARN #Pig #Sqoop #Flume #Oozie #Zookeeper #DataProcessing #DataAnalytics #DataWarehousing #ETL #DataIngestion #Security
-
Ускорение Python в 2 раза с помощью multiprocessing, async и MapReduce
Python действительно может считаться относительно медленным языком программирования по сравнению с некоторыми другими языками, такими как C++ или Java. Однако, существуют различные библиотеки и инструменты, которые позволяют ускорить выполнение счетных задач в Python. Рассмотрим как можно ускорить анализ данных в 2 раза!
https://habr.com/ru/articles/825206/
#python3 #python #asyncio #async/await #multiprocessing #mapreduce
-
#ITByte: #MapReduce is a programming model and framework designed for processing large datasets in a parallel and distributed manner.
It's particularly useful for tasks that can be broken down into smaller, independent pieces.
https://knowledgezone.co.in/posts/What-is-MapReduce-6677bf67af6322731de3b7e9
-
...and then you can have the joy of trying to track down #ByzantineErrors, just #YOLO living in anything-can-happen land.
On the other hand, if you are using a bunch of #immutable vals and functions on those vals to work towards your solution, why, no one would fight -- there'd be nothing to fight over.
So, IN THEORY, it'd be trivial to multitask this work, sharing it out to multiple CPU cores, or even to multiple servers via #MapReduce.
8/
-
...and then you can have the joy of trying to track down #ByzantineErrors, just #YOLO living in anything-can-happen land.
On the other hand, if you are using a bunch of #immutable vals and functions on those vals to work towards your solution, why, no one would fight -- there'd be nothing to fight over.
So, IN THEORY, it'd be trivial to multitask this work, sharing it out to multiple CPU cores, or even to multiple servers via #MapReduce.
8/