home.social

#map_reduce — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #map_reduce, aggregated by home.social.

  1. Обучаем ML-модели и запускаем batch-инференс на YTsaurus, как в Яндексе

    Привет! Меня зовут Алексей Архипенко, я руковожу группой разработки ML‑инфраструктуры в команде YTsaurus. Мы часть Yandex Infrastructure и предоставляем пользователям внутри Яндекса инфраструктурный фундамент для самых разных задач машинного обучения. YTsaurus — основная платформа для хранения и обработки данных Яндекса, которая доступна на GitHub под лицензией Apache 2.0. Это позволяет всем желающим загрузить систему на свои серверы, а также дорабатывать её под свои нужды. Мы уже писали в прошлых постах про её выход в опенсорс и дальнейшее развитие , а также кейсы использования в рекламе . Сегодня расскажу, как Яндекс запускает в ней почти все ML‑обучения и batch‑инференс.

    habr.com/ru/companies/yandex/a

    #ytsaurus #ml #batch_processing #gpu #gpu_вычисления #mapreduce #map_reduce

  2. Обучаем ML-модели и запускаем batch-инференс на YTsaurus, как в Яндексе

    Привет! Меня зовут Алексей Архипенко, я руковожу группой разработки ML‑инфраструктуры в команде YTsaurus. Мы часть Yandex Infrastructure и предоставляем пользователям внутри Яндекса инфраструктурный фундамент для самых разных задач машинного обучения. YTsaurus — основная платформа для хранения и обработки данных Яндекса, которая доступна на GitHub под лицензией Apache 2.0. Это позволяет всем желающим загрузить систему на свои серверы, а также дорабатывать её под свои нужды. Мы уже писали в прошлых постах про её выход в опенсорс и дальнейшее развитие , а также кейсы использования в рекламе . Сегодня расскажу, как Яндекс запускает в ней почти все ML‑обучения и batch‑инференс.

    habr.com/ru/companies/yandex/a

    #ytsaurus #ml #batch_processing #gpu #gpu_вычисления #mapreduce #map_reduce

  3. Обучаем ML-модели и запускаем batch-инференс на YTsaurus, как в Яндексе

    Привет! Меня зовут Алексей Архипенко, я руковожу группой разработки ML‑инфраструктуры в команде YTsaurus. Мы часть Yandex Infrastructure и предоставляем пользователям внутри Яндекса инфраструктурный фундамент для самых разных задач машинного обучения. YTsaurus — основная платформа для хранения и обработки данных Яндекса, которая доступна на GitHub под лицензией Apache 2.0. Это позволяет всем желающим загрузить систему на свои серверы, а также дорабатывать её под свои нужды. Мы уже писали в прошлых постах про её выход в опенсорс и дальнейшее развитие , а также кейсы использования в рекламе . Сегодня расскажу, как Яндекс запускает в ней почти все ML‑обучения и batch‑инференс.

    habr.com/ru/companies/yandex/a

    #ytsaurus #ml #batch_processing #gpu #gpu_вычисления #mapreduce #map_reduce

  4. Обучаем ML-модели и запускаем batch-инференс на YTsaurus, как в Яндексе

    Привет! Меня зовут Алексей Архипенко, я руковожу группой разработки ML‑инфраструктуры в команде YTsaurus. Мы часть Yandex Infrastructure и предоставляем пользователям внутри Яндекса инфраструктурный фундамент для самых разных задач машинного обучения. YTsaurus — основная платформа для хранения и обработки данных Яндекса, которая доступна на GitHub под лицензией Apache 2.0. Это позволяет всем желающим загрузить систему на свои серверы, а также дорабатывать её под свои нужды. Мы уже писали в прошлых постах про её выход в опенсорс и дальнейшее развитие , а также кейсы использования в рекламе . Сегодня расскажу, как Яндекс запускает в ней почти все ML‑обучения и batch‑инференс.

    habr.com/ru/companies/yandex/a

    #ytsaurus #ml #batch_processing #gpu #gpu_вычисления #mapreduce #map_reduce

  5. Spark, DataSphere и немного магии: как мы строим аналитическую платформу в облаке для банка

    Для решения классических аналитических задач в банке дата‑специалисты обрабатывают миллиарды транзакций. Поэтому создание единого информационного пространства для работы с большими объёмами данных потребует решить как задачи оптимизации производительности и обеспечения безопасности, так и задачи удобства для пользователей — и найти баланс между ними. Сергей Виноградов на конференции Data&ML2Business рассказал про разработку и построение DWH для задач Яндекс Пэй. В этой статье — дополненный рассказ о том, как устроена аналитическая платформа на базе Greenplum® и ClickHouse®, которую решили строить на базе managed‑сервисов в облаке. А также о том, как жизнь аналитиков облегчает связка Apache Spark™ и Jupyter‑ноутбуков в Yandex DataSphere.

    habr.com/ru/companies/yandex_c

    #spark #kafka #cdc #debezium #change_data_capture #map_reduce

  6. YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся

    20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании. Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.

    habr.com/ru/companies/yandex/a

    #ytsaurus #map_reduce #mapreduce #большие_данные #big_data

  7. YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся

    20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании. Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.

    habr.com/ru/companies/yandex/a

    #ytsaurus #map_reduce #mapreduce #большие_данные #big_data

  8. YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся

    20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании. Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.

    habr.com/ru/companies/yandex/a

    #ytsaurus #map_reduce #mapreduce #большие_данные #big_data

  9. YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся

    20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании. Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.

    habr.com/ru/companies/yandex/a

    #ytsaurus #map_reduce #mapreduce #большие_данные #big_data

  10. Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0

    Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие. Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал , как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.

    habr.com/ru/companies/yandex/a

    #ytsaurus #mapreduce #map_reduce #инфраструктура #большие_данные #big_data #алгоритмы

  11. Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0

    Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие. Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал , как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.

    habr.com/ru/companies/yandex/a

    #ytsaurus #mapreduce #map_reduce #инфраструктура #большие_данные #big_data #алгоритмы

  12. Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0

    Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие. Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал , как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.

    habr.com/ru/companies/yandex/a

    #ytsaurus #mapreduce #map_reduce #инфраструктура #большие_данные #big_data #алгоритмы

  13. Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0

    Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие. Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал , как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.

    habr.com/ru/companies/yandex/a

    #ytsaurus #mapreduce #map_reduce #инфраструктура #большие_данные #big_data #алгоритмы