home.social

#векторизация — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #векторизация, aggregated by home.social.

  1. Вариация на тему Рида-Соломона

    Адаптация кода Рида-Соломона (РС).под контроллер esp32-s3. esp32-s3 имеет крайне интересный функционал поддержки работы с векторами. Задача - совместить кодирование РC с векторными возможностями этого микроконтроллера.

    habr.com/ru/articles/1033246/

    #код_ридасоломона #esp32s3 #векторизация

  2. Вариация на тему Рида-Соломона

    Адаптация кода Рида-Соломона (РС).под контроллер esp32-s3. esp32-s3 имеет крайне интересный функционал поддержки работы с векторами. Задача - совместить кодирование РC с векторными возможностями этого микроконтроллера.

    habr.com/ru/articles/1033246/

    #код_ридасоломона #esp32s3 #векторизация

  3. Вариация на тему Рида-Соломона

    Адаптация кода Рида-Соломона (РС).под контроллер esp32-s3. esp32-s3 имеет крайне интересный функционал поддержки работы с векторами. Задача - совместить кодирование РC с векторными возможностями этого микроконтроллера.

    habr.com/ru/articles/1033246/

    #код_ридасоломона #esp32s3 #векторизация

  4. Вариация на тему Рида-Соломона

    Адаптация кода Рида-Соломона (РС).под контроллер esp32-s3. esp32-s3 имеет крайне интересный функционал поддержки работы с векторами. Задача - совместить кодирование РC с векторными возможностями этого микроконтроллера.

    habr.com/ru/articles/1033246/

    #код_ридасоломона #esp32s3 #векторизация

  5. HTAP внутри OLTP: как мы строили векторизованный движок с самого начала

    Как встроить векторизованный движок в OLTP-ядро с нуля — без отдельного аналитического слоя. Разбираем PhysicalType, SelectionVector, RowToColumnBridge, SIMD на листовых страницах B-Tree и Hash Join. Бенчмарк на 2,25 млн строк: от 1.22× на простых агрегатах до 2.67× на GROUP BY.

    habr.com/ru/articles/1032894/

    #htap #векторизация #база_данных #simd #btree #Hash_Join #rust #oltp

  6. HTAP внутри OLTP: как мы строили векторизованный движок с самого начала

    Как встроить векторизованный движок в OLTP-ядро с нуля — без отдельного аналитического слоя. Разбираем PhysicalType, SelectionVector, RowToColumnBridge, SIMD на листовых страницах B-Tree и Hash Join. Бенчмарк на 2,25 млн строк: от 1.22× на простых агрегатах до 2.67× на GROUP BY.

    habr.com/ru/articles/1032894/

    #htap #векторизация #база_данных #simd #btree #Hash_Join #rust #oltp

  7. HTAP внутри OLTP: как мы строили векторизованный движок с самого начала

    Как встроить векторизованный движок в OLTP-ядро с нуля — без отдельного аналитического слоя. Разбираем PhysicalType, SelectionVector, RowToColumnBridge, SIMD на листовых страницах B-Tree и Hash Join. Бенчмарк на 2,25 млн строк: от 1.22× на простых агрегатах до 2.67× на GROUP BY.

    habr.com/ru/articles/1032894/

    #htap #векторизация #база_данных #simd #btree #Hash_Join #rust #oltp

  8. HTAP внутри OLTP: как мы строили векторизованный движок с самого начала

    Как встроить векторизованный движок в OLTP-ядро с нуля — без отдельного аналитического слоя. Разбираем PhysicalType, SelectionVector, RowToColumnBridge, SIMD на листовых страницах B-Tree и Hash Join. Бенчмарк на 2,25 млн строк: от 1.22× на простых агрегатах до 2.67× на GROUP BY.

    habr.com/ru/articles/1032894/

    #htap #векторизация #база_данных #simd #btree #Hash_Join #rust #oltp

  9. Векторный поиск в PostgreSQL: pgvector, pgvectorscale или VectorChord?

    Привет Хабр! Меня зовут Владимир сегодня я постараюсь исправить ошибку из моей первой статьи про векторный поиск . Основная претензия к статье (два из трех комментариев 😂) была в том, что тема сисек векторного поиска не раскрыта. В этом материале постараюсь кратко рассказать, что же такое векторный поиск, зачем он нужен, варианты реализации векторного поиска в PostgreSQL и провести сравнительные тесты времени отклика при различных объёмах данных.

    habr.com/ru/articles/1014516/

    #postgresql #pgvector #векторизация

  10. Векторный поиск в PostgreSQL: pgvector, pgvectorscale или VectorChord?

    Привет Хабр! Меня зовут Владимир сегодня я постараюсь исправить ошибку из моей первой статьи про векторный поиск . Основная претензия к статье (два из трех комментариев 😂) была в том, что тема сисек векторного поиска не раскрыта. В этом материале постараюсь кратко рассказать, что же такое векторный поиск, зачем он нужен, варианты реализации векторного поиска в PostgreSQL и провести сравнительные тесты времени отклика при различных объёмах данных.

    habr.com/ru/articles/1014516/

    #postgresql #pgvector #векторизация

  11. Векторный поиск в PostgreSQL: pgvector, pgvectorscale или VectorChord?

    Привет Хабр! Меня зовут Владимир сегодня я постараюсь исправить ошибку из моей первой статьи про векторный поиск . Основная претензия к статье (два из трех комментариев 😂) была в том, что тема сисек векторного поиска не раскрыта. В этом материале постараюсь кратко рассказать, что же такое векторный поиск, зачем он нужен, варианты реализации векторного поиска в PostgreSQL и провести сравнительные тесты времени отклика при различных объёмах данных.

    habr.com/ru/articles/1014516/

    #postgresql #pgvector #векторизация

  12. Векторный поиск в PostgreSQL: pgvector, pgvectorscale или VectorChord?

    Привет Хабр! Меня зовут Владимир сегодня я постараюсь исправить ошибку из моей первой статьи про векторный поиск . Основная претензия к статье (два из трех комментариев 😂) была в том, что тема сисек векторного поиска не раскрыта. В этом материале постараюсь кратко рассказать, что же такое векторный поиск, зачем он нужен, варианты реализации векторного поиска в PostgreSQL и провести сравнительные тесты времени отклика при различных объёмах данных.

    habr.com/ru/articles/1014516/

    #postgresql #pgvector #векторизация

  13. Линейная алгебра для нейросетей: векторы на практике

    Данная статья посвящена основе основ нейронауки — линейной алгебре. Если вы когда-либо планируйте изучать искусственные нейронные сети (и не только), то вам необходимо начать именно с этого. Причем не важно, собираетесь ли вы заниматься фундаментальными исследованиями (Data Science) или просто лепить модели в продакшн на конвейере (ML Engineering), вы обязаны знать их математику хотя бы поверхностно. Любые настройки, дообучение и применение даже готовой модели, требуют понимания основ. А по сему данное знание, как минимум, не будет избыточным. Материал рассчитан на новичка. Если вы знаете школьную математику, то сможете освоить и мой курс. В будущем я напишу статью о линейном представлении нейросетей, где мы адаптируем полученное знание под прикладные задачи, напишем некоторые слои на Python и построим настоящую модель! В этой статье: * Понятие вектора; * Векторизация данных; * Умножение на скаляр; * Сложение векторов; * Норма вектора; * Скалярное умножение; * Векторное умножение; * Практика с кодом; * Домашняя работа. Все будет объяснено на красочных примерах в игровой форме. Ничего сложного. А в конце вас ждет самостоятельная практика с кодом. Приятного чтения!

    habr.com/ru/articles/1001896/

    #линейная_алгебра #вектор #нейросети #математика_для_data_science #скалярное_произведение #векторизация #данные #машинное+обучение #тензор #матрицы

  14. Линейная алгебра для нейросетей: векторы на практике

    Данная статья посвящена основе основ нейронауки — линейной алгебре. Если вы когда-либо планируйте изучать искусственные нейронные сети (и не только), то вам необходимо начать именно с этого. Причем не важно, собираетесь ли вы заниматься фундаментальными исследованиями (Data Science) или просто лепить модели в продакшн на конвейере (ML Engineering), вы обязаны знать их математику хотя бы поверхностно. Любые настройки, дообучение и применение даже готовой модели, требуют понимания основ. А по сему данное знание, как минимум, не будет избыточным. Материал рассчитан на новичка. Если вы знаете школьную математику, то сможете освоить и мой курс. В будущем я напишу статью о линейном представлении нейросетей, где мы адаптируем полученное знание под прикладные задачи, напишем некоторые слои на Python и построим настоящую модель! В этой статье: * Понятие вектора; * Векторизация данных; * Умножение на скаляр; * Сложение векторов; * Норма вектора; * Скалярное умножение; * Векторное умножение; * Практика с кодом; * Домашняя работа. Все будет объяснено на красочных примерах в игровой форме. Ничего сложного. А в конце вас ждет самостоятельная практика с кодом. Приятного чтения!

    habr.com/ru/articles/1001896/

    #линейная_алгебра #вектор #нейросети #математика_для_data_science #скалярное_произведение #векторизация #данные #машинное+обучение #тензор #матрицы

  15. Линейная алгебра для нейросетей: векторы на практике

    Данная статья посвящена основе основ нейронауки — линейной алгебре. Если вы когда-либо планируйте изучать искусственные нейронные сети (и не только), то вам необходимо начать именно с этого. Причем не важно, собираетесь ли вы заниматься фундаментальными исследованиями (Data Science) или просто лепить модели в продакшн на конвейере (ML Engineering), вы обязаны знать их математику хотя бы поверхностно. Любые настройки, дообучение и применение даже готовой модели, требуют понимания основ. А по сему данное знание, как минимум, не будет избыточным. Материал рассчитан на новичка. Если вы знаете школьную математику, то сможете освоить и мой курс. В будущем я напишу статью о линейном представлении нейросетей, где мы адаптируем полученное знание под прикладные задачи, напишем некоторые слои на Python и построим настоящую модель! В этой статье: * Понятие вектора; * Векторизация данных; * Умножение на скаляр; * Сложение векторов; * Норма вектора; * Скалярное умножение; * Векторное умножение; * Практика с кодом; * Домашняя работа. Все будет объяснено на красочных примерах в игровой форме. Ничего сложного. А в конце вас ждет самостоятельная практика с кодом. Приятного чтения!

    habr.com/ru/articles/1001896/

    #линейная_алгебра #вектор #нейросети #математика_для_data_science #скалярное_произведение #векторизация #данные #машинное+обучение #тензор #матрицы

  16. Линейная алгебра для нейросетей: векторы на практике

    Данная статья посвящена основе основ нейронауки — линейной алгебре. Если вы когда-либо планируйте изучать искусственные нейронные сети (и не только), то вам необходимо начать именно с этого. Причем не важно, собираетесь ли вы заниматься фундаментальными исследованиями (Data Science) или просто лепить модели в продакшн на конвейере (ML Engineering), вы обязаны знать их математику хотя бы поверхностно. Любые настройки, дообучение и применение даже готовой модели, требуют понимания основ. А по сему данное знание, как минимум, не будет избыточным. Материал рассчитан на новичка. Если вы знаете школьную математику, то сможете освоить и мой курс. В будущем я напишу статью о линейном представлении нейросетей, где мы адаптируем полученное знание под прикладные задачи, напишем некоторые слои на Python и построим настоящую модель! В этой статье: * Понятие вектора; * Векторизация данных; * Умножение на скаляр; * Сложение векторов; * Норма вектора; * Скалярное умножение; * Векторное умножение; * Практика с кодом; * Домашняя работа. Все будет объяснено на красочных примерах в игровой форме. Ничего сложного. А в конце вас ждет самостоятельная практика с кодом. Приятного чтения!

    habr.com/ru/articles/1001896/

    #линейная_алгебра #вектор #нейросети #математика_для_data_science #скалярное_произведение #векторизация #данные #машинное+обучение #тензор #матрицы

  17. 5 фатальных ошибок при работе с Pandas (и как их избежать)

    Pandas — швейцарский нож дата-аналитика. Пара строк, и данные отфильтрованы, сгруппированы и готовы к работе. Но часто бывает так: изящный скрипт, летавший на тестовом датасете, на реальных объемах превращается в тормозящего монстра, который воет кулером и выплевывает MemoryError. Почему так происходит? Главная беда — наши привычки из чистого Python. Циклы for, apply и построчная обработка идут вразрез с архитектурой Pandas, построенной поверх массивов NumPy. В этой статье разберем 5 самых частых (и фатальных) ошибок при работе с DataFrame. Посмотрим, как безобидные решения убивают производительность и память, и научимся переписывать код так, чтобы всё работало быстро, элегантно и «по-пандасовски». Спойлер: циклов не будет.

    habr.com/ru/articles/1008910/

    #python #pandas #анализ_данных #data_science #оптимизация_кода #антипаттерны #векторизация #numpy #memoryerror

  18. 5 фатальных ошибок при работе с Pandas (и как их избежать)

    Pandas — швейцарский нож дата-аналитика. Пара строк, и данные отфильтрованы, сгруппированы и готовы к работе. Но часто бывает так: изящный скрипт, летавший на тестовом датасете, на реальных объемах превращается в тормозящего монстра, который воет кулером и выплевывает MemoryError. Почему так происходит? Главная беда — наши привычки из чистого Python. Циклы for, apply и построчная обработка идут вразрез с архитектурой Pandas, построенной поверх массивов NumPy. В этой статье разберем 5 самых частых (и фатальных) ошибок при работе с DataFrame. Посмотрим, как безобидные решения убивают производительность и память, и научимся переписывать код так, чтобы всё работало быстро, элегантно и «по-пандасовски». Спойлер: циклов не будет.

    habr.com/ru/articles/1008910/

    #python #pandas #анализ_данных #data_science #оптимизация_кода #антипаттерны #векторизация #numpy #memoryerror

  19. 5 фатальных ошибок при работе с Pandas (и как их избежать)

    Pandas — швейцарский нож дата-аналитика. Пара строк, и данные отфильтрованы, сгруппированы и готовы к работе. Но часто бывает так: изящный скрипт, летавший на тестовом датасете, на реальных объемах превращается в тормозящего монстра, который воет кулером и выплевывает MemoryError. Почему так происходит? Главная беда — наши привычки из чистого Python. Циклы for, apply и построчная обработка идут вразрез с архитектурой Pandas, построенной поверх массивов NumPy. В этой статье разберем 5 самых частых (и фатальных) ошибок при работе с DataFrame. Посмотрим, как безобидные решения убивают производительность и память, и научимся переписывать код так, чтобы всё работало быстро, элегантно и «по-пандасовски». Спойлер: циклов не будет.

    habr.com/ru/articles/1008910/

    #python #pandas #анализ_данных #data_science #оптимизация_кода #антипаттерны #векторизация #numpy #memoryerror

  20. 5 фатальных ошибок при работе с Pandas (и как их избежать)

    Pandas — швейцарский нож дата-аналитика. Пара строк, и данные отфильтрованы, сгруппированы и готовы к работе. Но часто бывает так: изящный скрипт, летавший на тестовом датасете, на реальных объемах превращается в тормозящего монстра, который воет кулером и выплевывает MemoryError. Почему так происходит? Главная беда — наши привычки из чистого Python. Циклы for, apply и построчная обработка идут вразрез с архитектурой Pandas, построенной поверх массивов NumPy. В этой статье разберем 5 самых частых (и фатальных) ошибок при работе с DataFrame. Посмотрим, как безобидные решения убивают производительность и память, и научимся переписывать код так, чтобы всё работало быстро, элегантно и «по-пандасовски». Спойлер: циклов не будет.

    habr.com/ru/articles/1008910/

    #python #pandas #анализ_данных #data_science #оптимизация_кода #антипаттерны #векторизация #numpy #memoryerror

  21. Как мы сделали гибридный AI-поиск по смыслу книг: двухконтурная архитектура и семантическое ранжирование

    Всем привет! Меня зовут Яна Чеканова, я проджект-менеджер в red_mad_robot уже два года — и да, я не технарь, а филолог по образованию. Парадоксально, но именно это образование помогло мне в одном из самых технологичных проектов — создании AI-поиска для сервиса книги билайн. Идея родилась у команды билайна: они провели исследование и поняли, что большинство читателей не ищут конкретного автора или название, а ориентируются на настроение и ощущение от книги — «что-то атмосферное», «что-то как любимый роман». Так появилась гипотеза: сделать поиск, который понимает смысл запроса, а не только ключевые слова. Мы подключились, чтобы превратить эту идею в технологию: векторизовали метаданные полумиллиона книг, обучили LLM и собрали гибридную систему, которая подбирает литературу по смыслу и контексту — даже если запрос звучит просто как «что-нибудь про путешествия во времени». Рассказываю, как это было.

    habr.com/ru/companies/redmadro

    #ai #ии #aiпоиск #книги #поиск #векторизация #гибридные_системы #технологии

  22. [Перевод] Почему Python — не лучший язык для data science. Часть 2 — Python против R

    Команда Python for Devs подготовила перевод статьи о том, почему Python — несмотря на свою популярность — не всегда идеален для Data Science. Автор показывает, как отсутствие нестандартной оценки выражений усложняет анализ данных, и сравнивает Python с R, где такие задачи решаются куда элегантнее.

    habr.com/ru/articles/971372/

    #python #datascience #tidyverse #pandas #векторизация #polars

  23. Как мы учили AI-поиск в сервисе книги билайн понимать запросы вроде «хочу что-нибудь как Сумерки»

    Всем привет! Меня зовут Яна Чеканова, я проджект-менеджер в red_mad_robot уже два года — и да, я не технарь, а филолог по образованию. Парадоксально, но именно это образование помогло мне в одном из самых технологичных проектов — создании AI-поиска для сервиса книги билайн. Мы подключились, чтобы превратить идею умного поиска по книгам в технологию: векторизовали метаданные полумиллиона книг, обучили LLM и собрали гибридную систему, которая подбирает литературу по смыслу и контексту — даже если запрос звучит просто как «что-нибудь про путешествия во времени». Рассказываю, как это было.

    habr.com/ru/companies/redmadro

    #ai #ии #aiпоиск #билайн #книги #поисковые_технологии #векторизация #кейс #гибридные_системы #агенты

  24. Как мы учили AI-поиск в сервисе книги билайн понимать запросы вроде «хочу что-нибудь как Сумерки»

    Всем привет! Меня зовут Яна Чеканова, я проджект-менеджер в red_mad_robot уже два года — и да, я не технарь, а филолог по образованию. Парадоксально, но именно это образование помогло мне в одном из самых технологичных проектов — создании AI-поиска для сервиса книги билайн. Мы подключились, чтобы превратить идею умного поиска по книгам в технологию: векторизовали метаданные полумиллиона книг, обучили LLM и собрали гибридную систему, которая подбирает литературу по смыслу и контексту — даже если запрос звучит просто как «что-нибудь про путешествия во времени». Рассказываю, как это было.

    habr.com/ru/companies/redmadro

    #ai #ии #aiпоиск #билайн #книги #поисковые_технологии #векторизация #кейс #гибридные_системы #агенты

  25. Как мы учили AI-поиск в сервисе книги билайн понимать запросы вроде «хочу что-нибудь как Сумерки»

    Всем привет! Меня зовут Яна Чеканова, я проджект-менеджер в red_mad_robot уже два года — и да, я не технарь, а филолог по образованию. Парадоксально, но именно это образование помогло мне в одном из самых технологичных проектов — создании AI-поиска для сервиса книги билайн. Мы подключились, чтобы превратить идею умного поиска по книгам в технологию: векторизовали метаданные полумиллиона книг, обучили LLM и собрали гибридную систему, которая подбирает литературу по смыслу и контексту — даже если запрос звучит просто как «что-нибудь про путешествия во времени». Рассказываю, как это было.

    habr.com/ru/companies/redmadro

    #ai #ии #aiпоиск #билайн #книги #поисковые_технологии #векторизация #кейс #гибридные_системы #агенты

  26. Как мы учили AI-поиск в сервисе книги билайн понимать запросы вроде «хочу что-нибудь как Сумерки»

    Всем привет! Меня зовут Яна Чеканова, я проджект-менеджер в red_mad_robot уже два года — и да, я не технарь, а филолог по образованию. Парадоксально, но именно это образование помогло мне в одном из самых технологичных проектов — создании AI-поиска для сервиса книги билайн. Мы подключились, чтобы превратить идею умного поиска по книгам в технологию: векторизовали метаданные полумиллиона книг, обучили LLM и собрали гибридную систему, которая подбирает литературу по смыслу и контексту — даже если запрос звучит просто как «что-нибудь про путешествия во времени». Рассказываю, как это было.

    habr.com/ru/companies/redmadro

    #ai #ии #aiпоиск #билайн #книги #поисковые_технологии #векторизация #кейс #гибридные_системы #агенты

  27. [Перевод] StarRocks и Trino: сходства, различия, бенчмарки и кейсы

    Проект Trino (ранее PrestoSQL) изначально разработан в Meta, чтобы аналитики могли выполнять интерактивные запросы по широкому спектру хранилищ данных на базе Apache Hadoop. Благодаря эффективной обработке крупных наборов и сложных запросов, а также гибкому подключению к множеству источников данных, Trino быстро стал предпочтительным инструментом аналитики для крупных организаций. Со временем потребности пользователей в аналитике эволюционировали. С ростом мобильного интернета и SaaS-приложений критически важной стала оперативная (в том числе потоковая) аналитика. Компаниям потребовались более производительные движки, поддерживающие большое число одновременных запросов и обеспечивающие низкие задержки. На этом фоне всё больше пользователей стали искать альтернативы. StarRocks как новый аналитический движок получил широкое признание отрасли. Он демонстрирует заметные преимущества по производительности, поддержке высокой степени параллелизма и низкой задержке, привлекая внимание крупных компаний, таких как WeChat , Xiaohongshu (RedNote), Ctrip, Beike и др. Как именно StarRocks формирует свои преимущества? В чём его сходства и различия с Trino? Ниже — подробный разбор.

    habr.com/ru/articles/939370/

    #starrocks #trino #presto #векторизация #simd #материализованные_представления #query_rewrite #data_catalog #lakehouse #lakehouseплатформа_данных

  28. [Перевод] StarRocks и Trino: сходства, различия, бенчмарки и кейсы

    Проект Trino (ранее PrestoSQL) изначально разработан в Meta, чтобы аналитики могли выполнять интерактивные запросы по широкому спектру хранилищ данных на базе Apache Hadoop. Благодаря эффективной обработке крупных наборов и сложных запросов, а также гибкому подключению к множеству источников данных, Trino быстро стал предпочтительным инструментом аналитики для крупных организаций. Со временем потребности пользователей в аналитике эволюционировали. С ростом мобильного интернета и SaaS-приложений критически важной стала оперативная (в том числе потоковая) аналитика. Компаниям потребовались более производительные движки, поддерживающие большое число одновременных запросов и обеспечивающие низкие задержки. На этом фоне всё больше пользователей стали искать альтернативы. StarRocks как новый аналитический движок получил широкое признание отрасли. Он демонстрирует заметные преимущества по производительности, поддержке высокой степени параллелизма и низкой задержке, привлекая внимание крупных компаний, таких как WeChat , Xiaohongshu (RedNote), Ctrip, Beike и др. Как именно StarRocks формирует свои преимущества? В чём его сходства и различия с Trino? Ниже — подробный разбор.

    habr.com/ru/articles/939370/

    #starrocks #trino #presto #векторизация #simd #материализованные_представления #query_rewrite #data_catalog #lakehouse #lakehouseплатформа_данных

  29. [Перевод] StarRocks и Trino: сходства, различия, бенчмарки и кейсы

    Проект Trino (ранее PrestoSQL) изначально разработан в Meta, чтобы аналитики могли выполнять интерактивные запросы по широкому спектру хранилищ данных на базе Apache Hadoop. Благодаря эффективной обработке крупных наборов и сложных запросов, а также гибкому подключению к множеству источников данных, Trino быстро стал предпочтительным инструментом аналитики для крупных организаций. Со временем потребности пользователей в аналитике эволюционировали. С ростом мобильного интернета и SaaS-приложений критически важной стала оперативная (в том числе потоковая) аналитика. Компаниям потребовались более производительные движки, поддерживающие большое число одновременных запросов и обеспечивающие низкие задержки. На этом фоне всё больше пользователей стали искать альтернативы. StarRocks как новый аналитический движок получил широкое признание отрасли. Он демонстрирует заметные преимущества по производительности, поддержке высокой степени параллелизма и низкой задержке, привлекая внимание крупных компаний, таких как WeChat , Xiaohongshu (RedNote), Ctrip, Beike и др. Как именно StarRocks формирует свои преимущества? В чём его сходства и различия с Trino? Ниже — подробный разбор.

    habr.com/ru/articles/939370/

    #starrocks #trino #presto #векторизация #simd #материализованные_представления #query_rewrite #data_catalog #lakehouse #lakehouseплатформа_данных

  30. [Перевод] StarRocks и Trino: сходства, различия, бенчмарки и кейсы

    Проект Trino (ранее PrestoSQL) изначально разработан в Meta, чтобы аналитики могли выполнять интерактивные запросы по широкому спектру хранилищ данных на базе Apache Hadoop. Благодаря эффективной обработке крупных наборов и сложных запросов, а также гибкому подключению к множеству источников данных, Trino быстро стал предпочтительным инструментом аналитики для крупных организаций. Со временем потребности пользователей в аналитике эволюционировали. С ростом мобильного интернета и SaaS-приложений критически важной стала оперативная (в том числе потоковая) аналитика. Компаниям потребовались более производительные движки, поддерживающие большое число одновременных запросов и обеспечивающие низкие задержки. На этом фоне всё больше пользователей стали искать альтернативы. StarRocks как новый аналитический движок получил широкое признание отрасли. Он демонстрирует заметные преимущества по производительности, поддержке высокой степени параллелизма и низкой задержке, привлекая внимание крупных компаний, таких как WeChat , Xiaohongshu (RedNote), Ctrip, Beike и др. Как именно StarRocks формирует свои преимущества? В чём его сходства и различия с Trino? Ниже — подробный разбор.

    habr.com/ru/articles/939370/

    #starrocks #trino #presto #векторизация #simd #материализованные_представления #query_rewrite #data_catalog #lakehouse #lakehouseплатформа_данных

  31. Project Euler. Векторное программирование и задача номер 1

    Добавляем щепотку векторного программирования в задачки проекта Эйлер. Заодно разбираемся, как эффективно реализовать деление на константу.

    habr.com/ru/articles/929416/

    #riscv #векторизация #параллельное_программирование #параллелизм

  32. Оптимизация языковой модели Mamba для выполнения на CPU

    Как оптимизировать модель Mamba для выполнения на CPU? Ускоряем код в 20 раз по сравнению с PyTorch, нарушая в процессе все правила оптимизации.

    habr.com/ru/articles/925460/

    #mamba #simd #векторизация #оптимизация_кода

  33. О векторном вычислении экспоненциальной функции

    Как вычислить экспоненциальную функцию быстро и с минимальной погрешностью? Пишем векторизованный код.

    habr.com/ru/articles/923234/

    #Simd #avx512 #параллельное_программирование #векторизация

  34. Об ошибках округления и способах борьбы с ними

    Почему при сложениии одинаковых чисел в разном порядке получаются разные результаты? Как мининмизировать ошибки округления или избавиться от них совсем?

    habr.com/ru/articles/922198/

    #Вычисления #числа_с_плавающей_точкой #векторизация #параллелизм #погрешности_округления

  35. Об ошибках округления и способах борьбы с ними

    Почему при сложениии одинаковых чисел в разном порядке получаются разные результаты? Как мининмизировать ошибки округления или избавиться от них совсем?

    habr.com/ru/articles/922198/

    #Вычисления #числа_с_плавающей_точкой #векторизация #параллелизм #погрешности_округления

  36. Об ошибках округления и способах борьбы с ними

    Почему при сложениии одинаковых чисел в разном порядке получаются разные результаты? Как мининмизировать ошибки округления или избавиться от них совсем?

    habr.com/ru/articles/922198/

    #Вычисления #числа_с_плавающей_точкой #векторизация #параллелизм #погрешности_округления

  37. [Перевод] Простой механизм поиска с нуля

    Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо. Разработанный нами поисковик основывается на векторных представлениях (эмбеддингах) слов. Принцип здесь следующий. Функция получает слово и отображает его в N-мерное пространство (в данном случае N=300 ), где каждое измерение отражает определённый оттенок смысла. Вот хорошая статья (англ.) о том, как обучить собственную модель word2vec, и её внутреннем устройстве. Суть работы созданного нами поиска заключается в преобразовании моих статей, а точнее составляющих их слов, в эмбеддинги, сохраняемые в общем пространстве. Затем при выполнении конкретного поиска текст его запроса преобразуется аналогичным образом и сопоставляется с векторами статей. В результате этого сопоставления, используя метрику косинусного сходства , мы ранжируем статьи по их релевантности запросу. Уравнение ниже может показаться пугающим, но в нём говорится, что косинусное сходство, представляющее косинус угла между двух векторов cos(theta) , определяется в виде скалярного произведения, поделённого на произведение величин каждого вектора. Разберём всё это подробнее.

    habr.com/ru/companies/ruvds/ar

    #ruvds_перевод #поиск #word2vec #эмбеддинги #косинусное_сходство #векторизация

  38. [Перевод] Простой механизм поиска с нуля

    Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо. Разработанный нами поисковик основывается на векторных представлениях (эмбеддингах) слов. Принцип здесь следующий. Функция получает слово и отображает его в N-мерное пространство (в данном случае N=300 ), где каждое измерение отражает определённый оттенок смысла. Вот хорошая статья (англ.) о том, как обучить собственную модель word2vec, и её внутреннем устройстве. Суть работы созданного нами поиска заключается в преобразовании моих статей, а точнее составляющих их слов, в эмбеддинги, сохраняемые в общем пространстве. Затем при выполнении конкретного поиска текст его запроса преобразуется аналогичным образом и сопоставляется с векторами статей. В результате этого сопоставления, используя метрику косинусного сходства , мы ранжируем статьи по их релевантности запросу. Уравнение ниже может показаться пугающим, но в нём говорится, что косинусное сходство, представляющее косинус угла между двух векторов cos(theta) , определяется в виде скалярного произведения, поделённого на произведение величин каждого вектора. Разберём всё это подробнее.

    habr.com/ru/companies/ruvds/ar

    #ruvds_перевод #поиск #word2vec #эмбеддинги #косинусное_сходство #векторизация

  39. [Перевод] Простой механизм поиска с нуля

    Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо. Разработанный нами поисковик основывается на векторных представлениях (эмбеддингах) слов. Принцип здесь следующий. Функция получает слово и отображает его в N-мерное пространство (в данном случае N=300 ), где каждое измерение отражает определённый оттенок смысла. Вот хорошая статья (англ.) о том, как обучить собственную модель word2vec, и её внутреннем устройстве. Суть работы созданного нами поиска заключается в преобразовании моих статей, а точнее составляющих их слов, в эмбеддинги, сохраняемые в общем пространстве. Затем при выполнении конкретного поиска текст его запроса преобразуется аналогичным образом и сопоставляется с векторами статей. В результате этого сопоставления, используя метрику косинусного сходства , мы ранжируем статьи по их релевантности запросу. Уравнение ниже может показаться пугающим, но в нём говорится, что косинусное сходство, представляющее косинус угла между двух векторов cos(theta) , определяется в виде скалярного произведения, поделённого на произведение величин каждого вектора. Разберём всё это подробнее.

    habr.com/ru/companies/ruvds/ar

    #ruvds_перевод #поиск #word2vec #эмбеддинги #косинусное_сходство #векторизация

  40. [Перевод] Простой механизм поиска с нуля

    Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо. Разработанный нами поисковик основывается на векторных представлениях (эмбеддингах) слов. Принцип здесь следующий. Функция получает слово и отображает его в N-мерное пространство (в данном случае N=300 ), где каждое измерение отражает определённый оттенок смысла. Вот хорошая статья (англ.) о том, как обучить собственную модель word2vec, и её внутреннем устройстве. Суть работы созданного нами поиска заключается в преобразовании моих статей, а точнее составляющих их слов, в эмбеддинги, сохраняемые в общем пространстве. Затем при выполнении конкретного поиска текст его запроса преобразуется аналогичным образом и сопоставляется с векторами статей. В результате этого сопоставления, используя метрику косинусного сходства , мы ранжируем статьи по их релевантности запросу. Уравнение ниже может показаться пугающим, но в нём говорится, что косинусное сходство, представляющее косинус угла между двух векторов cos(theta) , определяется в виде скалярного произведения, поделённого на произведение величин каждого вектора. Разберём всё это подробнее.

    habr.com/ru/companies/ruvds/ar

    #ruvds_перевод #поиск #word2vec #эмбеддинги #косинусное_сходство #векторизация

  41. Как мы внедрили векторный поиск в Postgres Pro

    В статье разберемся, что такое векторный поиск, какие проблемы он решает, и как расширение pgpro_vector для Postgres Pro позволяет реализовать эти мощные возможности прямо в реляционной базе данных, без необходимости развертывать отдельные специализированные системы.

    habr.com/ru/companies/postgres

    #векторизация #вектор #векторные_базы_данных #векторный_поиск #postgres #postgres_pro #разработка_баз_данных #администрирование_баз_данных

  42. Как мы внедрили векторный поиск в Postgres Pro

    В статье разберемся, что такое векторный поиск, какие проблемы он решает, и как расширение pgpro_vector для Postgres Pro позволяет реализовать эти мощные возможности прямо в реляционной базе данных, без необходимости развертывать отдельные специализированные системы.

    habr.com/ru/companies/postgres

    #векторизация #вектор #векторные_базы_данных #векторный_поиск #postgres #postgres_pro #разработка_баз_данных #администрирование_баз_данных

  43. Как мы внедрили векторный поиск в Postgres Pro

    В статье разберемся, что такое векторный поиск, какие проблемы он решает, и как расширение pgpro_vector для Postgres Pro позволяет реализовать эти мощные возможности прямо в реляционной базе данных, без необходимости развертывать отдельные специализированные системы.

    habr.com/ru/companies/postgres

    #векторизация #вектор #векторные_базы_данных #векторный_поиск #postgres #postgres_pro #разработка_баз_данных #администрирование_баз_данных

  44. Как мы внедрили векторный поиск в Postgres Pro

    В статье разберемся, что такое векторный поиск, какие проблемы он решает, и как расширение pgpro_vector для Postgres Pro позволяет реализовать эти мощные возможности прямо в реляционной базе данных, без необходимости развертывать отдельные специализированные системы.

    habr.com/ru/companies/postgres

    #векторизация #вектор #векторные_базы_данных #векторный_поиск #postgres #postgres_pro #разработка_баз_данных #администрирование_баз_данных

  45. Чем опасен apply() и почему его стоит заменить

    Привет, Хабр! Сегодня рассмотрим почему DataFrame.apply() — это так себе инструмент в 2025 году, чем его заменять и как писать dataframe-логику так, чтобы она летала вместо того, чтобы жечь CPU и бюджет.

    habr.com/ru/companies/otus/art

    #pandas #производительность_данных #векторизация #обработка_датафреймов #эффективная_аналитика #большие_данные

  46. Векторизация в RISC-V. Основы

    Многие современные вычислительные задачи, в частности повсеместная обработка изображений и звука или работа с матрицами для ИИ, хорошо поддаются параллелизации на уровне данных. Чтобы ускорить такие вычисления, производители процессоров добавили в архитектуры специальные SIMD инструкции, которые позволяют работать за одну инструкцию сразу с несколькими элементами. В процессорах архитектуры x86 SIMD инструкции добавляются по принципу ad hoc. Из-за такого подхода, легаси и требований обратной совместимости в x86 накопилось много проблем. Архитектура RISC-V относительно молодая, и при её разработке учтён прошлый опыт. В основе подхода к SIMD в RISC-V заложили идею чистого векторного процессора. В этой статье рассмотрим основные принципы работы векторного процессора и базовые векторные операции с памятью и арифметикой.

    habr.com/ru/articles/891356/

    #riscv #simd #векторизация #asic #systemverilog