home.social

#onnx — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #onnx, aggregated by home.social.

  1. My current #DotNetMAUI and #NeuralNetworks project: Design and train NNs in #GoogleColab and transfer them to a #CrossPlatform app using #ONNX. Basic principle established. Next I have to think of a genuinely useful and (the hard part) original trained NN to go in a mobile app.

    philotalk.com/mobile-neural-ne

  2. Govorun PC: переносим офлайн-диктовку с Android на Windows за один вечер (с Claude)

    На Android у меня живёт Govorun Lite — офлайн-диктовка на русском. Нажал кнопку, сказал, текст вставился. Никаких облаков, никакой отправки голоса на серверы. Работает через GigaAM v2 от Сбера. Проблема одна: на ПК такого нет. Встроенная Windows-диктовка — онлайн. Whisper — либо медленный, либо требует видеокарту. Сторонние сервисы — снова облако. Я решил портировать Govorun на Windows, и для ускорения взял Claude как пару-программиста. Что из этого вышло — в этой статье.

    habr.com/ru/articles/1031240/

    #python #speechrecognition #onnx #windows #llm #голосовой_ввод

  3. 🍏🔪 #Apple thinks it's clever by running #ONNX in a browser, promising AI-powered Gaussian Splats—because nothing screams cutting-edge tech like mathematical blobs. 🖥️🤖 GitHub's turning into a buzzword bingo, but hey, at least the navigation menu's toggle switch works. 🎉🙄
    github.com/bring-shrubbery/ml- #AI #GaussianSplats #GitHub #BuzzwordBingo #TechNews #HackerNews #ngated

  4. My current #DotNetMAUI and #NeuralNetworks project: Design and train neural networks in #GoogleColab and transfer them to a cross-platform app using #ONNX. Follow my progress here:

    philotalk.com/mobile-neural-ne

  5. Приложение real-time face swap на чистом Rust: ONNX Runtime, lock-free потоки и 60 кадров в секунду

    Большинство инструментов для замены лиц это Python-скрипты, склеенные из PyTorch, OpenCV и надежды. Они работают, но тащат за собой гигабайты зависимостей, требуют правильно настроенного CUDA и разваливаются в тот момент, когда ты пытаешься запустить их в реальном времени. Мне стало интересно: можно ли собрать весь пайплайн на чистом Rust? Без Python. Без PyTorch. Без обёрток. Один бинарник, который скачал, распаковал и запустил. Оказалось, можно. 60 fps на веб-камере. Пайплайн На каждом кадре последовательно отрабатывают четыре нейросети. RetinaFace находит лица и извлекает пять ключевых точек. ArcFace вычисляет 512-мерный эмбеддинг исходного лица. InSwapper принимает регион целевого лица и эмбеддинг источника, на выходе отдаёт заменённое лицо. GFPGAN опционально улучшает результат для более высокого качества. Все четыре модели работают через ONNX Runtime. Никаких кастомных CUDA-ядер, никакого оверхеда фреймворков. Тензор на вход, тензор на выход. Архитектура потоков Три потока, ноль блокировок на горячем пути. Поток захвата получает кадры с веб-камеры через nokhwa и публикует их через ArcSwap. Поток пайплайна подхватывает новые кадры, прогоняет инференс и публикует обработанные кадры через второй ArcSwap. Поток UI читает актуальный буфер и рендерит через egui. Никаких мьютексов на данных кадра. Никаких каналов. Никакого async. Только атомарные счётчики поколений и lock-free замена указателей. Структуры разделяемого состояния занимают ровно по 64 байта каждая и выровнены по кэш-линиям, чтобы исключить false sharing между ядрами. Это проверяется compile-time ассертами.

    habr.com/ru/articles/1024700/

    #Rust #ONNX #Machine_Learning #Computer_Vision #Face_Detection #egui #Open_Source #lockfree #multithreading #realtime

  6. Приложение real-time face swap на чистом Rust: ONNX Runtime, lock-free потоки и 60 кадров в секунду

    Большинство инструментов для замены лиц это Python-скрипты, склеенные из PyTorch, OpenCV и надежды. Они работают, но тащат за собой гигабайты зависимостей, требуют правильно настроенного CUDA и разваливаются в тот момент, когда ты пытаешься запустить их в реальном времени. Мне стало интересно: можно ли собрать весь пайплайн на чистом Rust? Без Python. Без PyTorch. Без обёрток. Один бинарник, который скачал, распаковал и запустил. Оказалось, можно. 60 fps на веб-камере. Пайплайн На каждом кадре последовательно отрабатывают четыре нейросети. RetinaFace находит лица и извлекает пять ключевых точек. ArcFace вычисляет 512-мерный эмбеддинг исходного лица. InSwapper принимает регион целевого лица и эмбеддинг источника, на выходе отдаёт заменённое лицо. GFPGAN опционально улучшает результат для более высокого качества. Все четыре модели работают через ONNX Runtime. Никаких кастомных CUDA-ядер, никакого оверхеда фреймворков. Тензор на вход, тензор на выход. Архитектура потоков Три потока, ноль блокировок на горячем пути. Поток захвата получает кадры с веб-камеры через nokhwa и публикует их через ArcSwap. Поток пайплайна подхватывает новые кадры, прогоняет инференс и публикует обработанные кадры через второй ArcSwap. Поток UI читает актуальный буфер и рендерит через egui. Никаких мьютексов на данных кадра. Никаких каналов. Никакого async. Только атомарные счётчики поколений и lock-free замена указателей. Структуры разделяемого состояния занимают ровно по 64 байта каждая и выровнены по кэш-линиям, чтобы исключить false sharing между ядрами. Это проверяется compile-time ассертами.

    habr.com/ru/articles/1024700/

    #Rust #ONNX #Machine_Learning #Computer_Vision #Face_Detection #egui #Open_Source #lockfree #multithreading #realtime

  7. Приложение real-time face swap на чистом Rust: ONNX Runtime, lock-free потоки и 60 кадров в секунду

    Большинство инструментов для замены лиц это Python-скрипты, склеенные из PyTorch, OpenCV и надежды. Они работают, но тащат за собой гигабайты зависимостей, требуют правильно настроенного CUDA и разваливаются в тот момент, когда ты пытаешься запустить их в реальном времени. Мне стало интересно: можно ли собрать весь пайплайн на чистом Rust? Без Python. Без PyTorch. Без обёрток. Один бинарник, который скачал, распаковал и запустил. Оказалось, можно. 60 fps на веб-камере. Пайплайн На каждом кадре последовательно отрабатывают четыре нейросети. RetinaFace находит лица и извлекает пять ключевых точек. ArcFace вычисляет 512-мерный эмбеддинг исходного лица. InSwapper принимает регион целевого лица и эмбеддинг источника, на выходе отдаёт заменённое лицо. GFPGAN опционально улучшает результат для более высокого качества. Все четыре модели работают через ONNX Runtime. Никаких кастомных CUDA-ядер, никакого оверхеда фреймворков. Тензор на вход, тензор на выход. Архитектура потоков Три потока, ноль блокировок на горячем пути. Поток захвата получает кадры с веб-камеры через nokhwa и публикует их через ArcSwap. Поток пайплайна подхватывает новые кадры, прогоняет инференс и публикует обработанные кадры через второй ArcSwap. Поток UI читает актуальный буфер и рендерит через egui. Никаких мьютексов на данных кадра. Никаких каналов. Никакого async. Только атомарные счётчики поколений и lock-free замена указателей. Структуры разделяемого состояния занимают ровно по 64 байта каждая и выровнены по кэш-линиям, чтобы исключить false sharing между ядрами. Это проверяется compile-time ассертами.

    habr.com/ru/articles/1024700/

    #Rust #ONNX #Machine_Learning #Computer_Vision #Face_Detection #egui #Open_Source #lockfree #multithreading #realtime

  8. Приложение real-time face swap на чистом Rust: ONNX Runtime, lock-free потоки и 60 кадров в секунду

    Большинство инструментов для замены лиц это Python-скрипты, склеенные из PyTorch, OpenCV и надежды. Они работают, но тащат за собой гигабайты зависимостей, требуют правильно настроенного CUDA и разваливаются в тот момент, когда ты пытаешься запустить их в реальном времени. Мне стало интересно: можно ли собрать весь пайплайн на чистом Rust? Без Python. Без PyTorch. Без обёрток. Один бинарник, который скачал, распаковал и запустил. Оказалось, можно. 60 fps на веб-камере. Пайплайн На каждом кадре последовательно отрабатывают четыре нейросети. RetinaFace находит лица и извлекает пять ключевых точек. ArcFace вычисляет 512-мерный эмбеддинг исходного лица. InSwapper принимает регион целевого лица и эмбеддинг источника, на выходе отдаёт заменённое лицо. GFPGAN опционально улучшает результат для более высокого качества. Все четыре модели работают через ONNX Runtime. Никаких кастомных CUDA-ядер, никакого оверхеда фреймворков. Тензор на вход, тензор на выход. Архитектура потоков Три потока, ноль блокировок на горячем пути. Поток захвата получает кадры с веб-камеры через nokhwa и публикует их через ArcSwap. Поток пайплайна подхватывает новые кадры, прогоняет инференс и публикует обработанные кадры через второй ArcSwap. Поток UI читает актуальный буфер и рендерит через egui. Никаких мьютексов на данных кадра. Никаких каналов. Никакого async. Только атомарные счётчики поколений и lock-free замена указателей. Структуры разделяемого состояния занимают ровно по 64 байта каждая и выровнены по кэш-линиям, чтобы исключить false sharing между ядрами. Это проверяется compile-time ассертами.

    habr.com/ru/articles/1024700/

    #Rust #ONNX #Machine_Learning #Computer_Vision #Face_Detection #egui #Open_Source #lockfree #multithreading #realtime

  9. [Перевод] Agentis Memory — Redis-совместимое хранилище со встроенным векторным поиском и локальными эмбеддингами

    В наше время уже никого не удивишь разработкой агентов, очередной оптимизацией, новой моделью или новой инфраструктурой для нейронок. Всё это в порядке вещей. Однако одно дело читать в Twitter «мы написали агента X и он оптимизировал нам процессы на 300000%», и совсем другое — начать копать чуть глубже. Копнёшь — а «агентом» называют скилл с одним промптом. Разработка настоящих агентов — задача не тривиальная. Достаточно посмотреть на утёкшие исходники Claude CLI — это не просто CLI, а целая инфраструктура бизнес-логики вокруг LLM. Я бы сравнил разработку агентов с разработкой типичных бэкенд-компонентов. Аналогия такая: если вы пишете каноничный бэкенд-сервис — вам нужна СУБД. Если Web3-сервис — блокчейн. Но на СУБД или блокчейне происходит в лучшем случае 50% всей логики. Вся магия крутится именно на бэкенде. С агентами то же самое: подключаешь AI SDK, конфигурируешь мыслительное ядро и пишешь вокруг него всю обвязку — мониторинги, AIOps, оркестрацию, memory management. Вот про memory management и пойдёт речь.

    habr.com/ru/articles/1018784/

    #Redis #AI_agents #GraalVM #ONNX #embeddings #HNSW #Java_Vector_API #SIMD #Project_Loom #LLM

  10. [Перевод] Agentis Memory — Redis-совместимое хранилище со встроенным векторным поиском и локальными эмбеддингами

    В наше время уже никого не удивишь разработкой агентов, очередной оптимизацией, новой моделью или новой инфраструктурой для нейронок. Всё это в порядке вещей. Однако одно дело читать в Twitter «мы написали агента X и он оптимизировал нам процессы на 300000%», и совсем другое — начать копать чуть глубже. Копнёшь — а «агентом» называют скилл с одним промптом. Разработка настоящих агентов — задача не тривиальная. Достаточно посмотреть на утёкшие исходники Claude CLI — это не просто CLI, а целая инфраструктура бизнес-логики вокруг LLM. Я бы сравнил разработку агентов с разработкой типичных бэкенд-компонентов. Аналогия такая: если вы пишете каноничный бэкенд-сервис — вам нужна СУБД. Если Web3-сервис — блокчейн. Но на СУБД или блокчейне происходит в лучшем случае 50% всей логики. Вся магия крутится именно на бэкенде. С агентами то же самое: подключаешь AI SDK, конфигурируешь мыслительное ядро и пишешь вокруг него всю обвязку — мониторинги, AIOps, оркестрацию, memory management. Вот про memory management и пойдёт речь.

    habr.com/ru/articles/1018784/

    #Redis #AI_agents #GraalVM #ONNX #embeddings #HNSW #Java_Vector_API #SIMD #Project_Loom #LLM

  11. [Перевод] Agentis Memory — Redis-совместимое хранилище со встроенным векторным поиском и локальными эмбеддингами

    В наше время уже никого не удивишь разработкой агентов, очередной оптимизацией, новой моделью или новой инфраструктурой для нейронок. Всё это в порядке вещей. Однако одно дело читать в Twitter «мы написали агента X и он оптимизировал нам процессы на 300000%», и совсем другое — начать копать чуть глубже. Копнёшь — а «агентом» называют скилл с одним промптом. Разработка настоящих агентов — задача не тривиальная. Достаточно посмотреть на утёкшие исходники Claude CLI — это не просто CLI, а целая инфраструктура бизнес-логики вокруг LLM. Я бы сравнил разработку агентов с разработкой типичных бэкенд-компонентов. Аналогия такая: если вы пишете каноничный бэкенд-сервис — вам нужна СУБД. Если Web3-сервис — блокчейн. Но на СУБД или блокчейне происходит в лучшем случае 50% всей логики. Вся магия крутится именно на бэкенде. С агентами то же самое: подключаешь AI SDK, конфигурируешь мыслительное ядро и пишешь вокруг него всю обвязку — мониторинги, AIOps, оркестрацию, memory management. Вот про memory management и пойдёт речь.

    habr.com/ru/articles/1018784/

    #Redis #AI_agents #GraalVM #ONNX #embeddings #HNSW #Java_Vector_API #SIMD #Project_Loom #LLM

  12. [Перевод] Agentis Memory — Redis-совместимое хранилище со встроенным векторным поиском и локальными эмбеддингами

    В наше время уже никого не удивишь разработкой агентов, очередной оптимизацией, новой моделью или новой инфраструктурой для нейронок. Всё это в порядке вещей. Однако одно дело читать в Twitter «мы написали агента X и он оптимизировал нам процессы на 300000%», и совсем другое — начать копать чуть глубже. Копнёшь — а «агентом» называют скилл с одним промптом. Разработка настоящих агентов — задача не тривиальная. Достаточно посмотреть на утёкшие исходники Claude CLI — это не просто CLI, а целая инфраструктура бизнес-логики вокруг LLM. Я бы сравнил разработку агентов с разработкой типичных бэкенд-компонентов. Аналогия такая: если вы пишете каноничный бэкенд-сервис — вам нужна СУБД. Если Web3-сервис — блокчейн. Но на СУБД или блокчейне происходит в лучшем случае 50% всей логики. Вся магия крутится именно на бэкенде. С агентами то же самое: подключаешь AI SDK, конфигурируешь мыслительное ядро и пишешь вокруг него всю обвязку — мониторинги, AIOps, оркестрацию, memory management. Вот про memory management и пойдёт речь.

    habr.com/ru/articles/1018784/

    #Redis #AI_agents #GraalVM #ONNX #embeddings #HNSW #Java_Vector_API #SIMD #Project_Loom #LLM

  13. Уязвимости в Spring AI и ONNX: как дыры в ИИ‑фреймворках превращаются в утечки данных и чужие модели

    ИИ‑фреймворки давно въехали в прод, но к ним часто относятся как к «научной приблуде», а не к ещё одному входу в ваши данные и инфраструктуру. Spring AI и ONNX крутятся где‑то между ML‑командами, продуктами вендоров и внутренними ассистентами, и на определённом этапе за ними перестают успевать архитектура и безопасность. В марте в обзорах уязвимостей рядом всплыли несколько критичных багов именно в этих штуках. Там есть и SQL‑инъекции, и JSONPath‑инъекции, и обход проверки доверия при загрузке моделей. В статье разбираю, что это значит для тех, кто уже тащит ИИ в прод, и даю чек‑лист, который можно прямо отнести своей команде.

    habr.com/ru/articles/1014606/

    #onnx #spring #spring_framework #spring_security #cve #vulnerability #vulnerability_management #уязвимости #уязвимости_и_их_эксплуатация #уязвимость_нулевого_дня

  14. Как я учил компьютер понимать 122 000 фотографий — и почему сложностью оказались не нейронки, а слова

    Я крайне редко на фрилансе получал заказы связанные с DS/ML, специалистов для таких задач обычно ищут не там. Причины разные: они требуют долгой интеграции, заказчик сам не понимает задачу, DS более конфиденциален, DS часто возникают внутри продукта, да и в последнее время этот сегмент на фрилансе съедается при помощи LLM: AI integration, RAG боты например. Но, внезапно, мне в личку постучались с таким проектом.

    habr.com/ru/articles/1010932/

    #computer_vision #machine_learning #clip #embeddings #классификация_изображений #zeroshot_learning #уменьшение_размерности_данных #фриланс #продуктовая_разработка #onnx

  15. inference4j: Java Inference API for Onnx models. Run AI models in Java. Three lines of code, zero setup.

    #ai #inference #java #models #onnx

    github.com/inference4j/inferen

  16. Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

    За два месяца я перепробовал три ASR-движка, шесть моделей Whisper, адаптивное чанкование, T5-коррекцию и ансамблевое голосование — и большая часть идей оказалась тупиком. В статье — подробный разбор шести тупиков и одной находки: почему GigaAM от Сбера на обычном CPU показывает 3.3% WER на русском, обходя Whisper large-v3-turbo на RTX 4090 (7.9%) в 2.4 раза. С бенчмарками, кодом и честными оговорками.

    habr.com/ru/articles/1002260/

    #speechtotext #gigaam #whisper #vosk #onnx #распознавание_речи #WER #голосовой_ввод #ASR #python

  17. Ускоряем инференс в Python с ONNX

    Привет! Если у вас когда‑либо был опыт деплоя нейросетки, вы знаете, что обучение — это полдела, а вот добиться шустрого инференса — целое искусство. Часто обученная в PyTorch модель дает замечательные метрики, но стоит попытаться запустить её в приложении начинаются всякие проблемки. Одно из решений, которое часто выручает — ONNX и ONNX Runtime. Если эти буквы для вас пока ничего не значат — не беда, сейчас разберёмся что к чему. А если вы уже слышали про ONNX, то, возможно, задавались вопросом: «А реально ли ускорить инференс, заморочившись с этой технологией?» Еще как! Ускорить инференс

    habr.com/ru/companies/otus/art

    #python #ONNX #инференс #ускорение_моделей #бенчмаркинг

  18. v1 Of DoomSummarizer is out.
    It's a crazy deep research / auto knowledgebase system. Point it at a directory of word docs, pdf and markdown it'll index it all then answer questions about the contents. Point it at a url it'll parse the content, index it and tell you what it's about.
    Crawl your company's knowledgebase? It'll automatically become a support AI.

    Want to know what your biggest invoice was, when you sent that angry letter etc...all local, all private, all open source (unlicense) . Quick two as unlike most RAG systems it MINIMIZES token use.

    #llm #ai #rag #search #localllm #ollama #onnx github.com/scottgal/lucidrag/r

  19. Инференс нейросетевых моделей для табличных данных с помощью ONNX Runtime на C++

    ONNX Runtime (ORT) — это высокопроизводительный движок для выполнения моделей в формате Open Neural Network Exchange (ONNX). Он предлагает оптимизированные реализации для CPU и GPU, поддержку различных аппаратных ускорителей и, что ключевое, простой C++ API. В этой статье мы разберем, как выполнить инференс модели для табличных данных, используя ONNX Runtime в C++ проекте. Ссылка для скачивания: Библиотеку можно получить через официальный GitHub (сборка из исходников). Для простоты в проектах часто достаточно забрать предсобранные бинарники из релизов .

    habr.com/ru/articles/991430/

    #onnxruntime #onnx #ORT #DL #TabularDL #C++ #инференс_моделей

  20. Инференс нейросетевых моделей для табличных данных с помощью ONNX Runtime на C++

    ONNX Runtime (ORT) — это высокопроизводительный движок для выполнения моделей в формате Open Neural Network Exchange (ONNX). Он предлагает оптимизированные реализации для CPU и GPU, поддержку различных аппаратных ускорителей и, что ключевое, простой C++ API. В этой статье мы разберем, как выполнить инференс модели для табличных данных, используя ONNX Runtime в C++ проекте. Ссылка для скачивания: Библиотеку можно получить через официальный GitHub (сборка из исходников). Для простоты в проектах часто достаточно забрать предсобранные бинарники из релизов .

    habr.com/ru/articles/991430/

    #onnxruntime #onnx #ORT #DL #TabularDL #C++ #инференс_моделей

  21. Инференс нейросетевых моделей для табличных данных с помощью ONNX Runtime на C++

    ONNX Runtime (ORT) — это высокопроизводительный движок для выполнения моделей в формате Open Neural Network Exchange (ONNX). Он предлагает оптимизированные реализации для CPU и GPU, поддержку различных аппаратных ускорителей и, что ключевое, простой C++ API. В этой статье мы разберем, как выполнить инференс модели для табличных данных, используя ONNX Runtime в C++ проекте. Ссылка для скачивания: Библиотеку можно получить через официальный GitHub (сборка из исходников). Для простоты в проектах часто достаточно забрать предсобранные бинарники из релизов .

    habr.com/ru/articles/991430/

    #onnxruntime #onnx #ORT #DL #TabularDL #C++ #инференс_моделей

  22. Инференс нейросетевых моделей для табличных данных с помощью ONNX Runtime на C++

    ONNX Runtime (ORT) — это высокопроизводительный движок для выполнения моделей в формате Open Neural Network Exchange (ONNX). Он предлагает оптимизированные реализации для CPU и GPU, поддержку различных аппаратных ускорителей и, что ключевое, простой C++ API. В этой статье мы разберем, как выполнить инференс модели для табличных данных, используя ONNX Runtime в C++ проекте. Ссылка для скачивания: Библиотеку можно получить через официальный GitHub (сборка из исходников). Для простоты в проектах часто достаточно забрать предсобранные бинарники из релизов .

    habr.com/ru/articles/991430/

    #onnxruntime #onnx #ORT #DL #TabularDL #C++ #инференс_моделей

  23. Problem: we keep using frontier LLMs as glue for jobs that are already solved.

    Solution: run OCR + NER locally in C# with ONNX Runtime. Deterministic extraction on ingest. Store the entities. Use an LLM later only if you actually need synthesis.

    OCR with Tesseract, then BERT NER via ONNX in .NET. No Python, no cloud, no tokens.

    This is my 'for beginners' article. I'm DEEP in OCR but realised I never explained the quickest way to do this *locally*.

    mostlylucid.net/blog/simple-oc

    #CSharp #DotNet #ONNX #OnnxRuntime #OCR #NER #LocalAI #RAG #DocumentAI

  24. New in lucidRAG: AudioSummarizer, Reduced RAG + Constrained Fuzziness for audio.

    Compute once at ingestion: deterministic signals + auditable evidence (transcript, diarization turns, tiny speaker clips).
    Query-time: retrieve facts → optional LLM narrates. No accent/genre guessing. No speaker naming. Offline, pure .NET.

    mostlylucid.net/blog/audiosumm

    #RAG #dotnet #ONNX #Audio #Privacy #SignalProcessing #LLM

  25. I started working on INT8 quantization in December, but have been mentally blocked for weeks now. I have very little motivation, and the lack of documentation for any of these advanced ONNX topic isn't helping. #cpp #ONNX #Darknet #YOLO

  26. Python won the research workflow.
    But production AI is a different game.

    Java’s concurrency, native integration (Project Panama), and ONNX Runtime support make it a far better fit for high-throughput, long-lived systems than most teams realize.

    I wrote about why enterprises should stop shipping notebooks and start treating AI as real software again.

    the-main-thread.com/p/java-ai-

    #AI #Java #Quarkus #LLMs #ONNX #SoftwareArchitecture

  27. Working on INT8 quantization in the Darknet ONNX export tool. We already have support for FP32 and half-size FP16. But support for INT8 quantization is turning out to be much harder to implement. #Darknet #YOLO #ONNX

  28. 📉 So, it turns out #ONNX and #CoreML have a sneaky habit of downgrading your models to #FP16 without so much as a polite cough. 🤦‍♂️ But don't worry, there's a hero's journey through a forest of matrices and formats to fix this *not-a-bug*. Design choices, amirite? 😂
    ym2132.github.io/ONNX_MLProgra #ModelDowngrade #DataScience #HackerNews #ngated

  29. Как мы сделали альтернативную систему метчинга товаров в X5 Digital: опыт, грабли и результат

    Привет, Хабр! Меня всё ещё зовут Данила Федюкин, и я продолжаю быть тимлидом в X5 Digital. Руковожу командой, которая занимается метчингом. В прошлый раз я рассказывал, как мы перешли на собственную систему рекомендаций, а в этот раз о том, как делаем то же самое, но с метчингом товаров. X5 Digital – один из цифровых бизнесов Х5. Мы работаем в режиме Highload с RPS в 7500 и отвечаем за всю онлайн-доставку в более чем 1000 городах и населённых пунктах России. Этот канал постоянно растёт. В 2024 году покупатели Х5 совершили свыше 119,5 млн заказов продуктов на дом. Мы делаем собственную in-house WMS для дарксторов, приложения для сборщиков и курьеров, CRM, каталоги товаров и другие онлайн-продукты, а ещё мобильное приложение для торговых сетей. Всё это, отталкиваясь от разных форматов доставки. В «Перекрёстке» среднее время доставки CTD (Click-to-Delivery — от оформления заказа до его получения клиентом) сократилось до 45 минут, в «Чижике» — до 37 минут, а в «Пятёрочке» порядка 40% заказов доставляются клиентам менее чем за 20 минут.

    habr.com/ru/companies/X5Tech/a

    #машинное_обучение #nlp_обработка_текста #матчинг_товаров #рекомендации #векторный_поиск #faiss #hnsw #e5 #bert #onnx

  30. DocSummarizer Part 3 is the “I went too far” deep dive: how to build *proper* document summarization as a pipeline, not “shove text into an LLM and pray”.
    mostlylucid.net/blog/docsummar

    It covers:

    * sentence embeddings (MiniLM/BGE/GTE) + mean pooling + tokenization gotchas
    * ONNX Runtime in C# to run embedding models locally (no Python, no cloud)
    * RAG done right: chunking + segment extraction + salience scoring
    * hybrid retrieval: dense + BM25 fused with RRF, plus MMR to keep summaries diverse
    * real production failure modes (tokenizer mismatch, rare terms, OCR garbage, citation hallucination) + “coverage honesty” when you’re sampling

    If you want *why it works* (and what breaks), this is the post. If you just want to run the tool, Part 2 is enough.
    mostlylucid.net/blog/docsummar

    #llm #ai #onnx #csharp #dotnet

  31. 🚀 Unlock blazing-fast neural network inference on AMD hardware!

    Discover how to maximize #ONNX Runtime + #DirectML with DirectX 12 for seamless GPU pipelines.

    🛠️ Dive into practical setup tips and code samples in our latest guide: gpuopen.com/learn/onnx-directl

  32. AudioMuse-AI is a #free an #opensource tool for automatic playlist generation and sonic analysis to your #selfhosted music libraries like #jellyfin #navidrome and #lyrion. Powered by #librosa and #ONNX, it analyzes your audio to create mood-based playlists
    github.com/NeptuneHub/AudioMus

  33. Новый релиз публичного детектора голоса Silero VAD v6

    На Хабре уже было аж 3 статьи про развитие нашего публичного детектора голоса Silero VAD (последняя тут ). А вот что стало лучше в этот раз: Хочу узнать!

    habr.com/ru/articles/940750/

    #silero #voice_activity_detection #детектор_голоса #pytorch #onnx #python #голосовое_управление #голосовой_помощник #open_source #pypi

  34. Best Open Source Tools for Artificial Intelligence

    What are the best open-source tools for your artificial intelligence setup? Artificial Intelligence (AI) has become a transformative force across various industries, driving innovation and enabling sophisticated solutions to complex problems. The AI ecosystem is supported by a vast array of open-source tools that empower developers, data scientists, and researchers to build, deploy, and manage intelligent systems efficiently. These tools cover diverse aspects of AI, including machine […]

    simplyblock.io/blog/open-sourc

  35. Портируем ML модели на Java с помощью ONNX

    Всем привет, меня зовут Евгений Мунин. Я Senior ML Engineer в Ad Tech, а точнее в программатик платформе по доставке Web рекламы. Сегодня речь пойдет про то, как сделать ML модели, совместимыми с бэк э

    habr.com/ru/articles/833992/

    #onnx #onnxruntime #python #java #machine_learning #adtech

  36. Updated simpit.dev/ - home of the Space Pew Pew #SimPit inspired by a VF-1 Valkyrie cockpit (#Macross)

    That's a glorified #DIY joystick controller with an LCD ('MFD') and plenty of RGB for my #Linux PC

    Newest additions are my videos for #X4Foundations, #EliteDangerous and #FlightOfNova (all also on makertube.net/a/bekopharm) and instructions how to compile #OpenTrack with the #neuralnet tracker using #ONNX runtime.

    Best viewed WITH an ad-blocker and patience (slow).

    #HomeCockpit

  37. Наш публичный детектор голоса стал быстрее в 3 раза (*), качественнее, устойчивее и теперь работает на 6 000 языках

    Мы уже рассказывали про наш детектор голоса на Хабре тут , тут и тут . Кратко опишу, что стало лучше в этот раз: Поддержка 6 000+ языков; Общий рост качества на 5-7%; Существенно повышена устойчивость на шумных данных; TorchScript (*) стал в 3 раза быстрее, а ONNX - на 10% (теперь они примерно равны по скорости , обработка 1 кусочка аудио занимает 325 и 189 μs соответственно);

    habr.com/ru/articles/825208/

    #silero #voice_activity_detection #vad #детекция_голоса #onnx #onnxruntime #pytorch #python_3 #голосовой_помощник #голосовое_управление

  38. 🤖 Using Phi-3 & C# with ONNX for text and vision samples

    Harness the power of Phi-3 SLMs and ONNX for AI-driven .NET applications, showcasing C# integration for advanced tasks like image analysis and interactive Q&A.

    devblogs.microsoft.com/dotnet/ #dotnet #phi3 #onnx