#машинное_обучение_нейросети_python — Public Fediverse posts on home.social

Habr @[email protected] · 2026-02-13 · 09:22 UTC

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM. Вся система делалась мной самостоятельно без использования LangChain – это чистый пайплайн от Tesseract, Pillow, MuPDF/Fitz до e5-multilingual, FAISS (+bm25, который я затрону в статье) и Qwen3:8B в качестве LLM.

https://habr.com/ru/articles/996144/

#RAG #машинное_обучение_нейросети_python #NLP #Построение_поисковых_систем #FAISS #BM25 #Tesseract #OCR #PDF #Embeddings

#embeddings #pdf #ocr #tesseract #bm25 #faiss

Habr @[email protected] · 2026-02-13 · 09:22 UTC

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM. Вся система делалась мной самостоятельно без использования LangChain – это чистый пайплайн от Tesseract, Pillow, MuPDF/Fitz до e5-multilingual, FAISS (+bm25, который я затрону в статье) и Qwen3:8B в качестве LLM.

https://habr.com/ru/articles/996144/

#RAG #машинное_обучение_нейросети_python #NLP #Построение_поисковых_систем #FAISS #BM25 #Tesseract #OCR #PDF #Embeddings

#embeddings #pdf #ocr #tesseract #bm25 #faiss

Habr @[email protected] · 2026-02-13 · 09:22 UTC

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM. Вся система делалась мной самостоятельно без использования LangChain – это чистый пайплайн от Tesseract, Pillow, MuPDF/Fitz до e5-multilingual, FAISS (+bm25, который я затрону в статье) и Qwen3:8B в качестве LLM.

https://habr.com/ru/articles/996144/

#RAG #машинное_обучение_нейросети_python #NLP #Построение_поисковых_систем #FAISS #BM25 #Tesseract #OCR #PDF #Embeddings

#embeddings #pdf #ocr #tesseract #bm25 #faiss

Habr @[email protected] · 2026-02-13 · 09:22 UTC

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM. Вся система делалась мной самостоятельно без использования LangChain – это чистый пайплайн от Tesseract, Pillow, MuPDF/Fitz до e5-multilingual, FAISS (+bm25, который я затрону в статье) и Qwen3:8B в качестве LLM.

https://habr.com/ru/articles/996144/

#RAG #машинное_обучение_нейросети_python #NLP #Построение_поисковых_систем #FAISS #BM25 #Tesseract #OCR #PDF #Embeddings

#rag #машинное_обучение_нейросети_python #nlp #построение_поисковых_систем #faiss #bm25

Habr @[email protected] · 2025-01-30 · 17:12 UTC

Применение ML для оптимизации работы питательных электронасосов в ТЭЦ металлургического комбината

Привет, Хабр. Меня зовут Кирилл, и я работаю в центре машинного обучения «Инфосистемы Джет». Сегодня хочу рассказать, как мы совместно со специалистами ТЭЦ крупного металлургического предприятия сделали цифровой сервис для оптимизации работы питательных электронасосов (ПЭН). Годовой экономический эффект от реализации сервиса превзошел наши ожидания и составил 19,6 млн рублей. Это, на первый взгляд, не так много для большого завода, но учитывая, что там работает целый ряд подобных решений, в совокупности общая сумма экономии впечатляет. Погрузиться в мир оптимизации

https://habr.com/ru/companies/jetinfosystems/articles/878104/

#ml #машинное_обучение #машинное_обучение_нейросети #машинное_обучение_нейросети_python #программирование #python #промышленная_автоматизация #автоматизация #автоматизация_предприятий #искусственный_интеллект

#искусственный_интеллект #автоматизация_предприятий #автоматизация #промышленная_автоматизация #python #программирование

Habr @[email protected] · 2024-12-09 · 11:22 UTC

Обзор недавно выпущенной модели Evo для анализа геномных данных

Давайте представим, что вы начинающий или опытный биоинформатик, или "простой смертный", который хочет углубиться в анализ биологических данных. Спойлер: биоинформатики тоже смертные! Зачастую, не у каждого хватает ценного времени на проверку огромных последовательностей геномных данных, будь то поиск различных мутаций или прогнозирование структуры белков на основе последовательности аминокислот. Но не переживайте, в этом вам поможет искусственный интеллект ! Да, тот самый ИИ, который чуть ли не через каждую минуту обещает изменить мир и избавить нас от всех проблем — от покупки продуктов до поиска идеальных генетических маркеров для рака. Так вот, давайте разберемся, как ИИ может помочь нам, бедным исследователям, быстро и эффективно работать с данными, которые, казалось бы, невозможно обработать, даже за целую жизнь.

https://habr.com/ru/articles/865024/

#биоинформатика #биология #биотехнологии #генетика #генетические_алгоритмы #модель_данных #машинное_обучение #машинное_обучение_нейросети_python #биотех #анализ_данных

#биоинформатика #биология #биотехнологии #генетика #генетические_алгоритмы #модель_данных

Habr @[email protected] · 2024-09-20 · 10:32 UTC

One more ПК для Machine Learning по цене RTX4090

Сборка ПК для машинного обучения: выбор между производительностью и бюджетом Как собрать мощный компьютер для машинного обучения и не разориться? В этой статье я рассказываю о своем опыте выбора комплектующих, включая сравнение RTX 3090 Ti и RTX 4090, баланс между производительностью и стоимостью.

https://habr.com/ru/articles/844834/

#сборка_пк #машинное+обучение #машинное_обучение_нейросети #машинное_обучение_нейросети_python #комплектующие #видеокарты

#видеокарты #комплектующие #машинное_обучение_нейросети_python #машинное_обучение_нейросети #машинное #сборка_пк

Habr @[email protected] · 2024-07-30 · 08:02 UTC

Как стать разработчиком ML и нейронок

Всем привет. Сегодняшняя статья будет интересна тем, кто хочет стать ML‑разработчиком. Последние три года я собирал материалы на эту тему (естественно, проверяя все на себе). Это не просто сухая выжимка из книг, курсов и статей, а личный опыт, основанный на задачах, которые я решаю ежедневно. Меня зовут Агеев Александр, сейчас я ML‑разработчик в команде SOICA. Из других интересных проектов в прошлом — робототехника (детекция и сегментация продуктов питания), исследования мозговой активности ЭЭГ, автоматизации сети хлебозаводов Москвы, разработка алгоритмов в приложении для подсчета ударов мяча и распознавания скелета человека, исследование и применение больших LLM‑моделей, расшифровка аудио и транскрибация текста, а также EyeTracking (подсчет числа открытия и закрытия глаз).

https://habr.com/ru/companies/slsoft/articles/832176/

#машинное_обучение* #машинное_обучение_нейросети #машинное_обучение_нейросети_python #дорожная_карта #нейронные_сети_и_машинное_обучение

#нейронные_сети_и_машинное_обучение #дорожная_карта #машинное_обучение_нейросети_python #машинное_обучение_нейросети #машинное_обучение

Habr @[email protected] · 2024-04-14 · 13:32 UTC

Оптимизация гиперпараметров за 5 секунд?

Пока люди с самыми малыми вычислительными машинами в пустую тратят время на перебор гиперпараметров внутри библиотеки Scikit-learn – настоящие гении тайм-менеджмента выбирают TPE и Optuna. В этой статье мы рассмотрим самые популярные методы оптимизации Grid.Search и Random.Search, принципы Байесовской/вероятностной оптимизации, а также TPE в Optuna. В конце прописали небольшой словарик с функциями, атрибутами и объектами фреймворка, а также привели наглядный пример использования.

https://habr.com/ru/articles/807605/

#Машинное_обучение #машинное_обучение_нейросети #машинное_обучение_нейросети_python #оптимизация #гиперпараметры #ускорить_работу