#машинное_обучение_нейросети_python — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #машинное_обучение_нейросети_python, aggregated by home.social.
-
Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору
Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM. Вся система делалась мной самостоятельно без использования LangChain – это чистый пайплайн от Tesseract, Pillow, MuPDF/Fitz до e5-multilingual, FAISS (+bm25, который я затрону в статье) и Qwen3:8B в качестве LLM.
https://habr.com/ru/articles/996144/
#RAG #машинное_обучение_нейросети_python #NLP #Построение_поисковых_систем #FAISS #BM25 #Tesseract #OCR #PDF #Embeddings
-
Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору
Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM. Вся система делалась мной самостоятельно без использования LangChain – это чистый пайплайн от Tesseract, Pillow, MuPDF/Fitz до e5-multilingual, FAISS (+bm25, который я затрону в статье) и Qwen3:8B в качестве LLM.
https://habr.com/ru/articles/996144/
#RAG #машинное_обучение_нейросети_python #NLP #Построение_поисковых_систем #FAISS #BM25 #Tesseract #OCR #PDF #Embeddings
-
Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору
Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM. Вся система делалась мной самостоятельно без использования LangChain – это чистый пайплайн от Tesseract, Pillow, MuPDF/Fitz до e5-multilingual, FAISS (+bm25, который я затрону в статье) и Qwen3:8B в качестве LLM.
https://habr.com/ru/articles/996144/
#RAG #машинное_обучение_нейросети_python #NLP #Построение_поисковых_систем #FAISS #BM25 #Tesseract #OCR #PDF #Embeddings
-
Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору
Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM. Вся система делалась мной самостоятельно без использования LangChain – это чистый пайплайн от Tesseract, Pillow, MuPDF/Fitz до e5-multilingual, FAISS (+bm25, который я затрону в статье) и Qwen3:8B в качестве LLM.
https://habr.com/ru/articles/996144/
#RAG #машинное_обучение_нейросети_python #NLP #Построение_поисковых_систем #FAISS #BM25 #Tesseract #OCR #PDF #Embeddings
-
Применение ML для оптимизации работы питательных электронасосов в ТЭЦ металлургического комбината
Привет, Хабр. Меня зовут Кирилл, и я работаю в центре машинного обучения «Инфосистемы Джет». Сегодня хочу рассказать, как мы совместно со специалистами ТЭЦ крупного металлургического предприятия сделали цифровой сервис для оптимизации работы питательных электронасосов (ПЭН). Годовой экономический эффект от реализации сервиса превзошел наши ожидания и составил 19,6 млн рублей. Это, на первый взгляд, не так много для большого завода, но учитывая, что там работает целый ряд подобных решений, в совокупности общая сумма экономии впечатляет. Погрузиться в мир оптимизации
https://habr.com/ru/companies/jetinfosystems/articles/878104/
#ml #машинное_обучение #машинное_обучение_нейросети #машинное_обучение_нейросети_python #программирование #python #промышленная_автоматизация #автоматизация #автоматизация_предприятий #искусственный_интеллект
-
Обзор недавно выпущенной модели Evo для анализа геномных данных
Давайте представим, что вы начинающий или опытный биоинформатик, или "простой смертный", который хочет углубиться в анализ биологических данных. Спойлер: биоинформатики тоже смертные! Зачастую, не у каждого хватает ценного времени на проверку огромных последовательностей геномных данных, будь то поиск различных мутаций или прогнозирование структуры белков на основе последовательности аминокислот. Но не переживайте, в этом вам поможет искусственный интеллект ! Да, тот самый ИИ, который чуть ли не через каждую минуту обещает изменить мир и избавить нас от всех проблем — от покупки продуктов до поиска идеальных генетических маркеров для рака. Так вот, давайте разберемся, как ИИ может помочь нам, бедным исследователям, быстро и эффективно работать с данными, которые, казалось бы, невозможно обработать, даже за целую жизнь.
https://habr.com/ru/articles/865024/
#биоинформатика #биология #биотехнологии #генетика #генетические_алгоритмы #модель_данных #машинное_обучение #машинное_обучение_нейросети_python #биотех #анализ_данных
-
One more ПК для Machine Learning по цене RTX4090
Сборка ПК для машинного обучения: выбор между производительностью и бюджетом Как собрать мощный компьютер для машинного обучения и не разориться? В этой статье я рассказываю о своем опыте выбора комплектующих, включая сравнение RTX 3090 Ti и RTX 4090, баланс между производительностью и стоимостью.
https://habr.com/ru/articles/844834/
#сборка_пк #машинное+обучение #машинное_обучение_нейросети #машинное_обучение_нейросети_python #комплектующие #видеокарты
-
Как стать разработчиком ML и нейронок
Всем привет. Сегодняшняя статья будет интересна тем, кто хочет стать ML‑разработчиком. Последние три года я собирал материалы на эту тему (естественно, проверяя все на себе). Это не просто сухая выжимка из книг, курсов и статей, а личный опыт, основанный на задачах, которые я решаю ежедневно. Меня зовут Агеев Александр, сейчас я ML‑разработчик в команде SOICA. Из других интересных проектов в прошлом — робототехника (детекция и сегментация продуктов питания), исследования мозговой активности ЭЭГ, автоматизации сети хлебозаводов Москвы, разработка алгоритмов в приложении для подсчета ударов мяча и распознавания скелета человека, исследование и применение больших LLM‑моделей, расшифровка аудио и транскрибация текста, а также EyeTracking (подсчет числа открытия и закрытия глаз).
https://habr.com/ru/companies/slsoft/articles/832176/
#машинное_обучение* #машинное_обучение_нейросети #машинное_обучение_нейросети_python #дорожная_карта #нейронные_сети_и_машинное_обучение
-
Оптимизация гиперпараметров за 5 секунд?
Пока люди с самыми малыми вычислительными машинами в пустую тратят время на перебор гиперпараметров внутри библиотеки Scikit-learn – настоящие гении тайм-менеджмента выбирают TPE и Optuna. В этой статье мы рассмотрим самые популярные методы оптимизации Grid.Search и Random.Search, принципы Байесовской/вероятностной оптимизации, а также TPE в Optuna. В конце прописали небольшой словарик с функциями, атрибутами и объектами фреймворка, а также привели наглядный пример использования.
https://habr.com/ru/articles/807605/
#Машинное_обучение #машинное_обучение_нейросети #машинное_обучение_нейросети_python #оптимизация #гиперпараметры #ускорить_работу
-
Обучение с подкреплением. Q-обучение. Понятное объяснение
В данной статье я подробно опишу один из методов обучения с подкреплением - обучение на основе функции полезности (Q-обучение или Q-learning).
https://habr.com/ru/articles/789218/
#qlearning #qобучение #обучение_с_подкреплением #машинное_обучение #машинное_обучение_нейросети_python