home.social

#finetuning — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #finetuning, aggregated by home.social.

  1. Some will say: the multiverse explains it. Infinite universes — one had to have our constants by chance.

    That's cosmological multiverse. Eternal inflation. Untestable. Unfalsifiable.

    Many-worlds is different — a quantum mechanics interpretation. Also unfalsifiable.

    Both are philosophy wearing equations.

    Intelligent design is the answer.

    #Physics #ManyWorlds #Multiverse #FineTuning #IntelligentDesign

  2. The universe runs on constants. Numbers with no units — just baked into reality.

    The fine-structure constant: 1/137. The cosmological constant: fine-tuned to 1 in 10¹²⁰. The strong nuclear force: 2% off — hydrogen never forms.

    Fred Hoyle — an atheist — looked at carbon resonance and called it "a put-up job."

    Penrose put the odds of our universe's initial conditions at 1 in 10^(10¹²³).

    Someone knew exactly what He was doing.

    #Physics #Cosmology #FineTuning #Faith

  3. La leyenda urbana de «entrenar tu propio modelo de IAG» sigue siendo un anzuelo para monetizar tutoriales, cursos, masterclass y demás productos que los gurúes y promotores de la IA generativa usan para seguir lucrando a costa de todos los autores vulnerados. ¡No se dejen engañar!

    #AI #MachineLearning #data #training #finetuning #AImodel #genAI #generativeAI #pretraining #Copyright #opensource

  4. Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

    В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

    habr.com/ru/articles/1026778/

    #Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

  5. Почему ИИ-пилоты не доходят до реального производства и как это исправить архитектурой

    8–9 апреля на конференции Data Fusion ВТБ публично признал: их ИИ-проекты массово застревают между пилотом и промышленной эксплуатацией. Это не жалоба — это диагноз от людей, которые потратили на ИИ сотни миллионов. Яндекс и Сбер в ответ продают инструменты. Но никто не объяснил почему это происходит структурно. Почему пилот работает, а в реальном производстве ломается. Почему 0.85⁸ = 27% — и что с этим делать архитектурно.

    habr.com/ru/articles/1024350/

    #низкоэнтропийная_автоматизация #ИИ_в_производстве #MLOps #LoRA #finetuning #humanintheloop #compounding_entropy #локальные_LLM #цифровой_двойник

  6. От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM

    В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно и хотя бы делала вид, что понимает вопрос, — вам нужны были армия аннотаторов и бюджет уровня OpenAI. Четыре года спустя у нас зоопарк из десятка методов выравнивания, половину из которых можно запустить на одной RTX 4090 за выходные. DPO убрал reward model. SimPO убрал reference model. GRPO и DeepSeek R1 доказали, что RL жив — но в новой форме. Anthropic опубликовала конституцию Claude на ~80 страниц в открытом доступе и сменила парадигму: от правил к причинам. Мир изменился. Разбираемся, как именно. В статье — полная история пост-обучения от RLHF до Constitutional AI, математика ключевых методов (в спойлерах, без боли), рабочий код на TRL + QLoRA с гиперпараметрами, большие сравнительные таблицы и дерево решений «что выбрать для вашей задачи». Плюс честный разговор о проблемах, о которых не пишут в туториалах: distribution mismatch, reward hacking, catastrophic forgetting и почему модели умеют «притворяться» выровненными. Для разработчиков, ML-инженеров и всех, кто хоть раз открывал Hugging Face и думал: «а что если я это fine-tune...»

    habr.com/ru/articles/1002298/

    #LLM #RLHF #DPO #finetuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional_AI #языковые_модели

  7. От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM В 2022 году существовал ровно один спо...

    #LLM #RLHF #DPO #fine-tuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional #AI #языковые

    Origin | Interest | Match
  8. От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM В 2022 году существовал ровно один спо...

    #LLM #RLHF #DPO #fine-tuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional #AI #языковые

    Origin | Interest | Match
  9. #Steady-#Klimacrew

    Wenn #Sprachmodelle plötzlich menschenverachtende Aussagen treffen oder gefährliche Tipps geben, läuft etwas gewaltig schief.

    Eine aktuelle Untersuchung zeigt, wie schnell #Feintuning unerwartete Folgen haben kann – mit brisanten Konsequenzen für reale Anwendungen.

    Das Phänomen wurde nur durch Zufall entdeckt.

    tino-eberl.de/missbrauch-kuens

    #KI #Sprachmodelle #Finetuning #AIRisiko #LLM #AISecurity #KIMissbrauch #Retröt

  10. Fine-tuning Qwen-8B под проприетарный синтаксис (CADINP) на одной RTX 3090: опыт инженера-конструктора Возможно ли на одной ...

    #LLM #fine-tuning #локальные #нейросети #RTX #3090 #Unsloth #Qwen #DeepSeek #GGUF #SOFiSTiK

    Origin | Interest | Match
  11. Prompt Engineering vs Fine-Tuning: How AI Models Improve

    If your AI model feels unpredictable, retraining is not always the answer. This article explains prompt engineering vs fine-tuning in plain terms, helping teams get more consistent results, avoid unnecessary costs, and choose the right optimization approach for real-world AI & data annotation services.

    Know More: hitechdigital.com/blog/prompt-

    #PromptEngineering #FineTuning #ArtificialIntelligence #MachineLearning #AIModelData #DataAnnotation

  12. Sparse nén mô hình fine-tuned và dataset thành delta từ bản gốc. Nén 14GB xuống 1.4GB (lossless) hoặc 50MB (tương đương LoRA), phục hồi trong 4 giây. Áp dụng sau khi training, phù hợp mọi mô hình đã huấn luyện. Hiệu quả cho AI y tế, tài chính, pháp lý. #AI #MachineLearning #FineTuning #ModelCompression #Sparse #TríTuệNhânTạo #HọcMáy #NénMôHình

    reddit.com/r/LocalLLaMA/commen

  13. Выбор LLM и фреймворка для ИИ-агентов

    Путь от одной A100 в облаке до кластера на H200 — это не просто апгрейд железа, а история о том, как ML-команда перестала искать «ту самую идеальную модель» и начала строить экосистему. Когда под капотом миллионы строк C-кода PostgreSQL, а задачи варьируются от генерации hint-сетов до Graph-RAG, модель превращается из «черного ящика» в обычный заменяемый компонент. Рассказываем, как мы пересобрали стек на базе vLLM и MCP, почему контекст-менеджмент важнее весов модели и как заставить 0.6B-параметров работать не хуже гигантов через GRPO.

    habr.com/ru/companies/postgres

    #llm #aiагент #ииагенты #qwen3 #ragas #finetuning #дообучение #trl #grpo #gspo

  14. [Перевод] Как Claude научился файн-тюнить опенсорсные LLM

    Claude Code теперь умеет сам файнтюнить LLM на облачных GPU — от валидации датасета до пуша модели на Hub. Показываю, как это работает.

    habr.com/ru/articles/973898/

    #Claude_Code #finetuning #Hugging_Face #LLM #AIагенты #машинное_обучение #LoRA #SFT #DPO #opensource

  15. Mô hình AI nhỏ Hito 1.7B, được tinh chỉnh chỉ với ~300 ví dụ, nay có thể đếm chính xác chữ 'r' trong từ 'strawberry' (3 chữ), vượt trội nhiều AI lớn hơn. Đây là bằng chứng cho thấy các mô thức tư duy phức tạp có thể được chuyển giao sang các mô hình nhỏ hơn. Hito sử dụng các 'thẻ tư duy' nội bộ để suy luận và tự sửa lỗi. Một bước tiến thú vị trong AI!

    #AI #Hito #LLM #FineTuning #SmallModels #Reasoning
    #TríTuệNhânTạo #HọcSâu #MôHìnhNgônNgữ #TinhChỉnhAI

    reddit.com/r/LocalLLaMA/commen

  16. T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

    Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала! Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI, а также стажер‑исследователь Центра глубинного обучения и байесовских методов НИУ ВШЭ. Cегодня я расскажу про наше свежее исследование T‑LoRA: Single Image Diffusion Model Customization Without Overfitting . Мы с коллегами придумали эффективный способ как файнтюнить диффузионные модели с помощью LoRA всего по одной картинке . Представьте такую ситуацию: вы хотите, чтобы модель генерировала вашу кошечку узнаваемой и в самых разных сценариях, но у вас нет времени или желания собирать обширный разнообразный датасет. А может, у вас вообще есть всего одна фотография (с хозяевами кошек так обычно не бывает, но допустим). Хорошая новость: эту задачу можно решить, копнув поглубже в свойства диффузии! В этой статье я расскажу, как это сделать.

    habr.com/ru/companies/airi/art

    #diffusion_models #finetuning #loraадаптеры #lora #image_generation

  17. T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

    Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала! Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI, а также стажер‑исследователь Центра глубинного обучения и байесовских методов НИУ ВШЭ. Cегодня я расскажу про наше свежее исследование T‑LoRA: Single Image Diffusion Model Customization Without Overfitting . Мы с коллегами придумали эффективный способ как файнтюнить диффузионные модели с помощью LoRA всего по одной картинке . Представьте такую ситуацию: вы хотите, чтобы модель генерировала вашу кошечку узнаваемой и в самых разных сценариях, но у вас нет времени или желания собирать обширный разнообразный датасет. А может, у вас вообще есть всего одна фотография (с хозяевами кошек так обычно не бывает, но допустим). Хорошая новость: эту задачу можно решить, копнув поглубже в свойства диффузии! В этой статье я расскажу, как это сделать.

    habr.com/ru/companies/airi/art

    #diffusion_models #finetuning #loraадаптеры #lora #image_generation

  18. T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

    Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала! Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI, а также стажер‑исследователь Центра глубинного обучения и байесовских методов НИУ ВШЭ. Cегодня я расскажу про наше свежее исследование T‑LoRA: Single Image Diffusion Model Customization Without Overfitting . Мы с коллегами придумали эффективный способ как файнтюнить диффузионные модели с помощью LoRA всего по одной картинке . Представьте такую ситуацию: вы хотите, чтобы модель генерировала вашу кошечку узнаваемой и в самых разных сценариях, но у вас нет времени или желания собирать обширный разнообразный датасет. А может, у вас вообще есть всего одна фотография (с хозяевами кошек так обычно не бывает, но допустим). Хорошая новость: эту задачу можно решить, копнув поглубже в свойства диффузии! В этой статье я расскажу, как это сделать.

    habr.com/ru/companies/airi/art

    #diffusion_models #finetuning #loraадаптеры #lora #image_generation

  19. T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

    Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала! Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI, а также стажер‑исследователь Центра глубинного обучения и байесовских методов НИУ ВШЭ. Cегодня я расскажу про наше свежее исследование T‑LoRA: Single Image Diffusion Model Customization Without Overfitting . Мы с коллегами придумали эффективный способ как файнтюнить диффузионные модели с помощью LoRA всего по одной картинке . Представьте такую ситуацию: вы хотите, чтобы модель генерировала вашу кошечку узнаваемой и в самых разных сценариях, но у вас нет времени или желания собирать обширный разнообразный датасет. А может, у вас вообще есть всего одна фотография (с хозяевами кошек так обычно не бывает, но допустим). Хорошая новость: эту задачу можно решить, копнув поглубже в свойства диффузии! В этой статье я расскажу, как это сделать.

    habr.com/ru/companies/airi/art

    #diffusion_models #finetuning #loraадаптеры #lora #image_generation

  20. [Перевод] Без тренировки, но с обучением: имплицитная динамика in-context learning

    Одной из наиболее примечательных особенностей Large Language Models (LLM) является их способность к in-context learning — обучению в контексте. В частности, на этапе инференса LLM может усваивать новые паттерны без какого-либо дополнительного обновления весов, если эти паттерны представлены в виде примеров в промпте, даже если эти паттерны не встречались во время обучения. Механизмы, за счёт которых это возможно, всё ещё во многом остаются неизвестными. В данной работе мы показываем, что комбинация слоя self-attention с MLP позволяет трансформер-блоку неявно модифицировать веса MLP-слоя в зависимости от контекста. Мы утверждаем на основе теоретического анализа и экспериментов, что этот простой механизм может объяснять, почему LLM способны обучаться в контексте, а не только во время тренировки модели. В частности, мы демонстрируем, что при ряде упрощающих допущений трансформер-блок неявно преобразует контекст в low-rank обновление весов MLP-слоя.

    habr.com/ru/articles/949064/

    #llm #llmмодели #icl #mlp #ml #machine_learning #finetuning

  21. Détail de l’ornement.

    L’arabesque qui bourgeonne du ṫatwīl est repris d’un element de la mosaïque « Plus ultra » se trouvant dans l’allée du Mexuar dans l’Alambra de Grenade, là où Lisān al-Ḋīn auteur des vers en question, passa le plus clair de son temps.

    #art #calligraphy #typography #arab #arabe #finetuning #poesie #poetry #alandalus #andalousie #mosaic #alhambra #granada

  22. Exemple de justification typographique avec l’abjad arabe qui est cursif et où donc le réglage de l’approche s’opère en ajustant la taille du liant entre deux lettres.

    Le texte arabe utilisé à titre d’exemple est un dystique du Jadaka al ṙayṫ de Lisān al-Ḋīn ibn al-Xatib :

    ضاق عن وجدي بكم رحب الفضا
    لا أبالي شرقه من غربـه

    Votre absence me rendit le cosmos si étroit
    Que peu me chaut d’en distinguer l’orient de l’occident.

    #art #calligraphy #typography #arab #arabe #finetuning #poesie #poetry

  23. [Перевод] Селективная генерализация: улучшение возможностей при сохранении alignment

    TL;DR: Мы провели бенчмаркинг семи методов, направленных на предотвращение эмерджентного рассогласования и других форм некорректного обобщения с использованием ограниченного объёма alignment-данных. Мы демонстрируем устойчивый трейдофф между способностями модели и согласованием, подчеркивая необходимость более эффективных методов для снижения этого конфликта. Простое включение alignment-данных в микс обучающих данных оказывается недостаточным для предотвращения рассогласования, однако простое наложение KL Divergence penalty на alignment-данные показывает лучшие результаты, чем более сложные подходы.

    habr.com/ru/articles/945838/

    #llm #alignment #lora #large_language_model #ии #ai #finetuning #парето

  24. [Перевод] Скрытая угроза: как LLM заражают друг друга предубеждениями через «безобидные» данные

    tl;dr. Мы изучаем сублиминальное обучение — неожиданное явление, при котором языковые модели перенимают свойства из данных, сгенерированных другой моделью, даже если эти данные семантически никак не связаны с передаваемыми свойствами. Например, «студент» начинает предпочитать сов, если его обучить на последовательностях чисел, сгенерированных «учителем», который предпочитает сов. Тот же феномен способен передавать misalignment через данные, которые выглядят абсолютно безобидными. Этот эффект проявляется только в том случае, если учитель и студент основаны на одной и той же базовой модели. Исследование проведено в рамках программы Anthropic Fellows . Эта статья также опубликована в блоге Anthropic Alignment Science.

    habr.com/ru/articles/937278/

    #llm #llmмодели #distillation #ai #ии #искусственный_интеллект #finetuning #chainofthought #misalignment #anthropic

  25. Retrieval-Augmented Generation (RAG): глубокий технический обзор

    Retrieval-Augmented Generation (RAG) – это архитектурный подход к генеративным моделям, который сочетает навыки поиска информации с генеративными возможностями больших языковых моделей (LLM). Идея RAG была предложена в 2020 году, чтобы преодолеть ограничение LLM – замкнутость на знаниях из обучающих данных. Вместо попыток «вживить» все знания в параметры модели, RAG-подход позволяет модели запрашивать актуальные сведения из внешних источников (баз знаний) во время генерации ответа . Это обеспечивает более точные и актуальные ответы, опирающиеся на факты, а не только на память модели. В этой статье мы подробно рассмотрим : архитектуру RAG, её компоненты и этапы работы, современные инструменты и практики для реализации RAG, примеры кода на Python, кейсы применения в бизнесе и науке, технические вызовы и лучшие практики, сравнение RAG с классическим fine-tuning, перспективы технологии.

    habr.com/ru/articles/931396/

    #rag #retrieval_augmented_generation #llm #ai #rag_pipeline #rag_ai #finetuning #ragas

  26. Prepping data for AI feels a bit like meal prep…
    Except your dinner is a .jsonl file and your customer is a llama. 🐪

    I’m learning the ropes of AI training, starting with how to turn raw .txt into structured data for LLMs.

    🎥 How to Feed Your Llama is live:
    youtube.com/watch?v=YB9cVyjV9B

    #AI #LLM #JSONL #FineTuning #Python #LearningInPublic #LLaMA #Mistral

  27. Накорми языковую модель документами

    Одна из актуальных задач для компаний в сфере ИИ - это поиск и генерация ответов по внутренней документации. На первый взгляд кажется, что решение простое: скормить документы большой языковой модели (LLM) и получать ответы. На практике же технические решения оказываются далеко не такими эффективными и качественными, как хотелось бы. Сейчас для работы с локальными документами доступны два основных подхода - RAG (Retrieval-Augmented Generation) и дообучение модели (fine-tuning). Оба подхода имеют свои преимущества и ограничения. В статье рассмотрим их как с теоретической, так и с практической точки зрения.

    habr.com/ru/articles/898938/

    #rag #finetuning #huggingface #llmмодели #llm #нейросети #большие_языковые_модели #nlp #искусственный_интеллект #natural_language_processing

  28. Fine tuning или RAG. Что выбрать?

    🐝 RAG vs Fine tuning. В чём разница? При разработке ИИ проектов существует два способа интеграции внешних данных: RAG хранилища и Fine tuning. Для не технаря отличия не очевидны. Я сделал short summary, чтобы по существу изложить плюсы и минусы двух решений

    habr.com/ru/articles/898026/

    #typescript #javascript #python #finetuning #rag #ml #llm #yandexcloud #машинное+обучение #исскуственный_интеллект