home.social

#finetuning — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #finetuning, aggregated by home.social.

  1. Ожидание: сделать ИИ-примерочную обоев за 2 дня. Реальность: пришлось добучать свою модель на SD

    В условиях жесткой конкуренции на рынке отделочных материалов любому магазину жизненно необходимо хоть какое-то осязаемое преимущество. Стандартными каталогами и скидками уже никого не удивить. Так у нас родилась идея: сделать онлайн-примерочную обоев. Кажется, звучит как киллер-фича — дать клиенту возможность до покупки увидеть, как конкретный паттерн будет смотреться в его реальном интерьере. На тот момент на рынке вовсю хайповали генеративные модели (такие как «Nano Banana»). На первый взгляд казалось, что проблема решается в два клика. План был надежен, как швейцарские часы: получить API-ключ, отправить по эндпоинту фотографию интерьера и текстуру обоев, сопроводить это правильным промптом (с указанием учитывать перспективу, освещение и масштаб) и забирать готовый результат. Но на практике оказалось, что задача не просто нетривиальная. Она вскрыла целый пласт проблем, о которых создатели популярных генеративок предпочитают умалчивать.

    habr.com/ru/articles/1039804/

    #computer_vision #stable_diffusion #нейросети #finetuning #ecommerce #визуализация_интерьеров #chatgpt

  2. RT @jun_song: One of my best friends from my US college days works as an AI engineer at Big Tech and is about to finish his PhD. I only got my bachelor's, came back to Korea, and worked in a completely different field: strategic planning. My job was planning new businesses and making factories and affiliates run efficiently. My only involvement with AI was building and implementing workflow automation when they asked for it. I was talking to my friend recently. He knows everything about his specific field, but he knew absolutely nothing about how local LLMs work or post-training. That made me realize something: AI has so many different subfields, and having a degree doesn’t mean you know everything. Curiosity for new things and the drive to learn them will be way more important than a degree going forward. And I’ve said this before, but I’m not posting this motivation to sell you a course. I will never do that. Set up a research multi-agent for the latest information and study new things. It will help you massively. If you can leverage your current domain knowledge to figure out which fields will be promising in the future, that’s the best scenario. Thanks for reading this long post. I genuinely want all my followers to succeed, and I hope this information was helpful. 송준 Jun Song (@jun_song) A year ago, I didn't care about fine-tuning or post-training at all. But when I thought about corporate security, it hit me: the demand for fine-tuning is going to be massive. I locked in for a few months. Using nothing but my MacBook, I fine-tuned the SuperGemma4 series entirely on my own, and it r…

    mehr auf Arint.info

    #agent #finetuning #Huggingface #nitter #opensource #things #US #arint_info

    https://x.com/jun_song/status/2056591055064318143#m

  3. Some will say: the multiverse explains it. Infinite universes — one had to have our constants by chance.

    That's cosmological multiverse. Eternal inflation. Untestable. Unfalsifiable.

    Many-worlds is different — a quantum mechanics interpretation. Also unfalsifiable.

    Both are philosophy wearing equations.

    Intelligent design is the answer.

    #Physics #ManyWorlds #Multiverse #FineTuning #IntelligentDesign

  4. The universe runs on constants. Numbers with no units — just baked into reality.

    The fine-structure constant: 1/137. The cosmological constant: fine-tuned to 1 in 10¹²⁰. The strong nuclear force: 2% off — hydrogen never forms.

    Fred Hoyle — an atheist — looked at carbon resonance and called it "a put-up job."

    Penrose put the odds of our universe's initial conditions at 1 in 10^(10¹²³).

    Someone knew exactly what He was doing.

    #Physics #Cosmology #FineTuning #Faith

  5. La leyenda urbana de «entrenar tu propio modelo de IAG» sigue siendo un anzuelo para monetizar tutoriales, cursos, masterclass y demás productos que los gurúes y promotores de la IA generativa usan para seguir lucrando a costa de todos los autores vulnerados. ¡No se dejen engañar!

    #AI #MachineLearning #data #training #finetuning #AImodel #genAI #generativeAI #pretraining #Copyright #opensource

  6. La leyenda urbana de «entrenar tu propio modelo de IAG» sigue siendo un anzuelo para monetizar tutoriales, cursos, masterclass y demás productos que los gurúes y promotores de la IA generativa usan para seguir lucrando a costa de todos los autores vulnerados. ¡No se dejen engañar!

    #AI #MachineLearning #data #training #finetuning #AImodel #genAI #generativeAI #pretraining #Copyright #opensource

  7. La leyenda urbana de «entrenar tu propio modelo de IAG» sigue siendo un anzuelo para monetizar tutoriales, cursos, masterclass y demás productos que los gurúes y promotores de la IA generativa usan para seguir lucrando a costa de todos los autores vulnerados. ¡No se dejen engañar!

    #AI #MachineLearning #data #training #finetuning #AImodel #genAI #generativeAI #pretraining #Copyright #opensource

  8. La leyenda urbana de «entrenar tu propio modelo de IAG» sigue siendo un anzuelo para monetizar tutoriales, cursos, masterclass y demás productos que los gurúes y promotores de la IA generativa usan para seguir lucrando a costa de todos los autores vulnerados. ¡No se dejen engañar!

    #AI #MachineLearning #data #training #finetuning #AImodel #genAI #generativeAI #pretraining #Copyright #opensource

  9. La leyenda urbana de «entrenar tu propio modelo de IAG» sigue siendo un anzuelo para monetizar tutoriales, cursos, masterclass y demás productos que los gurúes y promotores de la IA generativa usan para seguir lucrando a costa de todos los autores vulnerados. ¡No se dejen engañar!

    #AI #MachineLearning #data #training #finetuning #AImodel #genAI #generativeAI #pretraining #Copyright #opensource

  10. Das Oxford Internet Institute zeigt: Empathisches Fine-Tuning von LLMs erhöht Fehlerquoten.

    Modelle wie GPT-4o, Llama-70b und Qwen-32b liefern nach Warm-Persona-Tuning bis zu 30 Prozentpunkte häufiger falsche Fakten. Sie bestätigen fehlerhafte Nutzerannahmen, statt zu korrigieren. Kontrollgruppen mit kaltem Profil blieben stabil.

    #LLM #FineTuning #OxfordInternetInstitute #Sycophancy #AIGeneratedImage

    all-ai.de/news/news26top/sprac

  11. Das Oxford Internet Institute zeigt: Empathisches Fine-Tuning von LLMs erhöht Fehlerquoten.

    Modelle wie GPT-4o, Llama-70b und Qwen-32b liefern nach Warm-Persona-Tuning bis zu 30 Prozentpunkte häufiger falsche Fakten. Sie bestätigen fehlerhafte Nutzerannahmen, statt zu korrigieren. Kontrollgruppen mit kaltem Profil blieben stabil.

    #LLM #FineTuning #OxfordInternetInstitute #Sycophancy #AIGeneratedImage

    all-ai.de/news/news26top/sprac

  12. Das Oxford Internet Institute zeigt: Empathisches Fine-Tuning von LLMs erhöht Fehlerquoten.

    Modelle wie GPT-4o, Llama-70b und Qwen-32b liefern nach Warm-Persona-Tuning bis zu 30 Prozentpunkte häufiger falsche Fakten. Sie bestätigen fehlerhafte Nutzerannahmen, statt zu korrigieren. Kontrollgruppen mit kaltem Profil blieben stabil.

    #LLM #FineTuning #OxfordInternetInstitute #Sycophancy #AIGeneratedImage

    all-ai.de/news/news26top/sprac

  13. Das Oxford Internet Institute zeigt: Empathisches Fine-Tuning von LLMs erhöht Fehlerquoten.

    Modelle wie GPT-4o, Llama-70b und Qwen-32b liefern nach Warm-Persona-Tuning bis zu 30 Prozentpunkte häufiger falsche Fakten. Sie bestätigen fehlerhafte Nutzerannahmen, statt zu korrigieren. Kontrollgruppen mit kaltem Profil blieben stabil.

    #LLM #FineTuning #OxfordInternetInstitute #Sycophancy #AIGeneratedImage

    all-ai.de/news/news26top/sprac

  14. Das Oxford Internet Institute zeigt: Empathisches Fine-Tuning von LLMs erhöht Fehlerquoten.

    Modelle wie GPT-4o, Llama-70b und Qwen-32b liefern nach Warm-Persona-Tuning bis zu 30 Prozentpunkte häufiger falsche Fakten. Sie bestätigen fehlerhafte Nutzerannahmen, statt zu korrigieren. Kontrollgruppen mit kaltem Profil blieben stabil.

    #LLM #FineTuning #OxfordInternetInstitute #Sycophancy #AIGeneratedImage

    all-ai.de/news/news26top/sprac

  15. Mô hình AI nhỏ Hito 1.7B, được tinh chỉnh chỉ với ~300 ví dụ, nay có thể đếm chính xác chữ 'r' trong từ 'strawberry' (3 chữ), vượt trội nhiều AI lớn hơn. Đây là bằng chứng cho thấy các mô thức tư duy phức tạp có thể được chuyển giao sang các mô hình nhỏ hơn. Hito sử dụng các 'thẻ tư duy' nội bộ để suy luận và tự sửa lỗi. Một bước tiến thú vị trong AI!

    #AI #Hito #LLM #FineTuning #SmallModels #Reasoning
    #TríTuệNhânTạo #HọcSâu #MôHìnhNgônNgữ #TinhChỉnhAI

    reddit.com/r/LocalLLaMA/commen

  16. [Перевод] Без тренировки, но с обучением: имплицитная динамика in-context learning

    Одной из наиболее примечательных особенностей Large Language Models (LLM) является их способность к in-context learning — обучению в контексте. В частности, на этапе инференса LLM может усваивать новые паттерны без какого-либо дополнительного обновления весов, если эти паттерны представлены в виде примеров в промпте, даже если эти паттерны не встречались во время обучения. Механизмы, за счёт которых это возможно, всё ещё во многом остаются неизвестными. В данной работе мы показываем, что комбинация слоя self-attention с MLP позволяет трансформер-блоку неявно модифицировать веса MLP-слоя в зависимости от контекста. Мы утверждаем на основе теоретического анализа и экспериментов, что этот простой механизм может объяснять, почему LLM способны обучаться в контексте, а не только во время тренировки модели. В частности, мы демонстрируем, что при ряде упрощающих допущений трансформер-блок неявно преобразует контекст в low-rank обновление весов MLP-слоя.

    habr.com/ru/articles/949064/

    #llm #llmмодели #icl #mlp #ml #machine_learning #finetuning

  17. От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM

    В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно и хотя бы делала вид, что понимает вопрос, — вам нужны были армия аннотаторов и бюджет уровня OpenAI. Четыре года спустя у нас зоопарк из десятка методов выравнивания, половину из которых можно запустить на одной RTX 4090 за выходные. DPO убрал reward model. SimPO убрал reference model. GRPO и DeepSeek R1 доказали, что RL жив — но в новой форме. Anthropic опубликовала конституцию Claude на ~80 страниц в открытом доступе и сменила парадигму: от правил к причинам. Мир изменился. Разбираемся, как именно. В статье — полная история пост-обучения от RLHF до Constitutional AI, математика ключевых методов (в спойлерах, без боли), рабочий код на TRL + QLoRA с гиперпараметрами, большие сравнительные таблицы и дерево решений «что выбрать для вашей задачи». Плюс честный разговор о проблемах, о которых не пишут в туториалах: distribution mismatch, reward hacking, catastrophic forgetting и почему модели умеют «притворяться» выровненными. Для разработчиков, ML-инженеров и всех, кто хоть раз открывал Hugging Face и думал: «а что если я это fine-tune...»

    habr.com/ru/articles/1002298/

    #LLM #RLHF #DPO #finetuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional_AI #языковые_модели

  18. От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM В 2022 году существовал ровно один спо...

    #LLM #RLHF #DPO #fine-tuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional #AI #языковые

    Origin | Interest | Match
  19. От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM В 2022 году существовал ровно один спо...

    #LLM #RLHF #DPO #fine-tuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional #AI #языковые

    Origin | Interest | Match
  20. [Перевод] Как Claude научился файн-тюнить опенсорсные LLM

    Claude Code теперь умеет сам файнтюнить LLM на облачных GPU — от валидации датасета до пуша модели на Hub. Показываю, как это работает.

    habr.com/ru/articles/973898/

    #Claude_Code #finetuning #Hugging_Face #LLM #AIагенты #машинное_обучение #LoRA #SFT #DPO #opensource

  21. Выбор LLM и фреймворка для ИИ-агентов

    Путь от одной A100 в облаке до кластера на H200 — это не просто апгрейд железа, а история о том, как ML-команда перестала искать «ту самую идеальную модель» и начала строить экосистему. Когда под капотом миллионы строк C-кода PostgreSQL, а задачи варьируются от генерации hint-сетов до Graph-RAG, модель превращается из «черного ящика» в обычный заменяемый компонент. Рассказываем, как мы пересобрали стек на базе vLLM и MCP, почему контекст-менеджмент важнее весов модели и как заставить 0.6B-параметров работать не хуже гигантов через GRPO.

    habr.com/ru/companies/postgres

    #llm #aiагент #ииагенты #qwen3 #ragas #finetuning #дообучение #trl #grpo #gspo

  22. Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

    В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

    habr.com/ru/articles/1026778/

    #Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching