home.social

#deepseek_v3 — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #deepseek_v3, aggregated by home.social.

  1. Нет, тренировка DeepSeek R1 не стоила $294 тыс. Реальная цифра в десятки раз выше

    В интернете широко обсуждают опубликованный в Nature отчет авторов DeepSeek, в котором якобы заявляется, что обучение модели R1 обошлось компании всего в 294 тысячи долларов. Цифра выглядит сенсационной, ведь конкуренты тратят на создание своих моделей в тысячи раз большие суммы: например, для Claude Sonnet 3.7 давали оценку в несколько десятков миллионов долларов. Если бы взятая из Nature цифра была правдой, то получилось бы так, что у конкурентов нет никаких шансов перед командой DeepSeek. Но это не так.

    habr.com/ru/articles/948882/

    #DeepSeek #DeepSeek_R1 #deepseek_v3 #deepseek_v31

  2. Запускаем самый маленький квант DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

    Релиз DeepSeek R2 официально отложен и пока R1 не потерял актуальность, попробуем запустить модель на домашнем ПК. Оригинальная DeepSeek R1 имеет размер 700гб, так как она обучалась в fp8, но если бы она обучалась в стандартных f16, её вес был бы 1400гб, а мы попробуем версию в 10 раз меньше. Запустим самый маленький 1.66-битный IQ1_S_R4 квант полноценной модели размером 130гб на игровом ПК, отдельно с 4090 и 4060ti. Загрузим туда очень-очень много контекста и проверим, такой квант всё ещё способен давать разумные ответы или нет.

    habr.com/ru/articles/921540/

    #llamacpp #ik_llama #deepseek #локальные_нейросети #deepseek_r1 #deepseek_v3

  3. Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

    Локальный DeepSeek-R1-0528 на скромном железе? Реально. Со скоростью улитки? Первоначально – да. Но итог моего эксперимента: эту 'улитку' можно заставить работать вдвое быстрее.

    habr.com/ru/articles/916966/

    #deepseek #ai #llm #local_ai #epyc #deepseek_r1 #deepseek_v3 #llamacpp #huggingface #gguf

  4. DeepSeek V3-0324. Что изменилось?

    Все пишут, что Deep Seek V3-0324 ВНЕЗАПНО СТАЛ СИЛЬНО ЛУЧШЕ. И в чем именно? Ночью, без объявления войны, DeepSeek вырос на 19.8 баллов в математике и 10 баллов в кодировании. Также официально заявлены некоторые улучшения в понимании фронтенда и вызова тулов. Напоминаю, речь идет о нерассуждающей версии - она не рассказывает о своих мыслях как DeepSeek R1, зато работает более быстро и стабильно. Восхитительно. Хочу прочитать!

    habr.com/ru/companies/bar/arti

    #ai #ml #llm #deepseek #deepseek_v3

  5. Дипсик не работает: Обходим ошибку Deepseek service is busy хитрым способом

    DeepSeek всё чаще оказывается недоступен из-за перегруженности серверов. В этой статье решим проблему оригинальным способом – установим Дипсик локально, чтобы он работал вообще без подключения к Интернету.

    habr.com/ru/articles/878498/

    #deepseek_r1 #deepseek_v3 #deepseek_ai #deepseek #дипсик #нейросети #ии_помощник #ииассистент #ии_чатбот

  6. HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?

    Компания HighFlyer внедрила в свою LLM такие архитектурные фишки как Multi-Head Latent Attention, Mixture of Experts (MoE) with Auxiliary-Loss-Free Load Balancing и Multi-Token Predict. Однако все эти новшества уже были ранее представлены в других LLM: GPT-4, Llama, Mistrall и других. Полистав WhitePaper HighFlyer, можно наткнуться на описание собственного непубличного тренировочного фреймворка HAI LLM , эксплуатирующего действительно новые фишки, которые позволяют значительно сэкономить на обучении модели. Именно в фреймворке и кроется, как мне кажется, одна из основных инноваций DeepSeek, о чем мне бы и хотелось поговорить далее. Приятного прочтения)

    habr.com/ru/companies/bothub/a

    #deepseek #hai_llm #HighFlyer #llm #ии #ии_и_машинное_обучение #deepseek_v3

  7. Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы

    Рассказываю про способы, как можно установить китайскую модель локально и использовать без интернета. Причем так, чтобы работать не через консоль, а через удобный интерфейс чат-бота.

    habr.com/ru/articles/877772/

    #deepseek #deepseek_v3 #deepseek_r1 #дипсик #нейросеть #нейросети #llm #llmмодели #ии #ииассистент

  8. [Перевод] Как работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемах

    DeepSeek-R1 — самая громкая новика в мире больших языковых моделей, сочетающий открытые веса, дистиллированные варианты и уникальную методику обучения рассуждению. Эта статья рассказывает, как создатели модели сумели добиться таких результатов, объединив широкомасштабное обучение с подкреплением, промежуточные модели и большой массив примеров с развёрнутыми цепочками мыслей, чтобы в итоге получить универсальную, эффективную и более удобочитаемую модель. Автор оригинала: Jay Alammar

    habr.com/ru/articles/877360/

    #nature #ai #artificial_intelligence #deepseek #deepseek_r1 #deepseek_v3 #ии #искусственный_интеллект #llm #большие_языковые_модели

  9. [Перевод] Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность

    «Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст. Это явление было впервые открыто и задокументировано в случае GPT-2 и GPT-3 , но до сих пор таких аномалий не находили в DeepSeek‑V3 . Поэтому я решил сделать это сам. Поскольку V3 является опенсорсной SOTA‑моделью, обладающей весьма необычными свойствами, она показалась мне идеальным кандидатом. Перед вами обзор глючных токенов, которые я обнаружил в DeepSeek после ряда экспериментов, а также некоторые предварительные наблюдения об их поведении.

    habr.com/ru/companies/bothub/a

    #ии #ai #deepseek #deepseek_v3 #deepseek_r1 #токенизация #галлюцинации_ии