#deepseek_v3 — Public Fediverse posts on home.social

Habr @[email protected] · 2025-09-20 · 12:32 UTC

Нет, тренировка DeepSeek R1 не стоила $294 тыс. Реальная цифра в десятки раз выше

В интернете широко обсуждают опубликованный в Nature отчет авторов DeepSeek, в котором якобы заявляется, что обучение модели R1 обошлось компании всего в 294 тысячи долларов. Цифра выглядит сенсационной, ведь конкуренты тратят на создание своих моделей в тысячи раз большие суммы: например, для Claude Sonnet 3.7 давали оценку в несколько десятков миллионов долларов. Если бы взятая из Nature цифра была правдой, то получилось бы так, что у конкурентов нет никаких шансов перед командой DeepSeek. Но это не так.

https://habr.com/ru/articles/948882/

#DeepSeek #DeepSeek_R1 #deepseek_v3 #deepseek_v31

#deepseek_v31 #deepseek_v3 #deepseek_r1 #deepseek

Habr @[email protected] · 2025-06-29 · 08:52 UTC

Запускаем самый маленький квант DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Релиз DeepSeek R2 официально отложен и пока R1 не потерял актуальность, попробуем запустить модель на домашнем ПК. Оригинальная DeepSeek R1 имеет размер 700гб, так как она обучалась в fp8, но если бы она обучалась в стандартных f16, её вес был бы 1400гб, а мы попробуем версию в 10 раз меньше. Запустим самый маленький 1.66-битный IQ1_S_R4 квант полноценной модели размером 130гб на игровом ПК, отдельно с 4090 и 4060ti. Загрузим туда очень-очень много контекста и проверим, такой квант всё ещё способен давать разумные ответы или нет.

https://habr.com/ru/articles/921540/

#llamacpp #ik_llama #deepseek #локальные_нейросети #deepseek_r1 #deepseek_v3

Habr @[email protected] · 2025-06-09 · 16:12 UTC

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

Локальный DeepSeek-R1-0528 на скромном железе? Реально. Со скоростью улитки? Первоначально – да. Но итог моего эксперимента: эту 'улитку' можно заставить работать вдвое быстрее.

https://habr.com/ru/articles/916966/

#deepseek #ai #llm #local_ai #epyc #deepseek_r1 #deepseek_v3 #llamacpp #huggingface #gguf

#gguf #huggingface #llamacpp #deepseek_v3 #deepseek_r1 #epyc

Habr @[email protected] · 2025-03-25 · 22:22 UTC

DeepSeek V3-0324. Что изменилось?

Все пишут, что Deep Seek V3-0324 ВНЕЗАПНО СТАЛ СИЛЬНО ЛУЧШЕ. И в чем именно? Ночью, без объявления войны, DeepSeek вырос на 19.8 баллов в математике и 10 баллов в кодировании. Также официально заявлены некоторые улучшения в понимании фронтенда и вызова тулов. Напоминаю, речь идет о нерассуждающей версии - она не рассказывает о своих мыслях как DeepSeek R1, зато работает более быстро и стабильно. Восхитительно. Хочу прочитать!

https://habr.com/ru/companies/bar/articles/894366/

#ai #ml #llm #deepseek #deepseek_v3

#deepseek_v3 #deepseek #llm #ml #ai

Habr @[email protected] · 2025-02-15 · 16:52 UTC

Дипсик не работает: Обходим ошибку Deepseek service is busy хитрым способом

DeepSeek всё чаще оказывается недоступен из-за перегруженности серверов. В этой статье решим проблему оригинальным способом – установим Дипсик локально, чтобы он работал вообще без подключения к Интернету.

https://habr.com/ru/articles/878498/

#deepseek_r1 #deepseek_v3 #deepseek_ai #deepseek #дипсик #нейросети #ии_помощник #ииассистент #ии_чатбот

#ии_чатбот #ииассистент #ии_помощник #нейросети #дипсик #deepseek

Habr @[email protected] · 2025-02-02 · 10:32 UTC

HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?

Компания HighFlyer внедрила в свою LLM такие архитектурные фишки как Multi-Head Latent Attention, Mixture of Experts (MoE) with Auxiliary-Loss-Free Load Balancing и Multi-Token Predict. Однако все эти новшества уже были ранее представлены в других LLM: GPT-4, Llama, Mistrall и других. Полистав WhitePaper HighFlyer, можно наткнуться на описание собственного непубличного тренировочного фреймворка HAI LLM , эксплуатирующего действительно новые фишки, которые позволяют значительно сэкономить на обучении модели. Именно в фреймворке и кроется, как мне кажется, одна из основных инноваций DeepSeek, о чем мне бы и хотелось поговорить далее. Приятного прочтения)

https://habr.com/ru/companies/bothub/articles/878742/

#deepseek #hai_llm #HighFlyer #llm #ии #ии_и_машинное_обучение #deepseek_v3

#deepseek_v3 #ии_и_машинное_обучение #ии #llm #highflyer #hai_llm

Habr @[email protected] · 2025-01-29 · 21:42 UTC

Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы

Рассказываю про способы, как можно установить китайскую модель локально и использовать без интернета. Причем так, чтобы работать не через консоль, а через удобный интерфейс чат-бота.

https://habr.com/ru/articles/877772/

#deepseek #deepseek_v3 #deepseek_r1 #дипсик #нейросеть #нейросети #llm #llmмодели #ии #ииассистент

#ииассистент #ии #llmмодели #llm #нейросети #нейросеть

Habr @[email protected] · 2025-01-28 · 16:32 UTC

[Перевод] Как работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемах

DeepSeek-R1 — самая громкая новика в мире больших языковых моделей, сочетающий открытые веса, дистиллированные варианты и уникальную методику обучения рассуждению. Эта статья рассказывает, как создатели модели сумели добиться таких результатов, объединив широкомасштабное обучение с подкреплением, промежуточные модели и большой массив примеров с развёрнутыми цепочками мыслей, чтобы в итоге получить универсальную, эффективную и более удобочитаемую модель. Автор оригинала: Jay Alammar

https://habr.com/ru/articles/877360/

#nature #ai #artificial_intelligence #deepseek #deepseek_r1 #deepseek_v3 #ии #искусственный_интеллект #llm #большие_языковые_модели

#большие_языковые_модели #llm #искусственный_интеллект #ии #deepseek_v3 #deepseek_r1

Habr @[email protected] · 2025-01-28 · 15:32 UTC

[Перевод] Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность

«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст. Это явление было впервые открыто и задокументировано в случае GPT-2 и GPT-3 , но до сих пор таких аномалий не находили в DeepSeek‑V3 . Поэтому я решил сделать это сам. Поскольку V3 является опенсорсной SOTA‑моделью, обладающей весьма необычными свойствами, она показалась мне идеальным кандидатом. Перед вами обзор глючных токенов, которые я обнаружил в DeepSeek после ряда экспериментов, а также некоторые предварительные наблюдения об их поведении.

https://habr.com/ru/companies/bothub/articles/877326/

#ии #ai #deepseek #deepseek_v3 #deepseek_r1 #токенизация #галлюцинации_ии

#галлюцинации_ии #токенизация #deepseek_r1 #deepseek_v3 #deepseek #ai