#deepseek_v3 — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #deepseek_v3, aggregated by home.social.
-
Нет, тренировка DeepSeek R1 не стоила $294 тыс. Реальная цифра в десятки раз выше
В интернете широко обсуждают опубликованный в Nature отчет авторов DeepSeek, в котором якобы заявляется, что обучение модели R1 обошлось компании всего в 294 тысячи долларов. Цифра выглядит сенсационной, ведь конкуренты тратят на создание своих моделей в тысячи раз большие суммы: например, для Claude Sonnet 3.7 давали оценку в несколько десятков миллионов долларов. Если бы взятая из Nature цифра была правдой, то получилось бы так, что у конкурентов нет никаких шансов перед командой DeepSeek. Но это не так.
-
Запускаем самый маленький квант DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)
Релиз DeepSeek R2 официально отложен и пока R1 не потерял актуальность, попробуем запустить модель на домашнем ПК. Оригинальная DeepSeek R1 имеет размер 700гб, так как она обучалась в fp8, но если бы она обучалась в стандартных f16, её вес был бы 1400гб, а мы попробуем версию в 10 раз меньше. Запустим самый маленький 1.66-битный IQ1_S_R4 квант полноценной модели размером 130гб на игровом ПК, отдельно с 4090 и 4060ti. Загрузим туда очень-очень много контекста и проверим, такой квант всё ещё способен давать разумные ответы или нет.
https://habr.com/ru/articles/921540/
#llamacpp #ik_llama #deepseek #локальные_нейросети #deepseek_r1 #deepseek_v3
-
Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта
Локальный DeepSeek-R1-0528 на скромном железе? Реально. Со скоростью улитки? Первоначально – да. Но итог моего эксперимента: эту 'улитку' можно заставить работать вдвое быстрее.
https://habr.com/ru/articles/916966/
#deepseek #ai #llm #local_ai #epyc #deepseek_r1 #deepseek_v3 #llamacpp #huggingface #gguf
-
DeepSeek V3-0324. Что изменилось?
Все пишут, что Deep Seek V3-0324 ВНЕЗАПНО СТАЛ СИЛЬНО ЛУЧШЕ. И в чем именно? Ночью, без объявления войны, DeepSeek вырос на 19.8 баллов в математике и 10 баллов в кодировании. Также официально заявлены некоторые улучшения в понимании фронтенда и вызова тулов. Напоминаю, речь идет о нерассуждающей версии - она не рассказывает о своих мыслях как DeepSeek R1, зато работает более быстро и стабильно. Восхитительно. Хочу прочитать!
-
Дипсик не работает: Обходим ошибку Deepseek service is busy хитрым способом
DeepSeek всё чаще оказывается недоступен из-за перегруженности серверов. В этой статье решим проблему оригинальным способом – установим Дипсик локально, чтобы он работал вообще без подключения к Интернету.
https://habr.com/ru/articles/878498/
#deepseek_r1 #deepseek_v3 #deepseek_ai #deepseek #дипсик #нейросети #ии_помощник #ииассистент #ии_чатбот
-
HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?
Компания HighFlyer внедрила в свою LLM такие архитектурные фишки как Multi-Head Latent Attention, Mixture of Experts (MoE) with Auxiliary-Loss-Free Load Balancing и Multi-Token Predict. Однако все эти новшества уже были ранее представлены в других LLM: GPT-4, Llama, Mistrall и других. Полистав WhitePaper HighFlyer, можно наткнуться на описание собственного непубличного тренировочного фреймворка HAI LLM , эксплуатирующего действительно новые фишки, которые позволяют значительно сэкономить на обучении модели. Именно в фреймворке и кроется, как мне кажется, одна из основных инноваций DeepSeek, о чем мне бы и хотелось поговорить далее. Приятного прочтения)
https://habr.com/ru/companies/bothub/articles/878742/
#deepseek #hai_llm #HighFlyer #llm #ии #ии_и_машинное_обучение #deepseek_v3
-
Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы
Рассказываю про способы, как можно установить китайскую модель локально и использовать без интернета. Причем так, чтобы работать не через консоль, а через удобный интерфейс чат-бота.
https://habr.com/ru/articles/877772/
#deepseek #deepseek_v3 #deepseek_r1 #дипсик #нейросеть #нейросети #llm #llmмодели #ии #ииассистент
-
[Перевод] Как работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемах
DeepSeek-R1 — самая громкая новика в мире больших языковых моделей, сочетающий открытые веса, дистиллированные варианты и уникальную методику обучения рассуждению. Эта статья рассказывает, как создатели модели сумели добиться таких результатов, объединив широкомасштабное обучение с подкреплением, промежуточные модели и большой массив примеров с развёрнутыми цепочками мыслей, чтобы в итоге получить универсальную, эффективную и более удобочитаемую модель. Автор оригинала: Jay Alammar
https://habr.com/ru/articles/877360/
#nature #ai #artificial_intelligence #deepseek #deepseek_r1 #deepseek_v3 #ии #искусственный_интеллект #llm #большие_языковые_модели
-
[Перевод] Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность
«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст. Это явление было впервые открыто и задокументировано в случае GPT-2 и GPT-3 , но до сих пор таких аномалий не находили в DeepSeek‑V3 . Поэтому я решил сделать это сам. Поскольку V3 является опенсорсной SOTA‑моделью, обладающей весьма необычными свойствами, она показалась мне идеальным кандидатом. Перед вами обзор глючных токенов, которые я обнаружил в DeepSeek после ряда экспериментов, а также некоторые предварительные наблюдения об их поведении.
https://habr.com/ru/companies/bothub/articles/877326/
#ии #ai #deepseek #deepseek_v3 #deepseek_r1 #токенизация #галлюцинации_ии