#swiglu — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-21 · 06:12 UTC

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.

https://habr.com/ru/articles/1037532/

#GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык

#русский_язык #nlp #swiglu #gqa #rope #google_colab

Habr @[email protected] · 2026-05-21 · 06:12 UTC

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.

https://habr.com/ru/articles/1037532/

#GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык

#русский_язык #nlp #swiglu #gqa #rope #google_colab

Habr @[email protected] · 2026-05-21 · 06:12 UTC

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.

https://habr.com/ru/articles/1037532/

#GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык

#русский_язык #nlp #swiglu #gqa #rope #google_colab

Habr @[email protected] · 2026-05-21 · 06:12 UTC

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.

https://habr.com/ru/articles/1037532/

#GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык

#gpt #llm #pretraining #распределённое_обучение #google_colab #rope

Habr @[email protected] · 2026-04-05 · 13:02 UTC

На шаг ближе к Скайнету: научились ли нейросети умножать?

Занимаясь созданием систем искусственного интеллекта, не перестаешь удивляться, из каких порой «костылей» состоят настоящие чудеса прогресса. Например, знаете ли вы, что даже самые современные нейросети фундаментально не умеют перемножать два числа? Они не считают в привычном нам смысле, а скорее запоминают и аппроксимируют ответы. Как так вышло, что ИИ пишет код и сочиняет стихи, но буксует на таблице умножения? Давайте разбираться

https://habr.com/ru/articles/1019500/

#Gated_linear_unit #GLU #SwiGLU #Функция_активации #нейронная_сеть

#нейронная_сеть #функция_активации #swiglu #glu #gated_linear_unit

Habr @[email protected] · 2026-04-05 · 13:02 UTC

На шаг ближе к Скайнету: научились ли нейросети умножать?

Занимаясь созданием систем искусственного интеллекта, не перестаешь удивляться, из каких порой «костылей» состоят настоящие чудеса прогресса. Например, знаете ли вы, что даже самые современные нейросети фундаментально не умеют перемножать два числа? Они не считают в привычном нам смысле, а скорее запоминают и аппроксимируют ответы. Как так вышло, что ИИ пишет код и сочиняет стихи, но буксует на таблице умножения? Давайте разбираться

https://habr.com/ru/articles/1019500/

#Gated_linear_unit #GLU #SwiGLU #Функция_активации #нейронная_сеть

#нейронная_сеть #функция_активации #swiglu #glu #gated_linear_unit

Habr @[email protected] · 2026-04-05 · 13:02 UTC

На шаг ближе к Скайнету: научились ли нейросети умножать?

Занимаясь созданием систем искусственного интеллекта, не перестаешь удивляться, из каких порой «костылей» состоят настоящие чудеса прогресса. Например, знаете ли вы, что даже самые современные нейросети фундаментально не умеют перемножать два числа? Они не считают в привычном нам смысле, а скорее запоминают и аппроксимируют ответы. Как так вышло, что ИИ пишет код и сочиняет стихи, но буксует на таблице умножения? Давайте разбираться

https://habr.com/ru/articles/1019500/

#Gated_linear_unit #GLU #SwiGLU #Функция_активации #нейронная_сеть

#нейронная_сеть #функция_активации #swiglu #glu #gated_linear_unit

Habr @[email protected] · 2026-04-05 · 13:02 UTC

На шаг ближе к Скайнету: научились ли нейросети умножать?

Занимаясь созданием систем искусственного интеллекта, не перестаешь удивляться, из каких порой «костылей» состоят настоящие чудеса прогресса. Например, знаете ли вы, что даже самые современные нейросети фундаментально не умеют перемножать два числа? Они не считают в привычном нам смысле, а скорее запоминают и аппроксимируют ответы. Как так вышло, что ИИ пишет код и сочиняет стихи, но буксует на таблице умножения? Давайте разбираться

https://habr.com/ru/articles/1019500/

#Gated_linear_unit #GLU #SwiGLU #Функция_активации #нейронная_сеть