#swiglu — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #swiglu, aggregated by home.social.
-
Как я обучил GPT с нуля на русском языке — и что из этого получилось
Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.
https://habr.com/ru/articles/1037532/
#GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык
-
Как я обучил GPT с нуля на русском языке — и что из этого получилось
Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.
https://habr.com/ru/articles/1037532/
#GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык
-
Как я обучил GPT с нуля на русском языке — и что из этого получилось
Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.
https://habr.com/ru/articles/1037532/
#GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык
-
Как я обучил GPT с нуля на русском языке — и что из этого получилось
Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.
https://habr.com/ru/articles/1037532/
#GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык
-
На шаг ближе к Скайнету: научились ли нейросети умножать?
Занимаясь созданием систем искусственного интеллекта, не перестаешь удивляться, из каких порой «костылей» состоят настоящие чудеса прогресса. Например, знаете ли вы, что даже самые современные нейросети фундаментально не умеют перемножать два числа? Они не считают в привычном нам смысле, а скорее запоминают и аппроксимируют ответы. Как так вышло, что ИИ пишет код и сочиняет стихи, но буксует на таблице умножения? Давайте разбираться
https://habr.com/ru/articles/1019500/
#Gated_linear_unit #GLU #SwiGLU #Функция_активации #нейронная_сеть
-
На шаг ближе к Скайнету: научились ли нейросети умножать?
Занимаясь созданием систем искусственного интеллекта, не перестаешь удивляться, из каких порой «костылей» состоят настоящие чудеса прогресса. Например, знаете ли вы, что даже самые современные нейросети фундаментально не умеют перемножать два числа? Они не считают в привычном нам смысле, а скорее запоминают и аппроксимируют ответы. Как так вышло, что ИИ пишет код и сочиняет стихи, но буксует на таблице умножения? Давайте разбираться
https://habr.com/ru/articles/1019500/
#Gated_linear_unit #GLU #SwiGLU #Функция_активации #нейронная_сеть
-
На шаг ближе к Скайнету: научились ли нейросети умножать?
Занимаясь созданием систем искусственного интеллекта, не перестаешь удивляться, из каких порой «костылей» состоят настоящие чудеса прогресса. Например, знаете ли вы, что даже самые современные нейросети фундаментально не умеют перемножать два числа? Они не считают в привычном нам смысле, а скорее запоминают и аппроксимируют ответы. Как так вышло, что ИИ пишет код и сочиняет стихи, но буксует на таблице умножения? Давайте разбираться
https://habr.com/ru/articles/1019500/
#Gated_linear_unit #GLU #SwiGLU #Функция_активации #нейронная_сеть
-
На шаг ближе к Скайнету: научились ли нейросети умножать?
Занимаясь созданием систем искусственного интеллекта, не перестаешь удивляться, из каких порой «костылей» состоят настоящие чудеса прогресса. Например, знаете ли вы, что даже самые современные нейросети фундаментально не умеют перемножать два числа? Они не считают в привычном нам смысле, а скорее запоминают и аппроксимируют ответы. Как так вышло, что ИИ пишет код и сочиняет стихи, но буксует на таблице умножения? Давайте разбираться
https://habr.com/ru/articles/1019500/
#Gated_linear_unit #GLU #SwiGLU #Функция_активации #нейронная_сеть
-
Activation Functions: The 'Secret Sauce' of Deep Learning
https://techlife.blog/posts/activation-functions-deep-learning/ #ActivationFunctions #DeepLearning #NeuralNetworks
-
Activation Functions: The 'Secret Sauce' of Deep Learning
https://techlife.blog/posts/activation-functions-deep-learning/ #ActivationFunctions #DeepLearning #NeuralNetworks