#русский_язык — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-21 · 06:12 UTC

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.

https://habr.com/ru/articles/1037532/

#GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык

#русский_язык #nlp #swiglu #gqa #rope #google_colab

Habr @[email protected] · 2026-05-21 · 06:12 UTC

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.

https://habr.com/ru/articles/1037532/

#GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык

#русский_язык #nlp #swiglu #gqa #rope #google_colab

Habr @[email protected] · 2026-05-21 · 06:12 UTC

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.

https://habr.com/ru/articles/1037532/

#GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык

#русский_язык #nlp #swiglu #gqa #rope #google_colab

Habr @[email protected] · 2026-05-21 · 06:12 UTC

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже. Спойлер: это было наивно. Но путь оказался ценнее результата.

https://habr.com/ru/articles/1037532/

#GPT #LLM #pretraining #распределённое_обучение #Google_Colab #RoPE #GQA #SwiGLU #NLP #русский_язык

#gpt #llm #pretraining #распределённое_обучение #google_colab #rope

Habr @[email protected] · 2026-05-19 · 13:42 UTC

Очередная латиница для русского языка

Очередная латиница для русского языка, но только гибридная с совместимостью один к одному и с полным отсутствием диграфов, триграфов или ещё чего похуже, а также с минимальным количеством диакритических знаков.

https://habr.com/ru/articles/1036964/

#русский_язык #кириллица #латиница #латинизация #алфавит #транслит #транслитерация #головоломки #странное #языки

#языки #странное #головоломки #транслитерация #транслит #алфавит

Habr @[email protected] · 2026-05-19 · 13:42 UTC

Очередная латиница для русского языка

Очередная латиница для русского языка, но только гибридная с совместимостью один к одному и с полным отсутствием диграфов, триграфов или ещё чего похуже, а также с минимальным количеством диакритических знаков.

https://habr.com/ru/articles/1036964/

#русский_язык #кириллица #латиница #латинизация #алфавит #транслит #транслитерация #головоломки #странное #языки

#языки #странное #головоломки #транслитерация #транслит #алфавит

Habr @[email protected] · 2026-05-19 · 13:42 UTC

Очередная латиница для русского языка

Очередная латиница для русского языка, но только гибридная с совместимостью один к одному и с полным отсутствием диграфов, триграфов или ещё чего похуже, а также с минимальным количеством диакритических знаков.

https://habr.com/ru/articles/1036964/

#русский_язык #кириллица #латиница #латинизация #алфавит #транслит #транслитерация #головоломки #странное #языки

#языки #странное #головоломки #транслитерация #транслит #алфавит

Habr @[email protected] · 2026-05-19 · 13:42 UTC

Очередная латиница для русского языка

Очередная латиница для русского языка, но только гибридная с совместимостью один к одному и с полным отсутствием диграфов, триграфов или ещё чего похуже, а также с минимальным количеством диакритических знаков.

https://habr.com/ru/articles/1036964/

#русский_язык #кириллица #латиница #латинизация #алфавит #транслит #транслитерация #головоломки #странное #языки

#русский_язык #кириллица #латиница #латинизация #алфавит #транслит

Habr @[email protected] · 2026-05-18 · 12:32 UTC

Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

Прогнали семь LLM через свой русский спортивный бенчмарк. Топовые модели closed-source выигрывают 1.5-1.7 балла. Базовой моделью всё равно остаётся Gemma 4 31B — рассказываю почему.

https://habr.com/ru/articles/1036448/

#llm #бенчмарк #gemma #qwen #openrouter #русский_язык #dora #sft #спорт #llmjudge

#llmjudge #спорт #sft #dora #русский_язык #openrouter

Habr @[email protected] · 2026-05-18 · 12:32 UTC

Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

Прогнали семь LLM через свой русский спортивный бенчмарк. Топовые модели closed-source выигрывают 1.5-1.7 балла. Базовой моделью всё равно остаётся Gemma 4 31B — рассказываю почему.

https://habr.com/ru/articles/1036448/

#llm #бенчмарк #gemma #qwen #openrouter #русский_язык #dora #sft #спорт #llmjudge

#openrouter #qwen #gemma #бенчмарк #llm #llmjudge

Habr @[email protected] · 2026-05-18 · 12:32 UTC

Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

Прогнали семь LLM через свой русский спортивный бенчмарк. Топовые модели closed-source выигрывают 1.5-1.7 балла. Базовой моделью всё равно остаётся Gemma 4 31B — рассказываю почему.

https://habr.com/ru/articles/1036448/

#llm #бенчмарк #gemma #qwen #openrouter #русский_язык #dora #sft #спорт #llmjudge

#llmjudge #спорт #sft #dora #русский_язык #openrouter

Habr @[email protected] · 2026-05-18 · 12:32 UTC

Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

Прогнали семь LLM через свой русский спортивный бенчмарк. Топовые модели closed-source выигрывают 1.5-1.7 балла. Базовой моделью всё равно остаётся Gemma 4 31B — рассказываю почему.

https://habr.com/ru/articles/1036448/

#llm #бенчмарк #gemma #qwen #openrouter #русский_язык #dora #sft #спорт #llmjudge

#llm #бенчмарк #gemma #qwen #openrouter #русский_язык

Habr @[email protected] · 2026-04-25 · 15:12 UTC

Сломал руку, купил Pixel 10, возненавидел Gboard и написал свой офлайн-голосовой ввод для Android на GigaAM v3

Написал полностью офлайновый голосовой ввод на русском для Android. Никаких серверов, подписок и привязок к аккаунтам. За распознавание отвечает открытая нейросеть GigaAM v3 от Сбера: модель зашита прямо в APK, работает без интернета и отлично расставляет знаки препинания. Главная фишка — не нужно отказываться от любимой клавиатуры со свайпом. Это не замена Gboard, а просто плавающая кнопка, которая появляется поверх любого поля ввода. Работает элементарно: тапнул — говоришь. Как только делаешь естественную паузу в речи, готовый текст тут же влетает в активное окно. Напрямую, минуя буфер обмена. Стек: GigaAM v3 + sherpa-onnx (NNAPI / CPU) + крошечный детектор речи Silero VAD. Требования: Android 13+, ARM64. Исходники открыты (MIT).

https://habr.com/ru/articles/1027884/

#Android #GigaAM #голосовой_ввод #распознавание_речи #sherpaonnx #русский_язык #open_source #говорун

#говорун #open_source #русский_язык #sherpaonnx #распознавание_речи #голосовой_ввод

Habr @[email protected] · 2026-04-25 · 15:12 UTC

Сломал руку, купил Pixel 10, возненавидел Gboard и написал свой офлайн-голосовой ввод для Android на GigaAM v3

Написал полностью офлайновый голосовой ввод на русском для Android. Никаких серверов, подписок и привязок к аккаунтам. За распознавание отвечает открытая нейросеть GigaAM v3 от Сбера: модель зашита прямо в APK, работает без интернета и отлично расставляет знаки препинания. Главная фишка — не нужно отказываться от любимой клавиатуры со свайпом. Это не замена Gboard, а просто плавающая кнопка, которая появляется поверх любого поля ввода. Работает элементарно: тапнул — говоришь. Как только делаешь естественную паузу в речи, готовый текст тут же влетает в активное окно. Напрямую, минуя буфер обмена. Стек: GigaAM v3 + sherpa-onnx (NNAPI / CPU) + крошечный детектор речи Silero VAD. Требования: Android 13+, ARM64. Исходники открыты (MIT).

https://habr.com/ru/articles/1027884/

#Android #GigaAM #голосовой_ввод #распознавание_речи #sherpaonnx #русский_язык #open_source #говорун

#говорун #open_source #русский_язык #sherpaonnx #распознавание_речи #голосовой_ввод

Habr @[email protected] · 2026-04-25 · 15:12 UTC

Сломал руку, купил Pixel 10, возненавидел Gboard и написал свой офлайн-голосовой ввод для Android на GigaAM v3

Написал полностью офлайновый голосовой ввод на русском для Android. Никаких серверов, подписок и привязок к аккаунтам. За распознавание отвечает открытая нейросеть GigaAM v3 от Сбера: модель зашита прямо в APK, работает без интернета и отлично расставляет знаки препинания. Главная фишка — не нужно отказываться от любимой клавиатуры со свайпом. Это не замена Gboard, а просто плавающая кнопка, которая появляется поверх любого поля ввода. Работает элементарно: тапнул — говоришь. Как только делаешь естественную паузу в речи, готовый текст тут же влетает в активное окно. Напрямую, минуя буфер обмена. Стек: GigaAM v3 + sherpa-onnx (NNAPI / CPU) + крошечный детектор речи Silero VAD. Требования: Android 13+, ARM64. Исходники открыты (MIT).

https://habr.com/ru/articles/1027884/

#Android #GigaAM #голосовой_ввод #распознавание_речи #sherpaonnx #русский_язык #open_source #говорун

#android #gigaam #голосовой_ввод #распознавание_речи #sherpaonnx #русский_язык

Habr @[email protected] · 2026-04-25 · 15:12 UTC

Сломал руку, купил Pixel 10, возненавидел Gboard и написал свой офлайн-голосовой ввод для Android на GigaAM v3

Написал полностью офлайновый голосовой ввод на русском для Android. Никаких серверов, подписок и привязок к аккаунтам. За распознавание отвечает открытая нейросеть GigaAM v3 от Сбера: модель зашита прямо в APK, работает без интернета и отлично расставляет знаки препинания. Главная фишка — не нужно отказываться от любимой клавиатуры со свайпом. Это не замена Gboard, а просто плавающая кнопка, которая появляется поверх любого поля ввода. Работает элементарно: тапнул — говоришь. Как только делаешь естественную паузу в речи, готовый текст тут же влетает в активное окно. Напрямую, минуя буфер обмена. Стек: GigaAM v3 + sherpa-onnx (NNAPI / CPU) + крошечный детектор речи Silero VAD. Требования: Android 13+, ARM64. Исходники открыты (MIT).

https://habr.com/ru/articles/1027884/

#Android #GigaAM #голосовой_ввод #распознавание_речи #sherpaonnx #русский_язык #open_source #говорун

#говорун #open_source #русский_язык #sherpaonnx #распознавание_речи #голосовой_ввод

Habr @[email protected] · 2026-04-22 · 19:22 UTC

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

https://habr.com/ru/articles/1026778/

#Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

#codeswitching #русский_язык #распознавание_речи #nlp #asr #lora

Habr @[email protected] · 2026-04-22 · 19:22 UTC

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

https://habr.com/ru/articles/1026778/

#Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

#codeswitching #русский_язык #распознавание_речи #nlp #asr #lora

Habr @[email protected] · 2026-04-22 · 19:22 UTC

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

https://habr.com/ru/articles/1026778/

#Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

#codeswitching #русский_язык #распознавание_речи #nlp #asr #lora

Habr @[email protected] · 2026-04-22 · 19:22 UTC

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

https://habr.com/ru/articles/1026778/

#Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

#whisper #stt #speechtotext #finetuning #lora #asr

Habr @[email protected] · 2026-03-31 · 06:12 UTC

Когда нужно длинное тире: почему правила русского языка стали главным маркером ИИ, а грамотность — ошибкой

Раньше длинное тире считалось признаком хорошей редактуры. Сегодня это «красный флаг» нейросети. Мы стали бояться правильной верстки и намеренно ставит «короткие черточки», лишь бы текст казался «человечным». В статье вы узнаете когда нужно ставить длинное тире и получите шпаргалку с горячими клавишами, чтобы набирать его за секунду. В конце я поделюсь опытом работы редактора: как сделать ИИ помощником, а не заменой человека.

https://habr.com/ru/articles/1016380/

#ии #ai #нейросети #русский_язык #грамотность #дефис #тире

#тире #дефис #грамотность #русский_язык #нейросети #ai

Habr @[email protected] · 2026-03-27 · 14:12 UTC

Теперь silero-tts v5 на русском языке умеет задавать вопросы

Мы недавно писали про обновление нашего публичного синтеза, silero-tts . В прошлый раз мы существенно увеличили скорость, качество и добавили поддержку омографов. В этот раз мы хотим вас порадовать особенной фичей, которая в большинстве случаев стабильно не работает даже в моделях синтеза, которые требуют для своей работы на 3-4 порядка больше вычислительных ресурсов и современные серверные видеокарты (наш синтез запускается даже на слабых процессорах). Как вы догадались, эта фича — это постановка вопросов . Хочу послушать вопросы

https://habr.com/ru/articles/1015942/

#silero #синтез_речи #tts #texttospeech #нейросети #синтезатор_речи #русский_язык #ударение #омографы #вопросы

#вопросы #омографы #ударение #русский_язык #синтезатор_речи #нейросети

Habr @[email protected] · 2026-03-27 · 14:12 UTC

Теперь silero-tts v5 на русском языке умеет задавать вопросы

Мы недавно писали про обновление нашего публичного синтеза, silero-tts . В прошлый раз мы существенно увеличили скорость, качество и добавили поддержку омографов. В этот раз мы хотим вас порадовать особенной фичей, которая в большинстве случаев стабильно не работает даже в моделях синтеза, которые требуют для своей работы на 3-4 порядка больше вычислительных ресурсов и современные серверные видеокарты (наш синтез запускается даже на слабых процессорах). Как вы догадались, эта фича — это постановка вопросов . Хочу послушать вопросы

https://habr.com/ru/articles/1015942/

#silero #синтез_речи #tts #texttospeech #нейросети #синтезатор_речи #русский_язык #ударение #омографы #вопросы

#вопросы #омографы #ударение #русский_язык #синтезатор_речи #нейросети

Habr @[email protected] · 2026-03-27 · 14:12 UTC

Теперь silero-tts v5 на русском языке умеет задавать вопросы

Мы недавно писали про обновление нашего публичного синтеза, silero-tts . В прошлый раз мы существенно увеличили скорость, качество и добавили поддержку омографов. В этот раз мы хотим вас порадовать особенной фичей, которая в большинстве случаев стабильно не работает даже в моделях синтеза, которые требуют для своей работы на 3-4 порядка больше вычислительных ресурсов и современные серверные видеокарты (наш синтез запускается даже на слабых процессорах). Как вы догадались, эта фича — это постановка вопросов . Хочу послушать вопросы

https://habr.com/ru/articles/1015942/

#silero #синтез_речи #tts #texttospeech #нейросети #синтезатор_речи #русский_язык #ударение #омографы #вопросы

#вопросы #омографы #ударение #русский_язык #синтезатор_речи #нейросети

Habr @[email protected] · 2026-03-27 · 14:12 UTC

Теперь silero-tts v5 на русском языке умеет задавать вопросы

Мы недавно писали про обновление нашего публичного синтеза, silero-tts . В прошлый раз мы существенно увеличили скорость, качество и добавили поддержку омографов. В этот раз мы хотим вас порадовать особенной фичей, которая в большинстве случаев стабильно не работает даже в моделях синтеза, которые требуют для своей работы на 3-4 порядка больше вычислительных ресурсов и современные серверные видеокарты (наш синтез запускается даже на слабых процессорах). Как вы догадались, эта фича — это постановка вопросов . Хочу послушать вопросы

https://habr.com/ru/articles/1015942/

#silero #синтез_речи #tts #texttospeech #нейросети #синтезатор_речи #русский_язык #ударение #омографы #вопросы

#silero #синтез_речи #tts #texttospeech #нейросети #синтезатор_речи

Habr @[email protected] · 2026-03-17 · 07:12 UTC

Закон о запрете иностранных слов: как 168‑ФЗ заденет сайты и цифровые сервисы

Поправки к закону «о чистоте русского языка» касаются не только вывесок, но и того, как продуктовые команды в России называют кнопки, фичи и статусы внутри интерфейсов. Речь не идет о полном запрете английского: закон устанавливает приоритет русского в информации для потребителей, а иностранные слова допускает только как дополнение. И вот здесь привычный мир API, SaaS внезапно сталкивается с практикой Роспотребнадзора. В статье разбираем, как новые требования влияют на работу продуктовых команд: где безопасно оставлять латиницу в качестве языка для сотрудников, а где обязательно использовать русский, чтобы не получить штраф.

https://habr.com/ru/articles/1010648/

#168ФЗ #русский_язык #штраф #закон_о_чистоте_русского_языка

#закон_о_чистоте_русского_языка #штраф #русский_язык #168фз

Habr @[email protected] · 2026-03-03 · 12:02 UTC

Словарус.рф 2.0 — русская замена иностранных слов

Сайт Словарус 2.0 – это вторая улучшенная версия сайта с русской заменой иностранных слов, который я ранее делал по заказу Love Media и лично господина Маркелова. Задача. Восстановить сайт из веб-архива и сделать его лучше. словарус.рф

https://habr.com/ru/articles/1006002/

#русский_язык #русский #англицизмы #англицизм #англицизмы_в_ит #вебсервис #вебсервисы #сервисы #wordpress #полезное

#полезное #wordpress #сервисы #вебсервисы #вебсервис #англицизмы_в_ит

Habr @[email protected] · 2026-03-03 · 12:02 UTC

Словарус.рф 2.0 — русская замена иностранных слов

Сайт Словарус 2.0 – это вторая улучшенная версия сайта с русской заменой иностранных слов, который я ранее делал по заказу Love Media и лично господина Маркелова. Задача. Восстановить сайт из веб-архива и сделать его лучше. словарус.рф

https://habr.com/ru/articles/1006002/

#русский_язык #русский #англицизмы #англицизм #англицизмы_в_ит #вебсервис #вебсервисы #сервисы #wordpress #полезное

#полезное #wordpress #сервисы #вебсервисы #вебсервис #англицизмы_в_ит

Habr @[email protected] · 2026-03-03 · 12:02 UTC

Словарус.рф 2.0 — русская замена иностранных слов

Сайт Словарус 2.0 – это вторая улучшенная версия сайта с русской заменой иностранных слов, который я ранее делал по заказу Love Media и лично господина Маркелова. Задача. Восстановить сайт из веб-архива и сделать его лучше. словарус.рф

https://habr.com/ru/articles/1006002/

#русский_язык #русский #англицизмы #англицизм #англицизмы_в_ит #вебсервис #вебсервисы #сервисы #wordpress #полезное

#полезное #wordpress #сервисы #вебсервисы #вебсервис #англицизмы_в_ит

Habr @[email protected] · 2026-03-03 · 12:02 UTC

Словарус.рф 2.0 — русская замена иностранных слов

Сайт Словарус 2.0 – это вторая улучшенная версия сайта с русской заменой иностранных слов, который я ранее делал по заказу Love Media и лично господина Маркелова. Задача. Восстановить сайт из веб-архива и сделать его лучше. словарус.рф

https://habr.com/ru/articles/1006002/

#русский_язык #русский #англицизмы #англицизм #англицизмы_в_ит #вебсервис #вебсервисы #сервисы #wordpress #полезное

#русский_язык #русский #англицизмы #англицизм #англицизмы_в_ит #вебсервис

Habr @[email protected] · 2026-02-10 · 11:42 UTC

Хихиканье вместо Snickers: руководство, как бизнесу переводить все на русский язык и не нарушить закон

Осталось меньше месяца, чтобы поменять все на русский язык. Публичная информация о компании и ее услугах должна доноситься до потребителя на русском языке. Что в действительности поменялось, кого коснутся эти требования, распространяются ли они на сайты, карточки товара и другую информацию в "Интернете" — разберем в этой статье.

https://habr.com/ru/articles/994884/

#русский_язык #закон #перевод_с_английского #маркетплейс #маркетинг #бизнес #штраф

#штраф #бизнес #маркетинг #маркетплейс #перевод_с_английского #закон

Habr @[email protected] · 2026-01-19 · 17:32 UTC

Языковая среда и носители. Неочевидные моменты

Периодически читаю комментарии в духе «Разница между Past Simple и Present Perfect – простая грамматическая тема, в школьной программе нормально даётся, или у вас школы какие-то не такие были». Это неправда. Тема тяжелейшая. Не бывает людей, которым она даётся легко. Нередко в ней путаются даже выпускники ИнЯзов. Например, в ситуациях, когда оба времени возможны. Пока есть слова-маркеры (when, just, already) – всё более-менее. Без них плывут, потому что плохо понимают саму суть. Есть мнение, что занятия по иностранному языку на русском ведут только преподаватели с низкой квалификацией. Английский надо преподавать на английском! Вести на иностранном языке – хорошая идея, если цель урока – развитие именно устной речи . А вот ставить произношение, объяснять внутреннюю логику сложных идиом тяжело даже на русском. Некоторые грамматические темы «объяснить» практически невозможно – преподаватель должен ставить задачи в правильной последовательности и направлять их решение. Это ювелирная работа – многие учителя не справляются, не могут вскрыть моменты, которые ученик понял неправильно. Добровольно усложнять этот процесс, делая то же самое на иностранном языке, – это зачем?? У меня была студентка, которая каталась на велосипеде не держась руками за руль и при этом вязала. Это не так уж сложно: она любит ездить на велосипеде, часто отпускает руль, вяжет с детства. А представьте учить кого-то СРАЗУ ездить на велосипеде не держась за руль, и чтобы он при этом ещё вязал! Научится, конечно, в конце концов, если не свернёт себе шею в процессе. При изучении языка шею сворачивают редко, зато часто приходят к твёрдому убеждению, что «языки – не моё». По мне, это такая же нелепость, как «я не способен осилить химию в объёме школьного курса – не дано». ___Произношение Считается, что у преподавателя оно должно быть хорошее, а то «у студента неправильное произношение закрепляется». Это кажется невероятно логичным до тех пор, пока на сотнях примеров не столкнёшься с результатом работы учителей-носителей и с людьми, которые живут 24/7 в языковой среде. Произношение у них часто такое же дубовое, как если бы их учил человек с таким же дубовым произношением.

https://habr.com/ru/articles/986762/

#английский_язык #французский_язык #немецкий_язык #испанский_язык #китайский_язык #русский_язык #лингвистика #курсы_английского #самообразование #саморазвитие

#саморазвитие #самообразование #курсы_английского #лингвистика #русский_язык #китайский_язык

Habr @[email protected] · 2026-01-09 · 13:02 UTC

Сколько городов в России начинаются на букву К?

Именно этот вопрос возник у нас в процессе игры в "Города" пока мы ехали из Екатеринбурга в Тюмень , а названия городов то и дело заканчивались на "К". В тот момент город Курган был назван уже 25 раз. И нас озарило... Спарсим данные с RuWiki и посмотрим сколько городов в России начинаются и заканчиваются на букву К!

https://habr.com/ru/articles/983816/

#nlp #nlp_обработка_текста #python #русский_язык

#русский_язык #python #nlp_обработка_текста #nlp

Habr @[email protected] · 2025-12-30 · 15:32 UTC

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

Всё шло к этому. Мы решили задачу омографов в русском языке (мы уже готовим большое расширение). Мы попробовали насколько это физически возможно решить задачу ударения хотя бы для славянских языков (мы уже опубликовали модели-акценторы для русского, украинского и белорусского языков). Мы опубликовали синтез для 20 языков России и стран СНГ. Вы уже много раз упоминали , что неплохо бы завезти наш синтез в SAPI5-интерфейс. Звёзды сошлись, нам написал разработчик, который занимается разработкой таких интерфейсов для Windows и всё завертелось. Теперь пришло время попробовать соединить это всё воедино в виде SAPI5-интерфейса для синтеза для Windows. Основная фишка тут получается в том, что наш синтез настолько быстрый, что его можно использовать как локальный синтез в Windows на CPU, так и как экранную читалку. И да, вы верно всё поняли. Это также значит, что оно из коробки будет работать с Балаболкой и другими подобными программами (и не будет требовать GPU). Да, это только первый, по сути пробный, релиз нашего интерфейса. Будем признательны вам за обратную связь и комментарии. Мы сильно хотели успеть к новому году и сделать всем небольшой новогодний подарок! Надеюсь, что комьюнити оценит. Протестируем!

https://habr.com/ru/articles/981992/

#silero #синтез_речи #tts #texttospeech #нейросети #озвучка #русский_язык #языки_россии #sapi #балаболка

#балаболка #sapi #языки_россии #русский_язык #озвучка #нейросети

Habr @[email protected] · 2025-12-30 · 15:32 UTC

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

Всё шло к этому. Мы решили задачу омографов в русском языке (мы уже готовим большое расширение). Мы попробовали насколько это физически возможно решить задачу ударения хотя бы для славянских языков (мы уже опубликовали модели-акценторы для русского, украинского и белорусского языков). Мы опубликовали синтез для 20 языков России и стран СНГ. Вы уже много раз упоминали , что неплохо бы завезти наш синтез в SAPI5-интерфейс. Звёзды сошлись, нам написал разработчик, который занимается разработкой таких интерфейсов для Windows и всё завертелось. Теперь пришло время попробовать соединить это всё воедино в виде SAPI5-интерфейса для синтеза для Windows. Основная фишка тут получается в том, что наш синтез настолько быстрый, что его можно использовать как локальный синтез в Windows на CPU, так и как экранную читалку. И да, вы верно всё поняли. Это также значит, что оно из коробки будет работать с Балаболкой и другими подобными программами (и не будет требовать GPU). Да, это только первый, по сути пробный, релиз нашего интерфейса. Будем признательны вам за обратную связь и комментарии. Мы сильно хотели успеть к новому году и сделать всем небольшой новогодний подарок! Надеюсь, что комьюнити оценит. Протестируем!

https://habr.com/ru/articles/981992/

#silero #синтез_речи #tts #texttospeech #нейросети #озвучка #русский_язык #языки_россии #sapi #балаболка

#балаболка #sapi #языки_россии #русский_язык #озвучка #нейросети

Habr @[email protected] · 2025-12-30 · 15:32 UTC

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

Всё шло к этому. Мы решили задачу омографов в русском языке (мы уже готовим большое расширение). Мы попробовали насколько это физически возможно решить задачу ударения хотя бы для славянских языков (мы уже опубликовали модели-акценторы для русского, украинского и белорусского языков). Мы опубликовали синтез для 20 языков России и стран СНГ. Вы уже много раз упоминали , что неплохо бы завезти наш синтез в SAPI5-интерфейс. Звёзды сошлись, нам написал разработчик, который занимается разработкой таких интерфейсов для Windows и всё завертелось. Теперь пришло время попробовать соединить это всё воедино в виде SAPI5-интерфейса для синтеза для Windows. Основная фишка тут получается в том, что наш синтез настолько быстрый, что его можно использовать как локальный синтез в Windows на CPU, так и как экранную читалку. И да, вы верно всё поняли. Это также значит, что оно из коробки будет работать с Балаболкой и другими подобными программами (и не будет требовать GPU). Да, это только первый, по сути пробный, релиз нашего интерфейса. Будем признательны вам за обратную связь и комментарии. Мы сильно хотели успеть к новому году и сделать всем небольшой новогодний подарок! Надеюсь, что комьюнити оценит. Протестируем!

https://habr.com/ru/articles/981992/

#silero #синтез_речи #tts #texttospeech #нейросети #озвучка #русский_язык #языки_россии #sapi #балаболка

#балаболка #sapi #языки_россии #русский_язык #озвучка #нейросети

Habr @[email protected] · 2025-12-30 · 15:32 UTC

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

Всё шло к этому. Мы решили задачу омографов в русском языке (мы уже готовим большое расширение). Мы попробовали насколько это физически возможно решить задачу ударения хотя бы для славянских языков (мы уже опубликовали модели-акценторы для русского, украинского и белорусского языков). Мы опубликовали синтез для 20 языков России и стран СНГ. Вы уже много раз упоминали , что неплохо бы завезти наш синтез в SAPI5-интерфейс. Звёзды сошлись, нам написал разработчик, который занимается разработкой таких интерфейсов для Windows и всё завертелось. Теперь пришло время попробовать соединить это всё воедино в виде SAPI5-интерфейса для синтеза для Windows. Основная фишка тут получается в том, что наш синтез настолько быстрый, что его можно использовать как локальный синтез в Windows на CPU, так и как экранную читалку. И да, вы верно всё поняли. Это также значит, что оно из коробки будет работать с Балаболкой и другими подобными программами (и не будет требовать GPU). Да, это только первый, по сути пробный, релиз нашего интерфейса. Будем признательны вам за обратную связь и комментарии. Мы сильно хотели успеть к новому году и сделать всем небольшой новогодний подарок! Надеюсь, что комьюнити оценит. Протестируем!

https://habr.com/ru/articles/981992/

#silero #синтез_речи #tts #texttospeech #нейросети #озвучка #русский_язык #языки_россии #sapi #балаболка

#silero #синтез_речи #tts #texttospeech #нейросети #озвучка

Habr @[email protected] · 2025-12-11 · 09:42 UTC

До запрета иностранных слов в России осталось меньше трех месяцев

Летом этого года Госдума приняла закон о запрете иностранных слов. Запрет коснется каждого предпринимателя и компанию. На подготовку дали восемь месяцев, и большая часть этого срока уже прошла. Как будет работать новый закон, кого могут оштрафовать на сумму до 500 000 рублей, что делать предпринимателям и компаниям — разбираем главные вопросы. Коротко и по сути. Я юрист по интеллектуальным правам. Товарные знаки, патенты и авторские права — это моя профессия. За законопроектами по иностранным словам слежу уже несколько лет. Кто-то уже успел подготовиться, а кто-то еще даже не начинал — давайте сегодня в формате «вопрос-ответ» разберем 10 главных вопросов: что известно на сегодня и как подготовиться, чтобы не влететь на штрафы.

https://habr.com/ru/articles/975656/

#реклама #маркетинг #бренды #русский_язык

#русский_язык #бренды #маркетинг #реклама

Habr @[email protected] · 2025-11-24 · 05:12 UTC

Мы опубликовали стабильный, быстрый, качественный и доступный синтез для 20 языков России

Представляем наш синтез для языков России и СНГ. В этот раз получилось покрыть 20 языков, всего 95 голосов. От старой демки этот релиз отличается следующим: Модель поддерживает SSML; Модель стала быстрее ещё на 20-25% (она и так была супер быстрой); С живыми дикторами были подписаны договоры на запись их голоса; Запись велась в максимально высоком из практически доступного качестве; Для ряда языков опубликованы модели простановки ударений и / или словари с ударениями в рамках silero-stress ; К модели синтеза применены все оптимизации, как к нашей прошлой публичной модели ; Для демки мы брали шумные публичные данные низкого качества. В этот раз всё хорошо - как следствие существенно выросло качество синтеза.

https://habr.com/ru/articles/968988/

#silero #синтез_речи #tts #texttospeech #нейросети #озвучка #синтезатор #русский_язык #языки_россии #россия

#silero #синтез_речи #tts #texttospeech #нейросети #озвучка

Habr @[email protected] · 2025-11-24 · 05:12 UTC

Мы опубликовали стабильный, быстрый, качественный и доступный синтез для 20 языков России

Представляем наш синтез для языков России и СНГ. В этот раз получилось покрыть 20 языков, всего 95 голосов. От старой демки этот релиз отличается следующим: Модель поддерживает SSML; Модель стала быстрее ещё на 20-25% (она и так была супер быстрой); С живыми дикторами были подписаны договоры на запись их голоса; Запись велась в максимально высоком из практически доступного качестве; Для ряда языков опубликованы модели простановки ударений и / или словари с ударениями в рамках silero-stress ; К модели синтеза применены все оптимизации, как к нашей прошлой публичной модели ; Для демки мы брали шумные публичные данные низкого качества. В этот раз всё хорошо - как следствие существенно выросло качество синтеза.

https://habr.com/ru/articles/968988/

#silero #синтез_речи #tts #texttospeech #нейросети #озвучка #синтезатор #русский_язык #языки_россии #россия

#silero #синтез_речи #tts #texttospeech #нейросети #озвучка

Habr @[email protected] · 2025-11-24 · 05:12 UTC

Мы опубликовали стабильный, быстрый, качественный и доступный синтез для 20 языков России

Представляем наш синтез для языков России и СНГ. В этот раз получилось покрыть 20 языков, всего 95 голосов. От старой демки этот релиз отличается следующим: Модель поддерживает SSML; Модель стала быстрее ещё на 20-25% (она и так была супер быстрой); С живыми дикторами были подписаны договоры на запись их голоса; Запись велась в максимально высоком из практически доступного качестве; Для ряда языков опубликованы модели простановки ударений и / или словари с ударениями в рамках silero-stress ; К модели синтеза применены все оптимизации, как к нашей прошлой публичной модели ; Для демки мы брали шумные публичные данные низкого качества. В этот раз всё хорошо - как следствие существенно выросло качество синтеза.

https://habr.com/ru/articles/968988/

#silero #синтез_речи #tts #texttospeech #нейросети #озвучка #синтезатор #русский_язык #языки_россии #россия

#silero #синтез_речи #tts #texttospeech #нейросети #озвучка

Habr @[email protected] · 2025-11-24 · 05:12 UTC

Мы опубликовали стабильный, быстрый, качественный и доступный синтез для 20 языков России

Представляем наш синтез для языков России и СНГ. В этот раз получилось покрыть 20 языков, всего 95 голосов. От старой демки этот релиз отличается следующим: Модель поддерживает SSML; Модель стала быстрее ещё на 20-25% (она и так была супер быстрой); С живыми дикторами были подписаны договоры на запись их голоса; Запись велась в максимально высоком из практически доступного качестве; Для ряда языков опубликованы модели простановки ударений и / или словари с ударениями в рамках silero-stress ; К модели синтеза применены все оптимизации, как к нашей прошлой публичной модели ; Для демки мы брали шумные публичные данные низкого качества. В этот раз всё хорошо - как следствие существенно выросло качество синтеза.

https://habr.com/ru/articles/968988/

#silero #синтез_речи #tts #texttospeech #нейросети #озвучка #синтезатор #русский_язык #языки_россии #россия

#россия #языки_россии #русский_язык #синтезатор #озвучка #нейросети

Habr @[email protected] · 2025-11-22 · 17:42 UTC

Мы добавили поддержку ещё 19 языков России и СНГ в проект silero-stress

Мы недавно писали на Хабр о нашей библиотеке silero-stress для простановки ударения в обычных словах и омографах. Теперь у нашего проекта silero-stress вышла версия v1.2 , в которую вошло следующее: Что вошло?

https://habr.com/ru/articles/969184/

#silero #ударение #pytorch #python #pypi #нейросети #синтез_речи #украинский_язык #языки_россии #русский_язык

#silero #ударение #pytorch #python #pypi #нейросети

Habr @[email protected] · 2025-11-22 · 17:42 UTC

Мы добавили поддержку ещё 19 языков России и СНГ в проект silero-stress

Мы недавно писали на Хабр о нашей библиотеке silero-stress для простановки ударения в обычных словах и омографах. Теперь у нашего проекта silero-stress вышла версия v1.2 , в которую вошло следующее: Что вошло?

https://habr.com/ru/articles/969184/

#silero #ударение #pytorch #python #pypi #нейросети #синтез_речи #украинский_язык #языки_россии #русский_язык

#silero #ударение #pytorch #python #pypi #нейросети

Habr @[email protected] · 2025-11-22 · 17:42 UTC

Мы добавили поддержку ещё 19 языков России и СНГ в проект silero-stress

Мы недавно писали на Хабр о нашей библиотеке silero-stress для простановки ударения в обычных словах и омографах. Теперь у нашего проекта silero-stress вышла версия v1.2 , в которую вошло следующее: Что вошло?

https://habr.com/ru/articles/969184/

#silero #ударение #pytorch #python #pypi #нейросети #синтез_речи #украинский_язык #языки_россии #русский_язык

#silero #ударение #pytorch #python #pypi #нейросети

Habr @[email protected] · 2025-11-22 · 17:42 UTC

Мы добавили поддержку ещё 19 языков России и СНГ в проект silero-stress

Мы недавно писали на Хабр о нашей библиотеке silero-stress для простановки ударения в обычных словах и омографах. Теперь у нашего проекта silero-stress вышла версия v1.2 , в которую вошло следующее: Что вошло?

https://habr.com/ru/articles/969184/

#silero #ударение #pytorch #python #pypi #нейросети #синтез_речи #украинский_язык #языки_россии #русский_язык

#русский_язык #языки_россии #украинский_язык #синтез_речи #нейросети #pypi

Ténno Seremél’ @[email protected] · 2025-11-22 · 08:06 UTC

В какой момент «лаг» трансформировался в «пролаг» (в контексте стримов)? 🤔

#lang_ru #слова #русский_язык #интернет #вопросы

Habr @[email protected] · 2025-11-21 · 03:02 UTC

Меня позвали в крутой проект, спасибо Хабр

Но я облажался... Блин я даже в школе столько правил по русскому не читал, какой же наш язык сложный, а что бы реализовать все проверки, что бы правила корректно отрабатывали, проще застрелиться... Пришлось гуглить информацию по ЕГЭ 2025 года и ковыряться на НКРЯ. Много нового узнал =) В общей сложности потратили неделю, на реализацию концепта, функционал, перенос правил русского языка.

https://habr.com/ru/articles/968632/

#ai #nlp #mawo #kttc #русский_язык #переводы #качество #qa

#ai #nlp #mawo #kttc #русский_язык #переводы

Habr @[email protected] · 2025-11-21 · 03:02 UTC

Меня позвали в крутой проект, спасибо Хабр

Но я облажался... Блин я даже в школе столько правил по русскому не читал, какой же наш язык сложный, а что бы реализовать все проверки, что бы правила корректно отрабатывали, проще застрелиться... Пришлось гуглить информацию по ЕГЭ 2025 года и ковыряться на НКРЯ. Много нового узнал =) В общей сложности потратили неделю, на реализацию концепта, функционал, перенос правил русского языка.

https://habr.com/ru/articles/968632/

#ai #nlp #mawo #kttc #русский_язык #переводы #качество #qa

#ai #nlp #mawo #kttc #русский_язык #переводы

Habr @[email protected] · 2025-11-21 · 03:02 UTC

Меня позвали в крутой проект, спасибо Хабр

Но я облажался... Блин я даже в школе столько правил по русскому не читал, какой же наш язык сложный, а что бы реализовать все проверки, что бы правила корректно отрабатывали, проще застрелиться... Пришлось гуглить информацию по ЕГЭ 2025 года и ковыряться на НКРЯ. Много нового узнал =) В общей сложности потратили неделю, на реализацию концепта, функционал, перенос правил русского языка.

https://habr.com/ru/articles/968632/

#ai #nlp #mawo #kttc #русский_язык #переводы #качество #qa

#ai #nlp #mawo #kttc #русский_язык #переводы