#кириллица — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-07 · 12:12 UTC

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

https://habr.com/ru/articles/1032610/

#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

#yandexgpt #llama #gigachat #qwen #кириллица #selfhosted

Habr @[email protected] · 2026-05-07 · 12:12 UTC

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

https://habr.com/ru/articles/1032610/

#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

#yandexgpt #llama #gigachat #qwen #кириллица #selfhosted

Habr @[email protected] · 2026-05-07 · 12:12 UTC

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

https://habr.com/ru/articles/1032610/

#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

#yandexgpt #llama #gigachat #qwen #кириллица #selfhosted

Habr @[email protected] · 2026-05-07 · 12:12 UTC

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

https://habr.com/ru/articles/1032610/

#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица

Habr @[email protected] · 2026-04-22 · 12:12 UTC

Telegraph API: CONTENT_TOO_BIG приходит раньше обещанных 64 КБ. Измеряем реальный лимит и разбираем обходной путь

Telegraph API обещает принимать content до 64 КБ, но на практике CONTENT_TOO_BIG прилетает уже на 17-20 КБ. Разбираю, как измерял реальный лимит, при чём тут UTF-8 vs UTF-16 для кириллицы, и каким обходным путём чинил молчаливую деградацию RU-канала.

https://habr.com/ru/articles/1026610/

#Telegraph_API #CONTENT_TOO_BIG #Nodejs #Telegram #кириллица #UTF8 #дебаг #лимиты_API #fetch #интеграции

#интеграции #fetch #лимиты_api #дебаг #utf8 #кириллица

Habr @[email protected] · 2026-04-22 · 12:12 UTC

Telegraph API: CONTENT_TOO_BIG приходит раньше обещанных 64 КБ. Измеряем реальный лимит и разбираем обходной путь

Telegraph API обещает принимать content до 64 КБ, но на практике CONTENT_TOO_BIG прилетает уже на 17-20 КБ. Разбираю, как измерял реальный лимит, при чём тут UTF-8 vs UTF-16 для кириллицы, и каким обходным путём чинил молчаливую деградацию RU-канала.

https://habr.com/ru/articles/1026610/

#Telegraph_API #CONTENT_TOO_BIG #Nodejs #Telegram #кириллица #UTF8 #дебаг #лимиты_API #fetch #интеграции

#интеграции #fetch #лимиты_api #дебаг #utf8 #кириллица

Habr @[email protected] · 2026-04-22 · 12:12 UTC

Telegraph API: CONTENT_TOO_BIG приходит раньше обещанных 64 КБ. Измеряем реальный лимит и разбираем обходной путь

Telegraph API обещает принимать content до 64 КБ, но на практике CONTENT_TOO_BIG прилетает уже на 17-20 КБ. Разбираю, как измерял реальный лимит, при чём тут UTF-8 vs UTF-16 для кириллицы, и каким обходным путём чинил молчаливую деградацию RU-канала.

https://habr.com/ru/articles/1026610/

#Telegraph_API #CONTENT_TOO_BIG #Nodejs #Telegram #кириллица #UTF8 #дебаг #лимиты_API #fetch #интеграции

#интеграции #fetch #лимиты_api #дебаг #utf8 #кириллица

Habr @[email protected] · 2026-04-22 · 12:12 UTC

Telegraph API: CONTENT_TOO_BIG приходит раньше обещанных 64 КБ. Измеряем реальный лимит и разбираем обходной путь

Telegraph API обещает принимать content до 64 КБ, но на практике CONTENT_TOO_BIG прилетает уже на 17-20 КБ. Разбираю, как измерял реальный лимит, при чём тут UTF-8 vs UTF-16 для кириллицы, и каким обходным путём чинил молчаливую деградацию RU-канала.

https://habr.com/ru/articles/1026610/

#Telegraph_API #CONTENT_TOO_BIG #Nodejs #Telegram #кириллица #UTF8 #дебаг #лимиты_API #fetch #интеграции

#telegraph_api #content_too_big #nodejs #telegram #кириллица #utf8