#кириллица — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #кириллица, aggregated by home.social.
-
Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее
Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.
https://habr.com/ru/articles/1032610/
#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt
-
Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее
Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.
https://habr.com/ru/articles/1032610/
#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt
-
Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее
Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.
https://habr.com/ru/articles/1032610/
#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt
-
Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее
Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.
https://habr.com/ru/articles/1032610/
#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt
-
Telegraph API: CONTENT_TOO_BIG приходит раньше обещанных 64 КБ. Измеряем реальный лимит и разбираем обходной путь
Telegraph API обещает принимать content до 64 КБ, но на практике CONTENT_TOO_BIG прилетает уже на 17-20 КБ. Разбираю, как измерял реальный лимит, при чём тут UTF-8 vs UTF-16 для кириллицы, и каким обходным путём чинил молчаливую деградацию RU-канала.
https://habr.com/ru/articles/1026610/
#Telegraph_API #CONTENT_TOO_BIG #Nodejs #Telegram #кириллица #UTF8 #дебаг #лимиты_API #fetch #интеграции
-
Telegraph API: CONTENT_TOO_BIG приходит раньше обещанных 64 КБ. Измеряем реальный лимит и разбираем обходной путь
Telegraph API обещает принимать content до 64 КБ, но на практике CONTENT_TOO_BIG прилетает уже на 17-20 КБ. Разбираю, как измерял реальный лимит, при чём тут UTF-8 vs UTF-16 для кириллицы, и каким обходным путём чинил молчаливую деградацию RU-канала.
https://habr.com/ru/articles/1026610/
#Telegraph_API #CONTENT_TOO_BIG #Nodejs #Telegram #кириллица #UTF8 #дебаг #лимиты_API #fetch #интеграции
-
Telegraph API: CONTENT_TOO_BIG приходит раньше обещанных 64 КБ. Измеряем реальный лимит и разбираем обходной путь
Telegraph API обещает принимать content до 64 КБ, но на практике CONTENT_TOO_BIG прилетает уже на 17-20 КБ. Разбираю, как измерял реальный лимит, при чём тут UTF-8 vs UTF-16 для кириллицы, и каким обходным путём чинил молчаливую деградацию RU-канала.
https://habr.com/ru/articles/1026610/
#Telegraph_API #CONTENT_TOO_BIG #Nodejs #Telegram #кириллица #UTF8 #дебаг #лимиты_API #fetch #интеграции
-
Telegraph API: CONTENT_TOO_BIG приходит раньше обещанных 64 КБ. Измеряем реальный лимит и разбираем обходной путь
Telegraph API обещает принимать content до 64 КБ, но на практике CONTENT_TOO_BIG прилетает уже на 17-20 КБ. Разбираю, как измерял реальный лимит, при чём тут UTF-8 vs UTF-16 для кириллицы, и каким обходным путём чинил молчаливую деградацию RU-канала.
https://habr.com/ru/articles/1026610/
#Telegraph_API #CONTENT_TOO_BIG #Nodejs #Telegram #кириллица #UTF8 #дебаг #лимиты_API #fetch #интеграции
-
#путеводитель (aka #ликбез):
вот это число называлось «легион»: а҈ /сто тысяч /100 000, в другой записи ҂р҃клавиатура кириллицы с диакритическими символами: http://www.o7.ru/howto/titlo/
конвертер чисел: https://azbyka.ru/converter
год «от сотворения мира» (сейчас ҂зфл҃д): https://azbyka.ru/days/calculator/byzantine-chronology
календарь двунадесятых праздников (1919-2100) https://flipboard.social/@liilliil/115900477859088401
#литорея простая http://www.o7.ru/howto/litorea/ и мудрая http://www.o7.ru/howto/wise/ -
#путеводитель (aka #ликбез):
вот это число называлось «легион»: а҈ /сто тысяч /100 000, в другой записи ҂р҃клавиатура кириллицы с диакритическими символами: http://www.o7.ru/howto/titlo/
конвертер чисел: https://azbyka.ru/converter
год «от сотворения мира» (сейчас ҂зфл҃д): https://azbyka.ru/days/calculator/byzantine-chronology
календарь двунадесятых праздников (1919-2100) https://flipboard.social/@liilliil/115900477859088401
#литорея простая http://www.o7.ru/howto/litorea/ и мудрая http://www.o7.ru/howto/wise/ -
#путеводитель (aka #ликбез):
вот это число называлось «легион»: а҈ /сто тысяч /100 000, в другой записи ҂р҃клавиатура кириллицы с диакритическими символами: http://www.o7.ru/howto/titlo/
конвертер чисел: https://azbyka.ru/converter
год «от сотворения мира» (сейчас ҂зфл҃д): https://azbyka.ru/days/calculator/byzantine-chronology
календарь двунадесятых праздников (1919-2100) https://flipboard.social/@liilliil/115900477859088401
#литорея простая http://www.o7.ru/howto/litorea/ и мудрая http://www.o7.ru/howto/wise/ -
#путеводитель (aka #ликбез):
вот это число называлось «легион»: а҈ /сто тысяч /100 000, в другой записи ҂р҃клавиатура кириллицы с диакритическими символами: http://www.o7.ru/howto/titlo/
конвертер чисел: https://azbyka.ru/converter
год «от сотворения мира» (сейчас ҂зфл҃д): https://azbyka.ru/days/calculator/byzantine-chronology
календарь двунадесятых праздников (1919-2100) https://flipboard.social/@liilliil/115900477859088401
#литорея простая http://www.o7.ru/howto/litorea/ и мудрая http://www.o7.ru/howto/wise/ -
#путеводитель (aka #ликбез):
вот это число называлось «легион»: а҈ /сто тысяч /100 000, в другой записи ҂р҃клавиатура кириллицы с диакритическими символами: http://www.o7.ru/howto/titlo/
конвертер чисел: https://azbyka.ru/converter
год «от сотворения мира» (сейчас ҂зфл҃д): https://azbyka.ru/days/calculator/byzantine-chronology
календарь двунадесятых праздников (1919-2100) https://flipboard.social/@liilliil/115900477859088401
#литорея простая http://www.o7.ru/howto/litorea/ и мудрая http://www.o7.ru/howto/wise/ -
Бесплатные кириллические шрифты от Шрифтотеки 2.0. Лицензии разные (как минимум — бесплатно для личного использования).
#fonts #шрифты #design #дизайн #дизигн #верстка #полиграфия #DTP #OpenSource #кириллица @[email protected] @[email protected] @[email protected] @[email protected] @[email protected] -
Выкачал с Fontesk 685 акцидентных/заголовочных #шрифтов с поддержкой кириллицы.
Все шрифты свободные/бесплатные.
В комплекте скрипт для #PowerShell, которым можно воспользоваться, чтобы упорядочить архив чуть лучше, нежели он выглядит сейчас (по желанию).
#fonts #шрифты #design #дизайн #дизигн #верстка #полиграфия #DTP #OpenSource #кириллица @[email protected] @[email protected] @[email protected] @[email protected] @[email protected] -
@kaedechan @Evv1L #Русский ли? #Язык явно #славянский, и #кириллица. На #украинский не похож (а значит и не #русинский), не #белорусский (там вроде бы нет #буквы И), не #сербский (там вроде бы нет буквы Й). Кроме того, язык, похоже, анализирующий (аналитический; про анализирующие и синтезирующие #языки можете прочитать в Википедии). Возможно, #болгарский или #македонский; они #славянские, но особенные (одни #лингвисты считают македонский отдельным языком, другие, что он #диалект болгарского).
-
@kaedechan @Evv1L #Русский ли? #Язык явно #славянский, и #кириллица. На #украинский не похож (а значит и не #русинский), не #белорусский (там вроде бы нет #буквы И), не #сербский (там вроде бы нет буквы Й). Кроме того, язык, похоже, анализирующий (аналитический; про анализирующие и синтезирующие #языки можете прочитать в Википедии). Возможно, #болгарский или #македонский; они #славянские, но особенные (одни #лингвисты считают македонский отдельным языком, другие, что он #диалект болгарского).
-
@kaedechan @Evv1L #Русский ли? #Язык явно #славянский, и #кириллица. На #украинский не похож (а значит и не #русинский), не #белорусский (там вроде бы нет #буквы И), не #сербский (там вроде бы нет буквы Й). Кроме того, язык, похоже, анализирующий (аналитический; про анализирующие и синтезирующие #языки можете прочитать в Википедии). Возможно, #болгарский или #македонский; они #славянские, но особенные (одни #лингвисты считают македонский отдельным языком, другие, что он #диалект болгарского).