home.social

#кириллица — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #кириллица, aggregated by home.social.

  1. Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

    Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

    habr.com/ru/articles/1032610/

    #llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

  2. Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

    Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

    habr.com/ru/articles/1032610/

    #llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

  3. Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

    Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

    habr.com/ru/articles/1032610/

    #llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

  4. Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

    Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

    habr.com/ru/articles/1032610/

    #llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

  5. Telegraph API: CONTENT_TOO_BIG приходит раньше обещанных 64 КБ. Измеряем реальный лимит и разбираем обходной путь

    Telegraph API обещает принимать content до 64 КБ, но на практике CONTENT_TOO_BIG прилетает уже на 17-20 КБ. Разбираю, как измерял реальный лимит, при чём тут UTF-8 vs UTF-16 для кириллицы, и каким обходным путём чинил молчаливую деградацию RU-канала.

    habr.com/ru/articles/1026610/

    #Telegraph_API #CONTENT_TOO_BIG #Nodejs #Telegram #кириллица #UTF8 #дебаг #лимиты_API #fetch #интеграции

  6. Telegraph API: CONTENT_TOO_BIG приходит раньше обещанных 64 КБ. Измеряем реальный лимит и разбираем обходной путь

    Telegraph API обещает принимать content до 64 КБ, но на практике CONTENT_TOO_BIG прилетает уже на 17-20 КБ. Разбираю, как измерял реальный лимит, при чём тут UTF-8 vs UTF-16 для кириллицы, и каким обходным путём чинил молчаливую деградацию RU-канала.

    habr.com/ru/articles/1026610/

    #Telegraph_API #CONTENT_TOO_BIG #Nodejs #Telegram #кириллица #UTF8 #дебаг #лимиты_API #fetch #интеграции

  7. Telegraph API: CONTENT_TOO_BIG приходит раньше обещанных 64 КБ. Измеряем реальный лимит и разбираем обходной путь

    Telegraph API обещает принимать content до 64 КБ, но на практике CONTENT_TOO_BIG прилетает уже на 17-20 КБ. Разбираю, как измерял реальный лимит, при чём тут UTF-8 vs UTF-16 для кириллицы, и каким обходным путём чинил молчаливую деградацию RU-канала.

    habr.com/ru/articles/1026610/

    #Telegraph_API #CONTENT_TOO_BIG #Nodejs #Telegram #кириллица #UTF8 #дебаг #лимиты_API #fetch #интеграции

  8. Telegraph API: CONTENT_TOO_BIG приходит раньше обещанных 64 КБ. Измеряем реальный лимит и разбираем обходной путь

    Telegraph API обещает принимать content до 64 КБ, но на практике CONTENT_TOO_BIG прилетает уже на 17-20 КБ. Разбираю, как измерял реальный лимит, при чём тут UTF-8 vs UTF-16 для кириллицы, и каким обходным путём чинил молчаливую деградацию RU-канала.

    habr.com/ru/articles/1026610/

    #Telegraph_API #CONTENT_TOO_BIG #Nodejs #Telegram #кириллица #UTF8 #дебаг #лимиты_API #fetch #интеграции

  9. #путеводитель (aka #ликбез):
    вот это число называлось «легион»: а҈ /сто тысяч /100 000, в другой записи ҂р҃

    клавиатура кириллицы с диакритическими символами: o7.ru/howto/titlo/
    конвертер чисел: azbyka.ru/converter
    год «от сотворения мира» (сейчас ҂зфл҃д): azbyka.ru/days/calculator/byza
    календарь двунадесятых праздников (1919-2100) flipboard.social/@liilliil/115
    #литорея простая o7.ru/howto/litorea/ и мудрая o7.ru/howto/wise/

    #кириллица

  10. #путеводитель (aka #ликбез):
    вот это число называлось «легион»: а҈ /сто тысяч /100 000, в другой записи ҂р҃

    клавиатура кириллицы с диакритическими символами: o7.ru/howto/titlo/
    конвертер чисел: azbyka.ru/converter
    год «от сотворения мира» (сейчас ҂зфл҃д): azbyka.ru/days/calculator/byza
    календарь двунадесятых праздников (1919-2100) flipboard.social/@liilliil/115
    #литорея простая o7.ru/howto/litorea/ и мудрая o7.ru/howto/wise/

    #кириллица

  11. #путеводитель (aka #ликбез):
    вот это число называлось «легион»: а҈ /сто тысяч /100 000, в другой записи ҂р҃

    клавиатура кириллицы с диакритическими символами: o7.ru/howto/titlo/
    конвертер чисел: azbyka.ru/converter
    год «от сотворения мира» (сейчас ҂зфл҃д): azbyka.ru/days/calculator/byza
    календарь двунадесятых праздников (1919-2100) flipboard.social/@liilliil/115
    #литорея простая o7.ru/howto/litorea/ и мудрая o7.ru/howto/wise/

    #кириллица

  12. #путеводитель (aka #ликбез):
    вот это число называлось «легион»: а҈ /сто тысяч /100 000, в другой записи ҂р҃

    клавиатура кириллицы с диакритическими символами: o7.ru/howto/titlo/
    конвертер чисел: azbyka.ru/converter
    год «от сотворения мира» (сейчас ҂зфл҃д): azbyka.ru/days/calculator/byza
    календарь двунадесятых праздников (1919-2100) flipboard.social/@liilliil/115
    #литорея простая o7.ru/howto/litorea/ и мудрая o7.ru/howto/wise/

    #кириллица

  13. #путеводитель (aka #ликбез):
    вот это число называлось «легион»: а҈ /сто тысяч /100 000, в другой записи ҂р҃

    клавиатура кириллицы с диакритическими символами: o7.ru/howto/titlo/
    конвертер чисел: azbyka.ru/converter
    год «от сотворения мира» (сейчас ҂зфл҃д): azbyka.ru/days/calculator/byza
    календарь двунадесятых праздников (1919-2100) flipboard.social/@liilliil/115
    #литорея простая o7.ru/howto/litorea/ и мудрая o7.ru/howto/wise/

    #кириллица

  14. Выкачал с Fontesk 685 акцидентных/заголовочных #шрифто​в с поддержкой кириллицы.

    Все шрифты свободные/бесплатные.

    В комплекте скрипт для
    #PowerShell, которым можно воспользоваться, чтобы упорядочить архив чуть лучше, нежели он выглядит сейчас (по желанию).

    #fonts #шрифты #design #дизайн #дизигн #верстка #полиграфия #DTP #OpenSource #кириллица @[email protected] @[email protected] @[email protected] @[email protected] @[email protected]

  15. @kaedechan @Evv1L #Русский ли? #Язык явно #славянский, и #кириллица. На #украинский не похож (а значит и не #русинский), не #белорусский (там вроде бы нет #буквы И), не #сербский (там вроде бы нет буквы Й). Кроме того, язык, похоже, анализирующий (аналитический; про анализирующие и синтезирующие #языки можете прочитать в Википедии). Возможно, #болгарский или #македонский; они #славянские, но особенные (одни #лингвисты считают македонский отдельным языком, другие, что он #диалект болгарского).

  16. @kaedechan @Evv1L #Русский ли? #Язык явно #славянский, и #кириллица. На #украинский не похож (а значит и не #русинский), не #белорусский (там вроде бы нет #буквы И), не #сербский (там вроде бы нет буквы Й). Кроме того, язык, похоже, анализирующий (аналитический; про анализирующие и синтезирующие #языки можете прочитать в Википедии). Возможно, #болгарский или #македонский; они #славянские, но особенные (одни #лингвисты считают македонский отдельным языком, другие, что он #диалект болгарского).

  17. @kaedechan @Evv1L #Русский ли? #Язык явно #славянский, и #кириллица. На #украинский не похож (а значит и не #русинский), не #белорусский (там вроде бы нет #буквы И), не #сербский (там вроде бы нет буквы Й). Кроме того, язык, похоже, анализирующий (аналитический; про анализирующие и синтезирующие #языки можете прочитать в Википедии). Возможно, #болгарский или #македонский; они #славянские, но особенные (одни #лингвисты считают македонский отдельным языком, другие, что он #диалект болгарского).