home.social

#tokenizer — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #tokenizer, aggregated by home.social.

  1. chibicc-dumper makes public.
    A JSON dumper tool derived from chibicc that can output C language tokens and ASTs.

    This is a small tool that extracts token sequences and ASTs from C source code and outputs them as JSON.
    With this tool, generating bridge code—such as FFI—from C source code becomes easier than before.

    github.com/kekyo/chibicc-dumpe

    #chibicc #tokenizer #parser #ast #typescript

  2. Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

    Платные модели embedding не гарантируют качество на малоресурсных языках. На задаче кроссязыкового сопоставления EPG-заголовков (EN/RU/HY) бесплатная LaBSE набирает R@1 = 0,83, а OpenAI text-embedding-3-large -- 0,21. Протестировано 19 моделей, код и данные открыты.

    habr.com/ru/articles/1008422/

    #embedding #openai #малоресурсный_язык #sentencetransformers #tokenizer #iptv #epg #benchmark #эмбеддинг

  3. Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

    Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.

    habr.com/ru/articles/977210/

    #проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet

  4. Разбираемся с Vespa. Часть 2

    Из этой статьи вы узнаете: 1) Что такое Document и Query Processing. 2) Как обрабатывается текст Vespa. Что такое токенизация и стемминг. 3) Какой из обработчиков текста лучше подходит для русского языка. 4) Как выполнить текстовый поиск. 5) Как происходит ранжирование результата.

    habr.com/ru/companies/sportmas

    #java #vespa #stemming #tokenizer #bm25 #docker