home.social

#tokenizer — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #tokenizer, aggregated by home.social.

  1. Ускоряет ли нас AI-coding или просто удорожает?

    По количеству увеличенных релизов с качеством на приемлемом уровне? Звучит логично. Но знаете ли вы, какой ценой это достигается - сколько денег было потрачено на разработку фичи, и почему, например, было потрачено $1,000 в месяц вместо $500? И как вы понимаете, что в случаях, связанных с:

    habr.com/ru/articles/1037956/

    #claudecode #claude_code #jira #jira_plugin #bitbucket #github #tokenization #tokenizer #эффективность_работы #эффективная_работа

  2. Ускоряет ли нас AI-coding или просто удорожает?

    По количеству увеличенных релизов с качеством на приемлемом уровне? Звучит логично. Но знаете ли вы, какой ценой это достигается - сколько денег было потрачено на разработку фичи, и почему, например, было потрачено $1,000 в месяц вместо $500? И как вы понимаете, что в случаях, связанных с:

    habr.com/ru/articles/1037956/

    #claudecode #claude_code #jira #jira_plugin #bitbucket #github #tokenization #tokenizer #эффективность_работы #эффективная_работа

  3. Ускоряет ли нас AI-coding или просто удорожает?

    По количеству увеличенных релизов с качеством на приемлемом уровне? Звучит логично. Но знаете ли вы, какой ценой это достигается - сколько денег было потрачено на разработку фичи, и почему, например, было потрачено $1,000 в месяц вместо $500? И как вы понимаете, что в случаях, связанных с:

    habr.com/ru/articles/1037956/

    #claudecode #claude_code #jira #jira_plugin #bitbucket #github #tokenization #tokenizer #эффективность_работы #эффективная_работа

  4. Ускоряет ли нас AI-coding или просто удорожает?

    По количеству увеличенных релизов с качеством на приемлемом уровне? Звучит логично. Но знаете ли вы, какой ценой это достигается - сколько денег было потрачено на разработку фичи, и почему, например, было потрачено $1,000 в месяц вместо $500? И как вы понимаете, что в случаях, связанных с:

    habr.com/ru/articles/1037956/

    #claudecode #claude_code #jira #jira_plugin #bitbucket #github #tokenization #tokenizer #эффективность_работы #эффективная_работа

  5. Большие модели, маленькие токены. ЛЛМ - битва за контекст (ч.1)

    Почему понимание токенов, весов и словарей — ключ к продуктивной работе с AI-агентами. Первая глава цикла “Битва за контекст”.

    habr.com/ru/articles/1033230/

    #ai #tokenizer #llm

  6. chibicc-dumper makes public.
    A JSON dumper tool derived from chibicc that can output C language tokens and ASTs.

    This is a small tool that extracts token sequences and ASTs from C source code and outputs them as JSON.
    With this tool, generating bridge code—such as FFI—from C source code becomes easier than before.

    github.com/kekyo/chibicc-dumpe

    #chibicc #tokenizer #parser #ast #typescript

  7. Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

    Платные модели embedding не гарантируют качество на малоресурсных языках. На задаче кроссязыкового сопоставления EPG-заголовков (EN/RU/HY) бесплатная LaBSE набирает R@1 = 0,83, а OpenAI text-embedding-3-large -- 0,21. Протестировано 19 моделей, код и данные открыты.

    habr.com/ru/articles/1008422/

    #embedding #openai #малоресурсный_язык #sentencetransformers #tokenizer #iptv #epg #benchmark #эмбеддинг

  8. Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

    Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.

    habr.com/ru/articles/977210/

    #проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet

  9. Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

    Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.

    habr.com/ru/articles/977210/

    #проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet

  10. Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

    Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.

    habr.com/ru/articles/977210/

    #проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet

  11. Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

    Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.

    habr.com/ru/articles/977210/

    #проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet

  12. Это другое. Python нашел замалчивание в поэзии Беллы Ахмадулиной

    Творческие секреты поэтессы глазами кода. Что анализ фонетики на Python рассказывает о "шестидесятниках".

    habr.com/ru/articles/974658/

    #python #tokenizer #чтение #книги #поэзия #проза #ахмадулина

  13. Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского

    Можно ли было читать советские стихи американцам? Пытаюсь выяснить это с помощью Python на примере Андрея Вознесенского.

    habr.com/ru/articles/972880/

    #python #tokenizer #stanford #pandas #nlp #nltk #чтение #поэзия #проза #говнокод

  14. Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского

    Можно ли было читать советские стихи американцам? Пытаюсь выяснить это с помощью Python на примере Андрея Вознесенского.

    habr.com/ru/articles/972880/

    #python #tokenizer #stanford #pandas #nlp #nltk #чтение #поэзия #проза #говнокод

  15. Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского

    Можно ли было читать советские стихи американцам? Пытаюсь выяснить это с помощью Python на примере Андрея Вознесенского.

    habr.com/ru/articles/972880/

    #python #tokenizer #stanford #pandas #nlp #nltk #чтение #поэзия #проза #говнокод

  16. Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского

    Можно ли было читать советские стихи американцам? Пытаюсь выяснить это с помощью Python на примере Андрея Вознесенского.

    habr.com/ru/articles/972880/

    #python #tokenizer #stanford #pandas #nlp #nltk #чтение #поэзия #проза #говнокод

  17. Я пена морская. Как BERT не справился с анализом простой поэзии

    Небольшой опыт использования модели для определения эмоций. Я пытался найти эмоции у Цветаевой с помощью Python. Да не смог.

    habr.com/ru/articles/971172/

    #python #nltk #tokenizer #литература #чтение #поэзия #поэзия_серебряного_века #поэзия_и_проза #поэзия_и_поэты_серебряного_века #поэзия_и_интернет

  18. Я пена морская. Как BERT не справился с анализом простой поэзии

    Небольшой опыт использования модели для определения эмоций. Я пытался найти эмоции у Цветаевой с помощью Python. Да не смог.

    habr.com/ru/articles/971172/

    #python #nltk #tokenizer #литература #чтение #поэзия #поэзия_серебряного_века #поэзия_и_проза #поэзия_и_поэты_серебряного_века #поэзия_и_интернет

  19. Я пена морская. Как BERT не справился с анализом простой поэзии

    Небольшой опыт использования модели для определения эмоций. Я пытался найти эмоции у Цветаевой с помощью Python. Да не смог.

    habr.com/ru/articles/971172/

    #python #nltk #tokenizer #литература #чтение #поэзия #поэзия_серебряного_века #поэзия_и_проза #поэзия_и_поэты_серебряного_века #поэзия_и_интернет

  20. Я пена морская. Как BERT не справился с анализом простой поэзии

    Небольшой опыт использования модели для определения эмоций. Я пытался найти эмоции у Цветаевой с помощью Python. Да не смог.

    habr.com/ru/articles/971172/

    #python #nltk #tokenizer #литература #чтение #поэзия #поэзия_серебряного_века #поэзия_и_проза #поэзия_и_поэты_серебряного_века #поэзия_и_интернет

  21. Пушкин против Ершова: кто победит в дуэли стилей?

    Сравнил Пушкина и Ершова с помощью Python и пытался найти автора "КОнька-горбунка" среди цифр и кода.

    habr.com/ru/articles/967162/

    #python #nltk_python #tokenizer #pymorphy #matplotlib #литература #литература_художественная #литературная_страничка #литературное_творчество

  22. Пушкин против Ершова: кто победит в дуэли стилей?

    Сравнил Пушкина и Ершова с помощью Python и пытался найти автора "КОнька-горбунка" среди цифр и кода.

    habr.com/ru/articles/967162/

    #python #nltk_python #tokenizer #pymorphy #matplotlib #литература #литература_художественная #литературная_страничка #литературное_творчество

  23. Пушкин против Ершова: кто победит в дуэли стилей?

    Сравнил Пушкина и Ершова с помощью Python и пытался найти автора "КОнька-горбунка" среди цифр и кода.

    habr.com/ru/articles/967162/

    #python #nltk_python #tokenizer #pymorphy #matplotlib #литература #литература_художественная #литературная_страничка #литературное_творчество

  24. Как Python раскрыл поэтический гений Маршака

    Маршак хорошо переводил Шекспира, но насколько он был близок к оригиналу? Сохранен ли у него ритм, размер, смысл и структура? Установлю это математически точно с помощью Python.

    habr.com/ru/articles/965552/

    #python #nltk #nltk_python #tokenizer

  25. Как Python раскрыл поэтический гений Маршака

    Маршак хорошо переводил Шекспира, но насколько он был близок к оригиналу? Сохранен ли у него ритм, размер, смысл и структура? Установлю это математически точно с помощью Python.

    habr.com/ru/articles/965552/

    #python #nltk #nltk_python #tokenizer

  26. Как Python раскрыл поэтический гений Маршака

    Маршак хорошо переводил Шекспира, но насколько он был близок к оригиналу? Сохранен ли у него ритм, размер, смысл и структура? Установлю это математически точно с помощью Python.

    habr.com/ru/articles/965552/

    #python #nltk #nltk_python #tokenizer

  27. Как Python раскрыл поэтический гений Маршака

    Маршак хорошо переводил Шекспира, но насколько он был близок к оригиналу? Сохранен ли у него ритм, размер, смысл и структура? Установлю это математически точно с помощью Python.

    habr.com/ru/articles/965552/

    #python #nltk #nltk_python #tokenizer

  28. [Перевод] Как открытые веса раскрыли секреты обучения GPT-5

    Команда AI for Devs перевела статью, показывающую, что открытые веса — это не только про прозрачность, но и про утечку тайн обучения. На примере модели GPT-oss автор показывает, как можно восстановить части обучающего пайплайна и даже выявить, что GPT-5 видела фразы с сайтов для взрослых.

    habr.com/ru/articles/955260/

    #OpenAI #GPT5 #GPToss #glitchtokens #trainingdata #membershipinference #tokenizer #embeddings #GitHub #adultcontent

  29. 🚀 Wow, a #tokenizer that's 2-4x faster than OpenAI's! Is it powered by caffeine or just another #GitHub star chaser? 🤔 Meanwhile, the rest of us are still trying to figure out how to navigate GitHub's labyrinthine menu without a PhD in UI 🤷‍♂️.
    github.com/M4THYOU/TokenDagger #OpenAI #technews #softwaredevelopment #UIUX #HackerNews #ngated

  30. The #Transformers #AI can use different pre-trained #language models for fine tuning and for learning knowledge unrelated to languages. To turn a raw .csv training data file into a form (called data frame) that readable by Transformers, you use some functions of a library called #Pandas. The Transformers turns the data frame into tokens (word units) using a #tokenizer for further analysis and calculation purposes, using specialized libraries such as #Pytorch.

  31. Считаем количество токенов для LLM в исходниках ядра Linux и не только…

    Эта статья про новое расширение ахритектуры трансформеров – Titan от Google –, позволяющее расширить рамки LLM до 2 млн токенов, побудила поинтересоваться, сколько токенов, пригодных для LLM, содержат исходники колоссального софта. Какой открытый софт будем «препарировать»:

    habr.com/ru/articles/875022/

    #llm #ai #tokenizer #token #fun #openai #tiktoken

  32. Idea: Audio-to-StableDiffusion #tokenizer that naively translates #audio chunks to #tokens recognized by #StableDiffusion and generates 1 frame per 1/24th second of audio, then strings the results together. Add a temporal cohesion mechanism to taste.

    I wonder what it would look like. 🤔

  33. Разбираемся с Vespa. Часть 2

    Из этой статьи вы узнаете: 1) Что такое Document и Query Processing. 2) Как обрабатывается текст Vespa. Что такое токенизация и стемминг. 3) Какой из обработчиков текста лучше подходит для русского языка. 4) Как выполнить текстовый поиск. 5) Как происходит ранжирование результата.

    habr.com/ru/companies/sportmas

    #java #vespa #stemming #tokenizer #bm25 #docker

  34. Last night I got a on a tear and wrote a complete #tokenizer for the Manatee programming language in C. I started at…9ish and finished at 1 in the morning

    (It is, AFAIK, completely compliant except that I didn’t bother with Unicode. I suppose I could relatively easily augment it to use wchars…which aren’t *necessarily* Unicode but if we stick to standard C we gotta make sacrifices. __STDC_ISO_10646__ FTW I suppose.)

    I suppose I should probably write a #parser over the weekend, time permitting