#tokenizer — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #tokenizer, aggregated by home.social.
-
Ускоряет ли нас AI-coding или просто удорожает?
По количеству увеличенных релизов с качеством на приемлемом уровне? Звучит логично. Но знаете ли вы, какой ценой это достигается - сколько денег было потрачено на разработку фичи, и почему, например, было потрачено $1,000 в месяц вместо $500? И как вы понимаете, что в случаях, связанных с:
https://habr.com/ru/articles/1037956/
#claudecode #claude_code #jira #jira_plugin #bitbucket #github #tokenization #tokenizer #эффективность_работы #эффективная_работа
-
Ускоряет ли нас AI-coding или просто удорожает?
По количеству увеличенных релизов с качеством на приемлемом уровне? Звучит логично. Но знаете ли вы, какой ценой это достигается - сколько денег было потрачено на разработку фичи, и почему, например, было потрачено $1,000 в месяц вместо $500? И как вы понимаете, что в случаях, связанных с:
https://habr.com/ru/articles/1037956/
#claudecode #claude_code #jira #jira_plugin #bitbucket #github #tokenization #tokenizer #эффективность_работы #эффективная_работа
-
Ускоряет ли нас AI-coding или просто удорожает?
По количеству увеличенных релизов с качеством на приемлемом уровне? Звучит логично. Но знаете ли вы, какой ценой это достигается - сколько денег было потрачено на разработку фичи, и почему, например, было потрачено $1,000 в месяц вместо $500? И как вы понимаете, что в случаях, связанных с:
https://habr.com/ru/articles/1037956/
#claudecode #claude_code #jira #jira_plugin #bitbucket #github #tokenization #tokenizer #эффективность_работы #эффективная_работа
-
Ускоряет ли нас AI-coding или просто удорожает?
По количеству увеличенных релизов с качеством на приемлемом уровне? Звучит логично. Но знаете ли вы, какой ценой это достигается - сколько денег было потрачено на разработку фичи, и почему, например, было потрачено $1,000 в месяц вместо $500? И как вы понимаете, что в случаях, связанных с:
https://habr.com/ru/articles/1037956/
#claudecode #claude_code #jira #jira_plugin #bitbucket #github #tokenization #tokenizer #эффективность_работы #эффективная_работа
-
Большие модели, маленькие токены. ЛЛМ - битва за контекст (ч.1)
Почему понимание токенов, весов и словарей — ключ к продуктивной работе с AI-агентами. Первая глава цикла “Битва за контекст”.
-
Claude Opus 4.7 costs 20–30% more per session
https://www.claudecodecamp.com/p/i-measured-claude-4-7-s-new-tokenizer-here-s-what-it-costs-you
#HackerNews #ClaudeOpus #Claude4.7 #AIcosts #Tokenizer #TechNews
-
Claude Opus 4.7 costs 20–30% more per session
https://www.claudecodecamp.com/p/i-measured-claude-4-7-s-new-tokenizer-here-s-what-it-costs-you
#HackerNews #ClaudeOpus #Claude4.7 #AIcosts #Tokenizer #TechNews
-
Claude Opus 4.7 costs 20–30% more per session
https://www.claudecodecamp.com/p/i-measured-claude-4-7-s-new-tokenizer-here-s-what-it-costs-you
#HackerNews #ClaudeOpus #Claude4.7 #AIcosts #Tokenizer #TechNews
-
Claude Opus 4.7 costs 20–30% more per session
https://www.claudecodecamp.com/p/i-measured-claude-4-7-s-new-tokenizer-here-s-what-it-costs-you
#HackerNews #ClaudeOpus #Claude4.7 #AIcosts #Tokenizer #TechNews
-
Claude Opus 4.7 costs 20–30% more per session
https://www.claudecodecamp.com/p/i-measured-claude-4-7-s-new-tokenizer-here-s-what-it-costs-you
#HackerNews #ClaudeOpus #Claude4.7 #AIcosts #Tokenizer #TechNews
-
#Development #Launches
Syntaqlite Playground · Parse, format, validate, and tokenize SQLite queries, https://ilo.im/16by65_____
#Parser #Formatter #Validator #Tokenizer #SQL #SQLite #Databases #Server #WebDev #Backend -
#Development #Launches
Syntaqlite Playground · Parse, format, validate, and tokenize SQLite queries, https://ilo.im/16by65_____
#Parser #Formatter #Validator #Tokenizer #SQL #SQLite #Databases #Server #WebDev #Backend -
#Development #Launches
Syntaqlite Playground · Parse, format, validate, and tokenize SQLite queries, https://ilo.im/16by65_____
#Parser #Formatter #Validator #Tokenizer #SQL #SQLite #Databases #Server #WebDev #Backend -
#Development #Launches
Syntaqlite Playground · Parse, format, validate, and tokenize SQLite queries, https://ilo.im/16by65_____
#Parser #Formatter #Validator #Tokenizer #SQL #SQLite #Databases #Server #WebDev #Backend -
chibicc-dumper makes public.
A JSON dumper tool derived from chibicc that can output C language tokens and ASTs.This is a small tool that extracts token sequences and ASTs from C source code and outputs them as JSON.
With this tool, generating bridge code—such as FFI—from C source code becomes easier than before. -
Italy’s First Multi-Operator Contactless Transit Payment System | 2026 – News and Statistics https://www.byteseu.com/1894184/ #ArrivaItalia #BresciaMobilità #Conduent #ContactlessPayment #DigitalWallet #EMV #FareIntegration #Italy #MultiPassengerTicket #PublicTransport #tokenizer
-
Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG
Платные модели embedding не гарантируют качество на малоресурсных языках. На задаче кроссязыкового сопоставления EPG-заголовков (EN/RU/HY) бесплатная LaBSE набирает R@1 = 0,83, а OpenAI text-embedding-3-large -- 0,21. Протестировано 19 моделей, код и данные открыты.
https://habr.com/ru/articles/1008422/
#embedding #openai #малоресурсный_язык #sentencetransformers #tokenizer #iptv #epg #benchmark #эмбеддинг
-
Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python
Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.
https://habr.com/ru/articles/977210/
#проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet
-
Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python
Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.
https://habr.com/ru/articles/977210/
#проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet
-
Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python
Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.
https://habr.com/ru/articles/977210/
#проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet
-
Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python
Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.
https://habr.com/ru/articles/977210/
#проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet
-
Это другое. Python нашел замалчивание в поэзии Беллы Ахмадулиной
Творческие секреты поэтессы глазами кода. Что анализ фонетики на Python рассказывает о "шестидесятниках".
https://habr.com/ru/articles/974658/
#python #tokenizer #чтение #книги #поэзия #проза #ахмадулина
-
Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского
Можно ли было читать советские стихи американцам? Пытаюсь выяснить это с помощью Python на примере Андрея Вознесенского.
https://habr.com/ru/articles/972880/
#python #tokenizer #stanford #pandas #nlp #nltk #чтение #поэзия #проза #говнокод
-
Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского
Можно ли было читать советские стихи американцам? Пытаюсь выяснить это с помощью Python на примере Андрея Вознесенского.
https://habr.com/ru/articles/972880/
#python #tokenizer #stanford #pandas #nlp #nltk #чтение #поэзия #проза #говнокод
-
Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского
Можно ли было читать советские стихи американцам? Пытаюсь выяснить это с помощью Python на примере Андрея Вознесенского.
https://habr.com/ru/articles/972880/
#python #tokenizer #stanford #pandas #nlp #nltk #чтение #поэзия #проза #говнокод
-
Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского
Можно ли было читать советские стихи американцам? Пытаюсь выяснить это с помощью Python на примере Андрея Вознесенского.
https://habr.com/ru/articles/972880/
#python #tokenizer #stanford #pandas #nlp #nltk #чтение #поэзия #проза #говнокод
-
Я пена морская. Как BERT не справился с анализом простой поэзии
Небольшой опыт использования модели для определения эмоций. Я пытался найти эмоции у Цветаевой с помощью Python. Да не смог.
https://habr.com/ru/articles/971172/
#python #nltk #tokenizer #литература #чтение #поэзия #поэзия_серебряного_века #поэзия_и_проза #поэзия_и_поэты_серебряного_века #поэзия_и_интернет
-
Я пена морская. Как BERT не справился с анализом простой поэзии
Небольшой опыт использования модели для определения эмоций. Я пытался найти эмоции у Цветаевой с помощью Python. Да не смог.
https://habr.com/ru/articles/971172/
#python #nltk #tokenizer #литература #чтение #поэзия #поэзия_серебряного_века #поэзия_и_проза #поэзия_и_поэты_серебряного_века #поэзия_и_интернет
-
Я пена морская. Как BERT не справился с анализом простой поэзии
Небольшой опыт использования модели для определения эмоций. Я пытался найти эмоции у Цветаевой с помощью Python. Да не смог.
https://habr.com/ru/articles/971172/
#python #nltk #tokenizer #литература #чтение #поэзия #поэзия_серебряного_века #поэзия_и_проза #поэзия_и_поэты_серебряного_века #поэзия_и_интернет
-
Я пена морская. Как BERT не справился с анализом простой поэзии
Небольшой опыт использования модели для определения эмоций. Я пытался найти эмоции у Цветаевой с помощью Python. Да не смог.
https://habr.com/ru/articles/971172/
#python #nltk #tokenizer #литература #чтение #поэзия #поэзия_серебряного_века #поэзия_и_проза #поэзия_и_поэты_серебряного_века #поэзия_и_интернет
-
Пушкин против Ершова: кто победит в дуэли стилей?
Сравнил Пушкина и Ершова с помощью Python и пытался найти автора "КОнька-горбунка" среди цифр и кода.
https://habr.com/ru/articles/967162/
#python #nltk_python #tokenizer #pymorphy #matplotlib #литература #литература_художественная #литературная_страничка #литературное_творчество
-
Пушкин против Ершова: кто победит в дуэли стилей?
Сравнил Пушкина и Ершова с помощью Python и пытался найти автора "КОнька-горбунка" среди цифр и кода.
https://habr.com/ru/articles/967162/
#python #nltk_python #tokenizer #pymorphy #matplotlib #литература #литература_художественная #литературная_страничка #литературное_творчество
-
Пушкин против Ершова: кто победит в дуэли стилей?
Сравнил Пушкина и Ершова с помощью Python и пытался найти автора "КОнька-горбунка" среди цифр и кода.
https://habr.com/ru/articles/967162/
#python #nltk_python #tokenizer #pymorphy #matplotlib #литература #литература_художественная #литературная_страничка #литературное_творчество
-
Пушкин против Ершова: кто победит в дуэли стилей?
Сравнил Пушкина и Ершова с помощью Python и пытался найти автора "КОнька-горбунка" среди цифр и кода.
https://habr.com/ru/articles/967162/
#python #nltk_python #tokenizer #pymorphy #matplotlib #литература #литература_художественная #литературная_страничка #литературное_творчество
-
Как Python раскрыл поэтический гений Маршака
Маршак хорошо переводил Шекспира, но насколько он был близок к оригиналу? Сохранен ли у него ритм, размер, смысл и структура? Установлю это математически точно с помощью Python.
-
Как Python раскрыл поэтический гений Маршака
Маршак хорошо переводил Шекспира, но насколько он был близок к оригиналу? Сохранен ли у него ритм, размер, смысл и структура? Установлю это математически точно с помощью Python.
-
Как Python раскрыл поэтический гений Маршака
Маршак хорошо переводил Шекспира, но насколько он был близок к оригиналу? Сохранен ли у него ритм, размер, смысл и структура? Установлю это математически точно с помощью Python.
-
Как Python раскрыл поэтический гений Маршака
Маршак хорошо переводил Шекспира, но насколько он был близок к оригиналу? Сохранен ли у него ритм, размер, смысл и структура? Установлю это математически точно с помощью Python.
-
[Перевод] Как открытые веса раскрыли секреты обучения GPT-5
Команда AI for Devs перевела статью, показывающую, что открытые веса — это не только про прозрачность, но и про утечку тайн обучения. На примере модели GPT-oss автор показывает, как можно восстановить части обучающего пайплайна и даже выявить, что GPT-5 видела фразы с сайтов для взрослых.
https://habr.com/ru/articles/955260/
#OpenAI #GPT5 #GPToss #glitchtokens #trainingdata #membershipinference #tokenizer #embeddings #GitHub #adultcontent
-
🚀 Wow, a #tokenizer that's 2-4x faster than OpenAI's! Is it powered by caffeine or just another #GitHub star chaser? 🤔 Meanwhile, the rest of us are still trying to figure out how to navigate GitHub's labyrinthine menu without a PhD in UI 🤷♂️.
https://github.com/M4THYOU/TokenDagger #OpenAI #technews #softwaredevelopment #UIUX #HackerNews #ngated -
The #Transformers #AI can use different pre-trained #language models for fine tuning and for learning knowledge unrelated to languages. To turn a raw .csv training data file into a form (called data frame) that readable by Transformers, you use some functions of a library called #Pandas. The Transformers turns the data frame into tokens (word units) using a #tokenizer for further analysis and calculation purposes, using specialized libraries such as #Pytorch.
-
Считаем количество токенов для LLM в исходниках ядра Linux и не только…
Эта статья про новое расширение ахритектуры трансформеров – Titan от Google –, позволяющее расширить рамки LLM до 2 млн токенов, побудила поинтересоваться, сколько токенов, пригодных для LLM, содержат исходники колоссального софта. Какой открытый софт будем «препарировать»:
-
Idea: Audio-to-StableDiffusion #tokenizer that naively translates #audio chunks to #tokens recognized by #StableDiffusion and generates 1 frame per 1/24th second of audio, then strings the results together. Add a temporal cohesion mechanism to taste.
I wonder what it would look like. 🤔
-
Why I love Rust for tokenising and parsing
https://xnacly.me/posts/2024/rust-pldev/?utm_medium=erik.in&utm_source=mastodon
-
Разбираемся с Vespa. Часть 2
Из этой статьи вы узнаете: 1) Что такое Document и Query Processing. 2) Как обрабатывается текст Vespa. Что такое токенизация и стемминг. 3) Какой из обработчиков текста лучше подходит для русского языка. 4) Как выполнить текстовый поиск. 5) Как происходит ранжирование результата.
https://habr.com/ru/companies/sportmaster_lab/articles/848992/
-
-
Last night I got a on a tear and wrote a complete #tokenizer for the Manatee programming language in C. I started at…9ish and finished at 1 in the morning
(It is, AFAIK, completely compliant except that I didn’t bother with Unicode. I suppose I could relatively easily augment it to use wchars…which aren’t *necessarily* Unicode but if we stick to standard C we gotta make sacrifices. __STDC_ISO_10646__ FTW I suppose.)
I suppose I should probably write a #parser over the weekend, time permitting