#токенизация — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-12 · 07:32 UTC

Как заставить xt850 совпадать с xt 850

С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.

https://habr.com/ru/articles/1032472/

#обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация

#токенизация #полнотекстовый_поиск #нормализация_данных #обработка_запросов

Habr @[email protected] · 2026-05-12 · 07:32 UTC

Как заставить xt850 совпадать с xt 850

С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.

https://habr.com/ru/articles/1032472/

#обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация

#токенизация #полнотекстовый_поиск #нормализация_данных #обработка_запросов

Habr @[email protected] · 2026-05-12 · 07:32 UTC

Как заставить xt850 совпадать с xt 850

С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.

https://habr.com/ru/articles/1032472/

#обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация

#токенизация #полнотекстовый_поиск #нормализация_данных #обработка_запросов

Habr @[email protected] · 2026-05-12 · 07:32 UTC

Как заставить xt850 совпадать с xt 850

С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.

https://habr.com/ru/articles/1032472/

#обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация

Habr @[email protected] · 2026-05-07 · 12:12 UTC

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

https://habr.com/ru/articles/1032610/

#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

#yandexgpt #llama #gigachat #qwen #кириллица #selfhosted

Habr @[email protected] · 2026-05-07 · 12:12 UTC

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

https://habr.com/ru/articles/1032610/

#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

#yandexgpt #llama #gigachat #qwen #кириллица #selfhosted

Habr @[email protected] · 2026-05-07 · 12:12 UTC

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

https://habr.com/ru/articles/1032610/

#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

#yandexgpt #llama #gigachat #qwen #кириллица #selfhosted

Habr @[email protected] · 2026-05-07 · 12:12 UTC

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

https://habr.com/ru/articles/1032610/

#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица

Habr @[email protected] · 2026-04-29 · 11:32 UTC

Что в Opus 4.7 устроили с токенизацией?

Если подать один и тот же текст в Opus 4.7 и Opus 4.6, в новой модели он может оказаться представлен гораздо большим числом токенов. А тогда он и обходится дороже, и занимает больше места в контекстном окне. Получается «скрытая инфляция»: цены и лимиты указаны прежние, но на практике расходы могут возрасти. Как именно всё изменилось и почему? В каких случаях число токенов вырастет максимально, а в каких останется прежним? Это хочется понимать не только из-за Opus: подобное ведь может произойти и с другой моделью. Но полных официальных ответов нет. Поэтому мы и собрали доступную информацию, и самостоятельно проверили через API, что происходит с разными типами текстов. Мы делаем редактор кода с поддержкой разных ИИ-моделей, так что нам важно, как эта разница может сказаться на наших пользователях. Ну, и конечно, нам самим любопытно разобраться, что происходит в индустрии.

https://habr.com/ru/companies/kodik/articles/1028700/

#opus_47 #токенизация

#токенизация #opus_47

Habr @[email protected] · 2026-04-24 · 15:52 UTC

Никакой магии: только лексер, парсер и интерпретатор на чистом PHP

Вы вроде бы пишете код на чистом PHP, но почему-то каждый день используете маленькие языки: DQL в Doctrine ( «u.age > 18» ), Twig-выражения ( «user|length > 0» ), Symfony ExpressionLanguage ( «user.is_active and order.total > 100` ). Никогда не возникало мысли о том, что хорошо бы избавиться от всех этих дополнений и использовать язык собственной разработки для решения нужных задач? В этой статье мы рассмотрим DSL — язык, заточенный под узкую задачу. Разобрать DSL

https://habr.com/ru/companies/otus/articles/1026244/

#php #dsl #парсер #токенизация #интерпретатор #AST

#ast #интерпретатор #токенизация #парсер #dsl #php

Habr @[email protected] · 2026-04-24 · 15:52 UTC

Никакой магии: только лексер, парсер и интерпретатор на чистом PHP

Вы вроде бы пишете код на чистом PHP, но почему-то каждый день используете маленькие языки: DQL в Doctrine ( «u.age > 18» ), Twig-выражения ( «user|length > 0» ), Symfony ExpressionLanguage ( «user.is_active and order.total > 100` ). Никогда не возникало мысли о том, что хорошо бы избавиться от всех этих дополнений и использовать язык собственной разработки для решения нужных задач? В этой статье мы рассмотрим DSL — язык, заточенный под узкую задачу. Разобрать DSL

https://habr.com/ru/companies/otus/articles/1026244/

#php #dsl #парсер #токенизация #интерпретатор #AST

#ast #интерпретатор #токенизация #парсер #dsl #php

Habr @[email protected] · 2026-04-24 · 15:52 UTC

Никакой магии: только лексер, парсер и интерпретатор на чистом PHP

Вы вроде бы пишете код на чистом PHP, но почему-то каждый день используете маленькие языки: DQL в Doctrine ( «u.age > 18» ), Twig-выражения ( «user|length > 0» ), Symfony ExpressionLanguage ( «user.is_active and order.total > 100` ). Никогда не возникало мысли о том, что хорошо бы избавиться от всех этих дополнений и использовать язык собственной разработки для решения нужных задач? В этой статье мы рассмотрим DSL — язык, заточенный под узкую задачу. Разобрать DSL

https://habr.com/ru/companies/otus/articles/1026244/

#php #dsl #парсер #токенизация #интерпретатор #AST

#ast #интерпретатор #токенизация #парсер #dsl #php

Habr @[email protected] · 2026-04-24 · 15:52 UTC

Никакой магии: только лексер, парсер и интерпретатор на чистом PHP

Вы вроде бы пишете код на чистом PHP, но почему-то каждый день используете маленькие языки: DQL в Doctrine ( «u.age > 18» ), Twig-выражения ( «user|length > 0» ), Symfony ExpressionLanguage ( «user.is_active and order.total > 100` ). Никогда не возникало мысли о том, что хорошо бы избавиться от всех этих дополнений и использовать язык собственной разработки для решения нужных задач? В этой статье мы рассмотрим DSL — язык, заточенный под узкую задачу. Разобрать DSL

https://habr.com/ru/companies/otus/articles/1026244/

#php #dsl #парсер #токенизация #интерпретатор #AST

#php #dsl #парсер #токенизация #интерпретатор #ast

Habr @[email protected] · 2026-04-17 · 18:42 UTC

Compute crunch пришёл: как считать экономику LLM в 2026

Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .

https://habr.com/ru/articles/1024850/

#LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура

#гибридная_архитектура #compliance #gpu #инференс #токенизация #reasoning

Habr @[email protected] · 2026-04-17 · 18:42 UTC

Compute crunch пришёл: как считать экономику LLM в 2026

Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .

https://habr.com/ru/articles/1024850/

#LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура

#гибридная_архитектура #compliance #gpu #инференс #токенизация #reasoning

Habr @[email protected] · 2026-04-17 · 18:42 UTC

Compute crunch пришёл: как считать экономику LLM в 2026

Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .

https://habr.com/ru/articles/1024850/

#LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура

#гибридная_архитектура #compliance #gpu #инференс #токенизация #reasoning

Habr @[email protected] · 2026-04-17 · 18:42 UTC

Compute crunch пришёл: как считать экономику LLM в 2026

Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .

https://habr.com/ru/articles/1024850/

#LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура

#llm #tco #selfhost #api #reasoning #токенизация

Habr @[email protected] · 2026-03-30 · 14:02 UTC

Дофаминовый шум, ИИ и токенизация активов: разбираем ежегодное письмо главы BlackRock Ларри Финка

Каждый год Ларри Финк, глава крупнейшей в мире инвестиционной компании BlackRock (активы которой только за 2025 год выросли на $698 млрд), публикует открытое письмо инвесторам. Обычно такие письма воспринимаются как скучная корпоративная отчетность, но не в этот раз.

https://habr.com/ru/companies/finam_broker/articles/1017000/

#ларри_финк #blackrock #искусственный_интеллект #финтех #токенизация #цифровые_активы #инвестиции #мировая_экономика #будущее_человечества #будущее_технологий

#будущее_технологий #будущее_человечества #мировая_экономика #инвестиции #цифровые_активы #токенизация

Habr @[email protected] · 2026-02-06 · 18:42 UTC

Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

https://habr.com/ru/articles/993768/

#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

#трансформеры #llama #gpt #лингвистика #nlp #языковые_модели

Habr @[email protected] · 2026-02-06 · 18:42 UTC

Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

https://habr.com/ru/articles/993768/

#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

#трансформеры #llama #gpt #лингвистика #nlp #языковые_модели

Habr @[email protected] · 2026-02-06 · 18:42 UTC

Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

https://habr.com/ru/articles/993768/

#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

#bpe #токенизация #морфемы #языковые_модели #nlp #лингвистика

Habr @[email protected] · 2026-02-06 · 18:42 UTC

Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

https://habr.com/ru/articles/993768/

#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

#трансформеры #llama #gpt #лингвистика #nlp #языковые_модели

Habr @[email protected] · 2026-01-19 · 09:42 UTC

Как устроены AI токены: реальные расходы на запросы, принципы токенизации и разница с количеством слов

Привет, на связи Егор! Я пишущий эксперт

https://habr.com/ru/companies/gptunnel/articles/986526/

#токены_llm #токенизация #что_такое_токенизация #токен #токены #ии_и_машинное_обучение

#ии_и_машинное_обучение #токены #токен #что_такое_токенизация #токенизация #токены_llm

Habr @[email protected] · 2025-12-25 · 07:02 UTC

[Перевод] От текста к токенам: как работают пайплайны токенизации

Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.

https://habr.com/ru/articles/976356/

#токенизация #индексирование #текстовые_данные #llm #искусственный_интеллект

#искусственный_интеллект #llm #текстовые_данные #индексирование #токенизация

Habr @[email protected] · 2025-12-25 · 07:02 UTC

[Перевод] От текста к токенам: как работают пайплайны токенизации

Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.

https://habr.com/ru/articles/976356/

#токенизация #индексирование #текстовые_данные #llm #искусственный_интеллект

#искусственный_интеллект #llm #текстовые_данные #индексирование #токенизация

Habr @[email protected] · 2025-12-25 · 07:02 UTC

[Перевод] От текста к токенам: как работают пайплайны токенизации

Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.

https://habr.com/ru/articles/976356/

#токенизация #индексирование #текстовые_данные #llm #искусственный_интеллект

#искусственный_интеллект #llm #текстовые_данные #индексирование #токенизация

Habr @[email protected] · 2025-12-25 · 07:02 UTC

[Перевод] От текста к токенам: как работают пайплайны токенизации

Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.

https://habr.com/ru/articles/976356/

#токенизация #индексирование #текстовые_данные #llm #искусственный_интеллект

Habr @[email protected] · 2025-12-14 · 16:02 UTC

Токеномика как инструмент иллюзий: пыль в глаза или искусство продавать воздух?

Почему токеномики - это пыль в глаза. Как криптопроекты создают иллюзию ценности и почему рынок принадлежит не гениям, а властителям медиасреды. Введение. Не секрет, что с появлением первой криптовалюты наши представления о финансах сильно изменились. Биткойн перевернул всё с ног на голову, заставив людей по-новому взглянуть на деньги, доверие и саму идею ценности. Но не меньший шум поднял и проект Виталика Бутерина - Ethereum, который появился в след за Биткойном. Он дал миру первую публичную блокчейн-платформу, на которой любой желающий мог выпускать свои крипто-токены. Так родился целый пласт экономики нового типа. Началась эпоха крипто-стартапов, где в основу идеи легла мысль: всё, что имеет хоть какую-то стоимость, можно и нужно токенизировать в блокчейне. Проекты наперебой выпускали собственные токены, обещая инвесторам участие в будущих экосистемах, доступ к сервисам или долю в гипотетической прибыли. Рынок заполнился тысячами цифровых активов, отличавшихся друг от друга лишь названием и историей происхождения. И чем громче звучала презентация, тем охотнее инвесторы вкладывались в очередной «революционный» токен. Так появилось новое модное слово - токеномика. Уверен, если вы читаете эту статью, то как минимум уже встречали этот термин, а как максимум считаете, что неплохо в нём разбираетесь. Скорее всего, вам так только кажется. И это нормально: индустрия за годы существования успела накрутить вокруг токеномик такой слой терминологии, схем и модных концепций, что даже специалисты здесь часто путаются в показаниях.

https://habr.com/ru/articles/976562/

#криптовалюта #криптобиржи #блокчейн #блокчейнтехнологии #биткоин #токеномика #альткоины #инвестиции #токенизация #криптостартапы

#криптостартапы #токенизация #инвестиции #альткоины #токеномика #биткоин

Habr @[email protected] · 2025-12-14 · 16:02 UTC

Токеномика как инструмент иллюзий: пыль в глаза или искусство продавать воздух?

Почему токеномики - это пыль в глаза. Как криптопроекты создают иллюзию ценности и почему рынок принадлежит не гениям, а властителям медиасреды. Введение. Не секрет, что с появлением первой криптовалюты наши представления о финансах сильно изменились. Биткойн перевернул всё с ног на голову, заставив людей по-новому взглянуть на деньги, доверие и саму идею ценности. Но не меньший шум поднял и проект Виталика Бутерина - Ethereum, который появился в след за Биткойном. Он дал миру первую публичную блокчейн-платформу, на которой любой желающий мог выпускать свои крипто-токены. Так родился целый пласт экономики нового типа. Началась эпоха крипто-стартапов, где в основу идеи легла мысль: всё, что имеет хоть какую-то стоимость, можно и нужно токенизировать в блокчейне. Проекты наперебой выпускали собственные токены, обещая инвесторам участие в будущих экосистемах, доступ к сервисам или долю в гипотетической прибыли. Рынок заполнился тысячами цифровых активов, отличавшихся друг от друга лишь названием и историей происхождения. И чем громче звучала презентация, тем охотнее инвесторы вкладывались в очередной «революционный» токен. Так появилось новое модное слово - токеномика. Уверен, если вы читаете эту статью, то как минимум уже встречали этот термин, а как максимум считаете, что неплохо в нём разбираетесь. Скорее всего, вам так только кажется. И это нормально: индустрия за годы существования успела накрутить вокруг токеномик такой слой терминологии, схем и модных концепций, что даже специалисты здесь часто путаются в показаниях.

https://habr.com/ru/articles/976562/

#криптовалюта #криптобиржи #блокчейн #блокчейнтехнологии #биткоин #токеномика #альткоины #инвестиции #токенизация #криптостартапы

#криптостартапы #токенизация #инвестиции #альткоины #токеномика #биткоин

Habr @[email protected] · 2025-12-14 · 16:02 UTC

Токеномика как инструмент иллюзий: пыль в глаза или искусство продавать воздух?

Почему токеномики - это пыль в глаза. Как криптопроекты создают иллюзию ценности и почему рынок принадлежит не гениям, а властителям медиасреды. Введение. Не секрет, что с появлением первой криптовалюты наши представления о финансах сильно изменились. Биткойн перевернул всё с ног на голову, заставив людей по-новому взглянуть на деньги, доверие и саму идею ценности. Но не меньший шум поднял и проект Виталика Бутерина - Ethereum, который появился в след за Биткойном. Он дал миру первую публичную блокчейн-платформу, на которой любой желающий мог выпускать свои крипто-токены. Так родился целый пласт экономики нового типа. Началась эпоха крипто-стартапов, где в основу идеи легла мысль: всё, что имеет хоть какую-то стоимость, можно и нужно токенизировать в блокчейне. Проекты наперебой выпускали собственные токены, обещая инвесторам участие в будущих экосистемах, доступ к сервисам или долю в гипотетической прибыли. Рынок заполнился тысячами цифровых активов, отличавшихся друг от друга лишь названием и историей происхождения. И чем громче звучала презентация, тем охотнее инвесторы вкладывались в очередной «революционный» токен. Так появилось новое модное слово - токеномика. Уверен, если вы читаете эту статью, то как минимум уже встречали этот термин, а как максимум считаете, что неплохо в нём разбираетесь. Скорее всего, вам так только кажется. И это нормально: индустрия за годы существования успела накрутить вокруг токеномик такой слой терминологии, схем и модных концепций, что даже специалисты здесь часто путаются в показаниях.

https://habr.com/ru/articles/976562/

#криптовалюта #криптобиржи #блокчейн #блокчейнтехнологии #биткоин #токеномика #альткоины #инвестиции #токенизация #криптостартапы

#криптостартапы #токенизация #инвестиции #альткоины #токеномика #биткоин

Habr @[email protected] · 2025-12-14 · 16:02 UTC

Токеномика как инструмент иллюзий: пыль в глаза или искусство продавать воздух?

Почему токеномики - это пыль в глаза. Как криптопроекты создают иллюзию ценности и почему рынок принадлежит не гениям, а властителям медиасреды. Введение. Не секрет, что с появлением первой криптовалюты наши представления о финансах сильно изменились. Биткойн перевернул всё с ног на голову, заставив людей по-новому взглянуть на деньги, доверие и саму идею ценности. Но не меньший шум поднял и проект Виталика Бутерина - Ethereum, который появился в след за Биткойном. Он дал миру первую публичную блокчейн-платформу, на которой любой желающий мог выпускать свои крипто-токены. Так родился целый пласт экономики нового типа. Началась эпоха крипто-стартапов, где в основу идеи легла мысль: всё, что имеет хоть какую-то стоимость, можно и нужно токенизировать в блокчейне. Проекты наперебой выпускали собственные токены, обещая инвесторам участие в будущих экосистемах, доступ к сервисам или долю в гипотетической прибыли. Рынок заполнился тысячами цифровых активов, отличавшихся друг от друга лишь названием и историей происхождения. И чем громче звучала презентация, тем охотнее инвесторы вкладывались в очередной «революционный» токен. Так появилось новое модное слово - токеномика. Уверен, если вы читаете эту статью, то как минимум уже встречали этот термин, а как максимум считаете, что неплохо в нём разбираетесь. Скорее всего, вам так только кажется. И это нормально: индустрия за годы существования успела накрутить вокруг токеномик такой слой терминологии, схем и модных концепций, что даже специалисты здесь часто путаются в показаниях.

https://habr.com/ru/articles/976562/

#криптовалюта #криптобиржи #блокчейн #блокчейнтехнологии #биткоин #токеномика #альткоины #инвестиции #токенизация #криптостартапы

#криптовалюта #криптобиржи #блокчейн #блокчейнтехнологии #биткоин #токеномика

Habr @[email protected] · 2025-12-11 · 00:32 UTC

ERC-3643 vs ERC-1400: архитектурные решения для security tokens

Выбор стандарта для security token — это архитектурное решение, которое определит compliance-модель, gas costs, интеграционные возможности и upgradeability на годы вперёд. В этой статье я разберу два основных стандарта — ERC-1400 и ERC-3643 — с точки зрения разработчика, который имплементировал оба.

https://habr.com/ru/articles/975516/

#security_tokens #erc1400 #erc3643 #TREX_ProtocolTREX_Protocol #токенизация_активов #токенизация_недвижимости #токенизация_реальных_активов #токенизация

#токенизация #токенизация_реальных_активов #токенизация_недвижимости #токенизация_активов #trex_protocoltrex_protocol #erc3643

Habr @[email protected] · 2025-12-11 · 00:32 UTC

ERC-3643 vs ERC-1400: архитектурные решения для security tokens

Выбор стандарта для security token — это архитектурное решение, которое определит compliance-модель, gas costs, интеграционные возможности и upgradeability на годы вперёд. В этой статье я разберу два основных стандарта — ERC-1400 и ERC-3643 — с точки зрения разработчика, который имплементировал оба.

https://habr.com/ru/articles/975516/

#security_tokens #erc1400 #erc3643 #TREX_ProtocolTREX_Protocol #токенизация_активов #токенизация_недвижимости #токенизация_реальных_активов #токенизация

#токенизация #токенизация_реальных_активов #токенизация_недвижимости #токенизация_активов #trex_protocoltrex_protocol #erc3643

Habr @[email protected] · 2025-12-11 · 00:32 UTC

ERC-3643 vs ERC-1400: архитектурные решения для security tokens

Выбор стандарта для security token — это архитектурное решение, которое определит compliance-модель, gas costs, интеграционные возможности и upgradeability на годы вперёд. В этой статье я разберу два основных стандарта — ERC-1400 и ERC-3643 — с точки зрения разработчика, который имплементировал оба.

https://habr.com/ru/articles/975516/

#security_tokens #erc1400 #erc3643 #TREX_ProtocolTREX_Protocol #токенизация_активов #токенизация_недвижимости #токенизация_реальных_активов #токенизация

#токенизация #токенизация_реальных_активов #токенизация_недвижимости #токенизация_активов #trex_protocoltrex_protocol #erc3643

Habr @[email protected] · 2025-12-11 · 00:32 UTC

ERC-3643 vs ERC-1400: архитектурные решения для security tokens

Выбор стандарта для security token — это архитектурное решение, которое определит compliance-модель, gas costs, интеграционные возможности и upgradeability на годы вперёд. В этой статье я разберу два основных стандарта — ERC-1400 и ERC-3643 — с точки зрения разработчика, который имплементировал оба.

https://habr.com/ru/articles/975516/

#security_tokens #erc1400 #erc3643 #TREX_ProtocolTREX_Protocol #токенизация_активов #токенизация_недвижимости #токенизация_реальных_активов #токенизация

#security_tokens #erc1400 #erc3643 #trex_protocoltrex_protocol #токенизация_активов #токенизация_недвижимости

Habr @[email protected] · 2025-12-04 · 15:22 UTC

[Перевод] Работаем с NLP на Python

На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).

https://habr.com/ru/companies/otus/articles/967254/

#nlp #python #Обработка_естественного_языка #NLTK #предобработка_текста #токенизация #стемминг #лемматизация

#лемматизация #стемминг #токенизация #предобработка_текста #nltk #обработка_естественного_языка

Habr @[email protected] · 2025-12-04 · 15:22 UTC

[Перевод] Работаем с NLP на Python

На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).

https://habr.com/ru/companies/otus/articles/967254/

#nlp #python #Обработка_естественного_языка #NLTK #предобработка_текста #токенизация #стемминг #лемматизация

#лемматизация #стемминг #токенизация #предобработка_текста #nltk #обработка_естественного_языка

Habr @[email protected] · 2025-12-04 · 15:22 UTC

[Перевод] Работаем с NLP на Python

На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).

https://habr.com/ru/companies/otus/articles/967254/

#nlp #python #Обработка_естественного_языка #NLTK #предобработка_текста #токенизация #стемминг #лемматизация

#лемматизация #стемминг #токенизация #предобработка_текста #nltk #обработка_естественного_языка

Habr @[email protected] · 2025-12-04 · 15:22 UTC

[Перевод] Работаем с NLP на Python

На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).

https://habr.com/ru/companies/otus/articles/967254/

#nlp #python #Обработка_естественного_языка #NLTK #предобработка_текста #токенизация #стемминг #лемматизация

#nlp #python #обработка_естественного_языка #nltk #предобработка_текста #токенизация

Habr @[email protected] · 2025-12-01 · 15:22 UTC

«Король глядит угрюмо…» — а я считаю звуки. Цифровое сравнение Стивенсона и Маршака

Стивенсон и Маршак. Схватка поэтических тяжеловесов, которую можно судить с помощью кода Python. Награда - вересковый мед.

https://habr.com/ru/articles/972154/

#python #токенизация #naturallanguageprocessing #natural_language_processing #nlp #поэзия #литература #чтение

#чтение #литература #поэзия #nlp #natural_language_processing #naturallanguageprocessing

Habr @[email protected] · 2025-11-27 · 10:42 UTC

Токенизированные акции, или как блокчейн навсегда сожрёт старую экономику

Полный разбор: как они работают, откуда появились и почему в ближайшее время во всем мире можно будет токенизировать дом, машину и части тела.

https://habr.com/ru/articles/970864/

#Токенизация #токенизированные_акции #Блокчейн #Биткоин #Nasdaq #SEC #александр_столыпин #iposharks

#токенизация #токенизированные_акции #блокчейн #биткоин #nasdaq #sec

Habr @[email protected] · 2025-11-27 · 10:42 UTC

Токенизированные акции, или как блокчейн навсегда сожрёт старую экономику

Полный разбор: как они работают, откуда появились и почему в ближайшее время во всем мире можно будет токенизировать дом, машину и части тела.

https://habr.com/ru/articles/970864/

#Токенизация #токенизированные_акции #Блокчейн #Биткоин #Nasdaq #SEC #александр_столыпин #iposharks

#токенизация #токенизированные_акции #блокчейн #биткоин #nasdaq #sec

Habr @[email protected] · 2025-11-27 · 10:42 UTC

Токенизированные акции, или как блокчейн навсегда сожрёт старую экономику

Полный разбор: как они работают, откуда появились и почему в ближайшее время во всем мире можно будет токенизировать дом, машину и части тела.

https://habr.com/ru/articles/970864/

#Токенизация #токенизированные_акции #Блокчейн #Биткоин #Nasdaq #SEC #александр_столыпин #iposharks

#токенизация #токенизированные_акции #блокчейн #биткоин #nasdaq #sec

Habr @[email protected] · 2025-11-27 · 10:42 UTC

Токенизированные акции, или как блокчейн навсегда сожрёт старую экономику

Полный разбор: как они работают, откуда появились и почему в ближайшее время во всем мире можно будет токенизировать дом, машину и части тела.

https://habr.com/ru/articles/970864/

#Токенизация #токенизированные_акции #Блокчейн #Биткоин #Nasdaq #SEC #александр_столыпин #iposharks

#iposharks #александр_столыпин #sec #nasdaq #биткоин #блокчейн

Habr @[email protected] · 2025-11-23 · 10:52 UTC

Создание простой поисковой системы, которая действительно работает

Зачем вообще делать что-то своё? Я знаю, что вы можете подумать: «Почему бы просто не использовать Elasticsearch?» или «А что насчёт Algolia?» Это вполне рабочие решения, но у них есть нюансы. Нужно разбираться с их API, поддерживать инфраструктуру под них и учитывать все тонкости их работы. Но иногда хочется чего-то более простого...

https://habr.com/ru/articles/969312/

#поиск #индексация #токенизация #sql #php #поисковая_система #оптимизация #репозиторий

#поиск #индексация #токенизация #sql #php #поисковая_система

Habr @[email protected] · 2025-11-23 · 10:52 UTC

Создание простой поисковой системы, которая действительно работает

Зачем вообще делать что-то своё? Я знаю, что вы можете подумать: «Почему бы просто не использовать Elasticsearch?» или «А что насчёт Algolia?» Это вполне рабочие решения, но у них есть нюансы. Нужно разбираться с их API, поддерживать инфраструктуру под них и учитывать все тонкости их работы. Но иногда хочется чего-то более простого...

https://habr.com/ru/articles/969312/

#поиск #индексация #токенизация #sql #php #поисковая_система #оптимизация #репозиторий

#поиск #индексация #токенизация #sql #php #поисковая_система

Habr @[email protected] · 2025-11-23 · 10:52 UTC

Создание простой поисковой системы, которая действительно работает

Зачем вообще делать что-то своё? Я знаю, что вы можете подумать: «Почему бы просто не использовать Elasticsearch?» или «А что насчёт Algolia?» Это вполне рабочие решения, но у них есть нюансы. Нужно разбираться с их API, поддерживать инфраструктуру под них и учитывать все тонкости их работы. Но иногда хочется чего-то более простого...

https://habr.com/ru/articles/969312/

#поиск #индексация #токенизация #sql #php #поисковая_система #оптимизация #репозиторий

#поиск #индексация #токенизация #sql #php #поисковая_система

Habr @[email protected] · 2025-11-23 · 10:52 UTC

Создание простой поисковой системы, которая действительно работает

Зачем вообще делать что-то своё? Я знаю, что вы можете подумать: «Почему бы просто не использовать Elasticsearch?» или «А что насчёт Algolia?» Это вполне рабочие решения, но у них есть нюансы. Нужно разбираться с их API, поддерживать инфраструктуру под них и учитывать все тонкости их работы. Но иногда хочется чего-то более простого...

https://habr.com/ru/articles/969312/

#поиск #индексация #токенизация #sql #php #поисковая_система #оптимизация #репозиторий

#репозиторий #оптимизация #поисковая_система #php #sql #токенизация

Habr @[email protected] · 2025-11-16 · 11:32 UTC

Апокалипсис контента? Взгляд юриста и разбор LLM

На днях наткнулся на статью, опубликованную в телеграм-канале Habr, под названием «Тихий апокалипсис контента: почему все устали от сгенерированных статей». В ней автор выражает озабоченность количеством сгенерированного контента, который набирает просмотры и вытесняет из выдачи авторские статьи. Статья автора натолкнула меня на идею порассуждать на эту тему, провести небольшие исследования, сравнить процесс генерации текста ИИ и человеком и просто поделиться своим «экспертным» мнением.

https://habr.com/ru/articles/966882/

#llmмодели #нейросети #генерация_текста #механизм_внимания #transformer #токенизация #апокалипсис_контента #вероятностная_генерация #авторегрессия

#авторегрессия #вероятностная_генерация #апокалипсис_контента #токенизация #transformer #механизм_внимания

Habr @[email protected] · 2025-09-24 · 04:52 UTC

Clickhouse в машинном обучении без использования GPU (Часть 1)

Один из моих коллег сказал когда-то, что "база данных - это хранилище, а не считалище!" . Эту фразу я вспоминал регулярно, пока проводил свое маленькое исследование. Целью данной статьи является описание практического опыта эффективного решения одной из задач ML на существующих аппаратных ресурсах, без аренды/покупки дорогостоящих GPU.

https://habr.com/ru/articles/948318/

#clickhouse #ml #токенизация #sql