#токенизация — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #токенизация, aggregated by home.social.
-
Как заставить xt850 совпадать с xt 850
С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.
https://habr.com/ru/articles/1032472/
#обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация
-
Как заставить xt850 совпадать с xt 850
С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.
https://habr.com/ru/articles/1032472/
#обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация
-
Как заставить xt850 совпадать с xt 850
С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.
https://habr.com/ru/articles/1032472/
#обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация
-
Как заставить xt850 совпадать с xt 850
С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.
https://habr.com/ru/articles/1032472/
#обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация
-
Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее
Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.
https://habr.com/ru/articles/1032610/
#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt
-
Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее
Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.
https://habr.com/ru/articles/1032610/
#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt
-
Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее
Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.
https://habr.com/ru/articles/1032610/
#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt
-
Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее
Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.
https://habr.com/ru/articles/1032610/
#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt
-
Что в Opus 4.7 устроили с токенизацией?
Если подать один и тот же текст в Opus 4.7 и Opus 4.6, в новой модели он может оказаться представлен гораздо большим числом токенов. А тогда он и обходится дороже, и занимает больше места в контекстном окне. Получается «скрытая инфляция»: цены и лимиты указаны прежние, но на практике расходы могут возрасти. Как именно всё изменилось и почему? В каких случаях число токенов вырастет максимально, а в каких останется прежним? Это хочется понимать не только из-за Opus: подобное ведь может произойти и с другой моделью. Но полных официальных ответов нет. Поэтому мы и собрали доступную информацию, и самостоятельно проверили через API, что происходит с разными типами текстов. Мы делаем редактор кода с поддержкой разных ИИ-моделей, так что нам важно, как эта разница может сказаться на наших пользователях. Ну, и конечно, нам самим любопытно разобраться, что происходит в индустрии.
-
Никакой магии: только лексер, парсер и интерпретатор на чистом PHP
Вы вроде бы пишете код на чистом PHP, но почему-то каждый день используете маленькие языки: DQL в Doctrine ( «u.age > 18» ), Twig-выражения ( «user|length > 0» ), Symfony ExpressionLanguage ( «user.is_active and order.total > 100` ). Никогда не возникало мысли о том, что хорошо бы избавиться от всех этих дополнений и использовать язык собственной разработки для решения нужных задач? В этой статье мы рассмотрим DSL — язык, заточенный под узкую задачу. Разобрать DSL
-
Никакой магии: только лексер, парсер и интерпретатор на чистом PHP
Вы вроде бы пишете код на чистом PHP, но почему-то каждый день используете маленькие языки: DQL в Doctrine ( «u.age > 18» ), Twig-выражения ( «user|length > 0» ), Symfony ExpressionLanguage ( «user.is_active and order.total > 100` ). Никогда не возникало мысли о том, что хорошо бы избавиться от всех этих дополнений и использовать язык собственной разработки для решения нужных задач? В этой статье мы рассмотрим DSL — язык, заточенный под узкую задачу. Разобрать DSL
-
Никакой магии: только лексер, парсер и интерпретатор на чистом PHP
Вы вроде бы пишете код на чистом PHP, но почему-то каждый день используете маленькие языки: DQL в Doctrine ( «u.age > 18» ), Twig-выражения ( «user|length > 0» ), Symfony ExpressionLanguage ( «user.is_active and order.total > 100` ). Никогда не возникало мысли о том, что хорошо бы избавиться от всех этих дополнений и использовать язык собственной разработки для решения нужных задач? В этой статье мы рассмотрим DSL — язык, заточенный под узкую задачу. Разобрать DSL
-
Никакой магии: только лексер, парсер и интерпретатор на чистом PHP
Вы вроде бы пишете код на чистом PHP, но почему-то каждый день используете маленькие языки: DQL в Doctrine ( «u.age > 18» ), Twig-выражения ( «user|length > 0» ), Symfony ExpressionLanguage ( «user.is_active and order.total > 100` ). Никогда не возникало мысли о том, что хорошо бы избавиться от всех этих дополнений и использовать язык собственной разработки для решения нужных задач? В этой статье мы рассмотрим DSL — язык, заточенный под узкую задачу. Разобрать DSL
-
Compute crunch пришёл: как считать экономику LLM в 2026
Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .
https://habr.com/ru/articles/1024850/
#LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура
-
Compute crunch пришёл: как считать экономику LLM в 2026
Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .
https://habr.com/ru/articles/1024850/
#LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура
-
Compute crunch пришёл: как считать экономику LLM в 2026
Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .
https://habr.com/ru/articles/1024850/
#LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура
-
Compute crunch пришёл: как считать экономику LLM в 2026
Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .
https://habr.com/ru/articles/1024850/
#LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура
-
Дофаминовый шум, ИИ и токенизация активов: разбираем ежегодное письмо главы BlackRock Ларри Финка
Каждый год Ларри Финк, глава крупнейшей в мире инвестиционной компании BlackRock (активы которой только за 2025 год выросли на $698 млрд), публикует открытое письмо инвесторам. Обычно такие письма воспринимаются как скучная корпоративная отчетность, но не в этот раз.
https://habr.com/ru/companies/finam_broker/articles/1017000/
#ларри_финк #blackrock #искусственный_интеллект #финтех #токенизация #цифровые_активы #инвестиции #мировая_экономика #будущее_человечества #будущее_технологий
-
Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей
GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.
https://habr.com/ru/articles/993768/
#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры
-
Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей
GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.
https://habr.com/ru/articles/993768/
#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры
-
Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей
GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.
https://habr.com/ru/articles/993768/
#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры
-
Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей
GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.
https://habr.com/ru/articles/993768/
#BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры
-
Как устроены AI токены: реальные расходы на запросы, принципы токенизации и разница с количеством слов
Привет, на связи Егор! Я пишущий эксперт
https://habr.com/ru/companies/gptunnel/articles/986526/
#токены_llm #токенизация #что_такое_токенизация #токен #токены #ии_и_машинное_обучение
-
[Перевод] От текста к токенам: как работают пайплайны токенизации
Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.
https://habr.com/ru/articles/976356/
#токенизация #индексирование #текстовые_данные #llm #искусственный_интеллект
-
[Перевод] От текста к токенам: как работают пайплайны токенизации
Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.
https://habr.com/ru/articles/976356/
#токенизация #индексирование #текстовые_данные #llm #искусственный_интеллект
-
[Перевод] От текста к токенам: как работают пайплайны токенизации
Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.
https://habr.com/ru/articles/976356/
#токенизация #индексирование #текстовые_данные #llm #искусственный_интеллект
-
[Перевод] От текста к токенам: как работают пайплайны токенизации
Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.
https://habr.com/ru/articles/976356/
#токенизация #индексирование #текстовые_данные #llm #искусственный_интеллект
-
Токеномика как инструмент иллюзий: пыль в глаза или искусство продавать воздух?
Почему токеномики - это пыль в глаза. Как криптопроекты создают иллюзию ценности и почему рынок принадлежит не гениям, а властителям медиасреды. Введение. Не секрет, что с появлением первой криптовалюты наши представления о финансах сильно изменились. Биткойн перевернул всё с ног на голову, заставив людей по-новому взглянуть на деньги, доверие и саму идею ценности. Но не меньший шум поднял и проект Виталика Бутерина - Ethereum, который появился в след за Биткойном. Он дал миру первую публичную блокчейн-платформу, на которой любой желающий мог выпускать свои крипто-токены. Так родился целый пласт экономики нового типа. Началась эпоха крипто-стартапов, где в основу идеи легла мысль: всё, что имеет хоть какую-то стоимость, можно и нужно токенизировать в блокчейне. Проекты наперебой выпускали собственные токены, обещая инвесторам участие в будущих экосистемах, доступ к сервисам или долю в гипотетической прибыли. Рынок заполнился тысячами цифровых активов, отличавшихся друг от друга лишь названием и историей происхождения. И чем громче звучала презентация, тем охотнее инвесторы вкладывались в очередной «революционный» токен. Так появилось новое модное слово - токеномика. Уверен, если вы читаете эту статью, то как минимум уже встречали этот термин, а как максимум считаете, что неплохо в нём разбираетесь. Скорее всего, вам так только кажется. И это нормально: индустрия за годы существования успела накрутить вокруг токеномик такой слой терминологии, схем и модных концепций, что даже специалисты здесь часто путаются в показаниях.
https://habr.com/ru/articles/976562/
#криптовалюта #криптобиржи #блокчейн #блокчейнтехнологии #биткоин #токеномика #альткоины #инвестиции #токенизация #криптостартапы
-
Токеномика как инструмент иллюзий: пыль в глаза или искусство продавать воздух?
Почему токеномики - это пыль в глаза. Как криптопроекты создают иллюзию ценности и почему рынок принадлежит не гениям, а властителям медиасреды. Введение. Не секрет, что с появлением первой криптовалюты наши представления о финансах сильно изменились. Биткойн перевернул всё с ног на голову, заставив людей по-новому взглянуть на деньги, доверие и саму идею ценности. Но не меньший шум поднял и проект Виталика Бутерина - Ethereum, который появился в след за Биткойном. Он дал миру первую публичную блокчейн-платформу, на которой любой желающий мог выпускать свои крипто-токены. Так родился целый пласт экономики нового типа. Началась эпоха крипто-стартапов, где в основу идеи легла мысль: всё, что имеет хоть какую-то стоимость, можно и нужно токенизировать в блокчейне. Проекты наперебой выпускали собственные токены, обещая инвесторам участие в будущих экосистемах, доступ к сервисам или долю в гипотетической прибыли. Рынок заполнился тысячами цифровых активов, отличавшихся друг от друга лишь названием и историей происхождения. И чем громче звучала презентация, тем охотнее инвесторы вкладывались в очередной «революционный» токен. Так появилось новое модное слово - токеномика. Уверен, если вы читаете эту статью, то как минимум уже встречали этот термин, а как максимум считаете, что неплохо в нём разбираетесь. Скорее всего, вам так только кажется. И это нормально: индустрия за годы существования успела накрутить вокруг токеномик такой слой терминологии, схем и модных концепций, что даже специалисты здесь часто путаются в показаниях.
https://habr.com/ru/articles/976562/
#криптовалюта #криптобиржи #блокчейн #блокчейнтехнологии #биткоин #токеномика #альткоины #инвестиции #токенизация #криптостартапы
-
Токеномика как инструмент иллюзий: пыль в глаза или искусство продавать воздух?
Почему токеномики - это пыль в глаза. Как криптопроекты создают иллюзию ценности и почему рынок принадлежит не гениям, а властителям медиасреды. Введение. Не секрет, что с появлением первой криптовалюты наши представления о финансах сильно изменились. Биткойн перевернул всё с ног на голову, заставив людей по-новому взглянуть на деньги, доверие и саму идею ценности. Но не меньший шум поднял и проект Виталика Бутерина - Ethereum, который появился в след за Биткойном. Он дал миру первую публичную блокчейн-платформу, на которой любой желающий мог выпускать свои крипто-токены. Так родился целый пласт экономики нового типа. Началась эпоха крипто-стартапов, где в основу идеи легла мысль: всё, что имеет хоть какую-то стоимость, можно и нужно токенизировать в блокчейне. Проекты наперебой выпускали собственные токены, обещая инвесторам участие в будущих экосистемах, доступ к сервисам или долю в гипотетической прибыли. Рынок заполнился тысячами цифровых активов, отличавшихся друг от друга лишь названием и историей происхождения. И чем громче звучала презентация, тем охотнее инвесторы вкладывались в очередной «революционный» токен. Так появилось новое модное слово - токеномика. Уверен, если вы читаете эту статью, то как минимум уже встречали этот термин, а как максимум считаете, что неплохо в нём разбираетесь. Скорее всего, вам так только кажется. И это нормально: индустрия за годы существования успела накрутить вокруг токеномик такой слой терминологии, схем и модных концепций, что даже специалисты здесь часто путаются в показаниях.
https://habr.com/ru/articles/976562/
#криптовалюта #криптобиржи #блокчейн #блокчейнтехнологии #биткоин #токеномика #альткоины #инвестиции #токенизация #криптостартапы
-
Токеномика как инструмент иллюзий: пыль в глаза или искусство продавать воздух?
Почему токеномики - это пыль в глаза. Как криптопроекты создают иллюзию ценности и почему рынок принадлежит не гениям, а властителям медиасреды. Введение. Не секрет, что с появлением первой криптовалюты наши представления о финансах сильно изменились. Биткойн перевернул всё с ног на голову, заставив людей по-новому взглянуть на деньги, доверие и саму идею ценности. Но не меньший шум поднял и проект Виталика Бутерина - Ethereum, который появился в след за Биткойном. Он дал миру первую публичную блокчейн-платформу, на которой любой желающий мог выпускать свои крипто-токены. Так родился целый пласт экономики нового типа. Началась эпоха крипто-стартапов, где в основу идеи легла мысль: всё, что имеет хоть какую-то стоимость, можно и нужно токенизировать в блокчейне. Проекты наперебой выпускали собственные токены, обещая инвесторам участие в будущих экосистемах, доступ к сервисам или долю в гипотетической прибыли. Рынок заполнился тысячами цифровых активов, отличавшихся друг от друга лишь названием и историей происхождения. И чем громче звучала презентация, тем охотнее инвесторы вкладывались в очередной «революционный» токен. Так появилось новое модное слово - токеномика. Уверен, если вы читаете эту статью, то как минимум уже встречали этот термин, а как максимум считаете, что неплохо в нём разбираетесь. Скорее всего, вам так только кажется. И это нормально: индустрия за годы существования успела накрутить вокруг токеномик такой слой терминологии, схем и модных концепций, что даже специалисты здесь часто путаются в показаниях.
https://habr.com/ru/articles/976562/
#криптовалюта #криптобиржи #блокчейн #блокчейнтехнологии #биткоин #токеномика #альткоины #инвестиции #токенизация #криптостартапы
-
ERC-3643 vs ERC-1400: архитектурные решения для security tokens
Выбор стандарта для security token — это архитектурное решение, которое определит compliance-модель, gas costs, интеграционные возможности и upgradeability на годы вперёд. В этой статье я разберу два основных стандарта — ERC-1400 и ERC-3643 — с точки зрения разработчика, который имплементировал оба.
https://habr.com/ru/articles/975516/
#security_tokens #erc1400 #erc3643 #TREX_ProtocolTREX_Protocol #токенизация_активов #токенизация_недвижимости #токенизация_реальных_активов #токенизация
-
ERC-3643 vs ERC-1400: архитектурные решения для security tokens
Выбор стандарта для security token — это архитектурное решение, которое определит compliance-модель, gas costs, интеграционные возможности и upgradeability на годы вперёд. В этой статье я разберу два основных стандарта — ERC-1400 и ERC-3643 — с точки зрения разработчика, который имплементировал оба.
https://habr.com/ru/articles/975516/
#security_tokens #erc1400 #erc3643 #TREX_ProtocolTREX_Protocol #токенизация_активов #токенизация_недвижимости #токенизация_реальных_активов #токенизация
-
ERC-3643 vs ERC-1400: архитектурные решения для security tokens
Выбор стандарта для security token — это архитектурное решение, которое определит compliance-модель, gas costs, интеграционные возможности и upgradeability на годы вперёд. В этой статье я разберу два основных стандарта — ERC-1400 и ERC-3643 — с точки зрения разработчика, который имплементировал оба.
https://habr.com/ru/articles/975516/
#security_tokens #erc1400 #erc3643 #TREX_ProtocolTREX_Protocol #токенизация_активов #токенизация_недвижимости #токенизация_реальных_активов #токенизация
-
ERC-3643 vs ERC-1400: архитектурные решения для security tokens
Выбор стандарта для security token — это архитектурное решение, которое определит compliance-модель, gas costs, интеграционные возможности и upgradeability на годы вперёд. В этой статье я разберу два основных стандарта — ERC-1400 и ERC-3643 — с точки зрения разработчика, который имплементировал оба.
https://habr.com/ru/articles/975516/
#security_tokens #erc1400 #erc3643 #TREX_ProtocolTREX_Protocol #токенизация_активов #токенизация_недвижимости #токенизация_реальных_активов #токенизация
-
[Перевод] Работаем с NLP на Python
На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).
https://habr.com/ru/companies/otus/articles/967254/
#nlp #python #Обработка_естественного_языка #NLTK #предобработка_текста #токенизация #стемминг #лемматизация
-
[Перевод] Работаем с NLP на Python
На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).
https://habr.com/ru/companies/otus/articles/967254/
#nlp #python #Обработка_естественного_языка #NLTK #предобработка_текста #токенизация #стемминг #лемматизация
-
[Перевод] Работаем с NLP на Python
На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).
https://habr.com/ru/companies/otus/articles/967254/
#nlp #python #Обработка_естественного_языка #NLTK #предобработка_текста #токенизация #стемминг #лемматизация
-
[Перевод] Работаем с NLP на Python
На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).
https://habr.com/ru/companies/otus/articles/967254/
#nlp #python #Обработка_естественного_языка #NLTK #предобработка_текста #токенизация #стемминг #лемматизация
-
«Король глядит угрюмо…» — а я считаю звуки. Цифровое сравнение Стивенсона и Маршака
Стивенсон и Маршак. Схватка поэтических тяжеловесов, которую можно судить с помощью кода Python. Награда - вересковый мед.
https://habr.com/ru/articles/972154/
#python #токенизация #naturallanguageprocessing #natural_language_processing #nlp #поэзия #литература #чтение
-
Токенизированные акции, или как блокчейн навсегда сожрёт старую экономику
Полный разбор: как они работают, откуда появились и почему в ближайшее время во всем мире можно будет токенизировать дом, машину и части тела.
https://habr.com/ru/articles/970864/
#Токенизация #токенизированные_акции #Блокчейн #Биткоин #Nasdaq #SEC #александр_столыпин #iposharks
-
Токенизированные акции, или как блокчейн навсегда сожрёт старую экономику
Полный разбор: как они работают, откуда появились и почему в ближайшее время во всем мире можно будет токенизировать дом, машину и части тела.
https://habr.com/ru/articles/970864/
#Токенизация #токенизированные_акции #Блокчейн #Биткоин #Nasdaq #SEC #александр_столыпин #iposharks
-
Токенизированные акции, или как блокчейн навсегда сожрёт старую экономику
Полный разбор: как они работают, откуда появились и почему в ближайшее время во всем мире можно будет токенизировать дом, машину и части тела.
https://habr.com/ru/articles/970864/
#Токенизация #токенизированные_акции #Блокчейн #Биткоин #Nasdaq #SEC #александр_столыпин #iposharks
-
Токенизированные акции, или как блокчейн навсегда сожрёт старую экономику
Полный разбор: как они работают, откуда появились и почему в ближайшее время во всем мире можно будет токенизировать дом, машину и части тела.
https://habr.com/ru/articles/970864/
#Токенизация #токенизированные_акции #Блокчейн #Биткоин #Nasdaq #SEC #александр_столыпин #iposharks
-
Создание простой поисковой системы, которая действительно работает
Зачем вообще делать что-то своё? Я знаю, что вы можете подумать: «Почему бы просто не использовать Elasticsearch?» или «А что насчёт Algolia?» Это вполне рабочие решения, но у них есть нюансы. Нужно разбираться с их API, поддерживать инфраструктуру под них и учитывать все тонкости их работы. Но иногда хочется чего-то более простого...
https://habr.com/ru/articles/969312/
#поиск #индексация #токенизация #sql #php #поисковая_система #оптимизация #репозиторий
-
Создание простой поисковой системы, которая действительно работает
Зачем вообще делать что-то своё? Я знаю, что вы можете подумать: «Почему бы просто не использовать Elasticsearch?» или «А что насчёт Algolia?» Это вполне рабочие решения, но у них есть нюансы. Нужно разбираться с их API, поддерживать инфраструктуру под них и учитывать все тонкости их работы. Но иногда хочется чего-то более простого...
https://habr.com/ru/articles/969312/
#поиск #индексация #токенизация #sql #php #поисковая_система #оптимизация #репозиторий
-
Создание простой поисковой системы, которая действительно работает
Зачем вообще делать что-то своё? Я знаю, что вы можете подумать: «Почему бы просто не использовать Elasticsearch?» или «А что насчёт Algolia?» Это вполне рабочие решения, но у них есть нюансы. Нужно разбираться с их API, поддерживать инфраструктуру под них и учитывать все тонкости их работы. Но иногда хочется чего-то более простого...
https://habr.com/ru/articles/969312/
#поиск #индексация #токенизация #sql #php #поисковая_система #оптимизация #репозиторий
-
Создание простой поисковой системы, которая действительно работает
Зачем вообще делать что-то своё? Я знаю, что вы можете подумать: «Почему бы просто не использовать Elasticsearch?» или «А что насчёт Algolia?» Это вполне рабочие решения, но у них есть нюансы. Нужно разбираться с их API, поддерживать инфраструктуру под них и учитывать все тонкости их работы. Но иногда хочется чего-то более простого...
https://habr.com/ru/articles/969312/
#поиск #индексация #токенизация #sql #php #поисковая_система #оптимизация #репозиторий
-
Апокалипсис контента? Взгляд юриста и разбор LLM
На днях наткнулся на статью, опубликованную в телеграм-канале Habr, под названием «Тихий апокалипсис контента: почему все устали от сгенерированных статей». В ней автор выражает озабоченность количеством сгенерированного контента, который набирает просмотры и вытесняет из выдачи авторские статьи. Статья автора натолкнула меня на идею порассуждать на эту тему, провести небольшие исследования, сравнить процесс генерации текста ИИ и человеком и просто поделиться своим «экспертным» мнением.
https://habr.com/ru/articles/966882/
#llmмодели #нейросети #генерация_текста #механизм_внимания #transformer #токенизация #апокалипсис_контента #вероятностная_генерация #авторегрессия
-
Clickhouse в машинном обучении без использования GPU (Часть 1)
Один из моих коллег сказал когда-то, что "база данных - это хранилище, а не считалище!" . Эту фразу я вспоминал регулярно, пока проводил свое маленькое исследование. Целью данной статьи является описание практического опыта эффективного решения одной из задач ML на существующих аппаратных ресурсах, без аренды/покупки дорогостоящих GPU.