home.social

#токенизация — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #токенизация, aggregated by home.social.

  1. Как заставить xt850 совпадать с xt 850

    С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.

    habr.com/ru/articles/1032472/

    #обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация

  2. Как заставить xt850 совпадать с xt 850

    С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.

    habr.com/ru/articles/1032472/

    #обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация

  3. Как заставить xt850 совпадать с xt 850

    С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.

    habr.com/ru/articles/1032472/

    #обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация

  4. Как заставить xt850 совпадать с xt 850

    С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.

    habr.com/ru/articles/1032472/

    #обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация

  5. Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

    Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

    habr.com/ru/articles/1032610/

    #llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

  6. Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

    Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

    habr.com/ru/articles/1032610/

    #llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

  7. Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

    Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

    habr.com/ru/articles/1032610/

    #llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

  8. Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

    Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

    habr.com/ru/articles/1032610/

    #llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

  9. Что в Opus 4.7 устроили с токенизацией?

    Если подать один и тот же текст в Opus 4.7 и Opus 4.6, в новой модели он может оказаться представлен гораздо большим числом токенов. А тогда он и обходится дороже, и занимает больше места в контекстном окне. Получается «скрытая инфляция»: цены и лимиты указаны прежние, но на практике расходы могут возрасти. Как именно всё изменилось и почему? В каких случаях число токенов вырастет максимально, а в каких останется прежним? Это хочется понимать не только из-за Opus: подобное ведь может произойти и с другой моделью. Но полных официальных ответов нет. Поэтому мы и собрали доступную информацию, и самостоятельно проверили через API, что происходит с разными типами текстов. Мы делаем редактор кода с поддержкой разных ИИ-моделей, так что нам важно, как эта разница может сказаться на наших пользователях. Ну, и конечно, нам самим любопытно разобраться, что происходит в индустрии.

    habr.com/ru/companies/kodik/ar

    #opus_47 #токенизация

  10. Никакой магии: только лексер, парсер и интерпретатор на чистом PHP

    Вы вроде бы пишете код на чистом PHP, но почему-то каждый день используете маленькие языки: DQL в Doctrine ( «u.age > 18» ), Twig-выражения ( «user|length > 0» ), Symfony ExpressionLanguage ( «user.is_active and order.total > 100` ). Никогда не возникало мысли о том, что хорошо бы избавиться от всех этих дополнений и использовать язык собственной разработки для решения нужных задач? В этой статье мы рассмотрим DSL — язык, заточенный под узкую задачу. Разобрать DSL

    habr.com/ru/companies/otus/art

    #php #dsl #парсер #токенизация #интерпретатор #AST

  11. Никакой магии: только лексер, парсер и интерпретатор на чистом PHP

    Вы вроде бы пишете код на чистом PHP, но почему-то каждый день используете маленькие языки: DQL в Doctrine ( «u.age > 18» ), Twig-выражения ( «user|length > 0» ), Symfony ExpressionLanguage ( «user.is_active and order.total > 100` ). Никогда не возникало мысли о том, что хорошо бы избавиться от всех этих дополнений и использовать язык собственной разработки для решения нужных задач? В этой статье мы рассмотрим DSL — язык, заточенный под узкую задачу. Разобрать DSL

    habr.com/ru/companies/otus/art

    #php #dsl #парсер #токенизация #интерпретатор #AST

  12. Никакой магии: только лексер, парсер и интерпретатор на чистом PHP

    Вы вроде бы пишете код на чистом PHP, но почему-то каждый день используете маленькие языки: DQL в Doctrine ( «u.age > 18» ), Twig-выражения ( «user|length > 0» ), Symfony ExpressionLanguage ( «user.is_active and order.total > 100` ). Никогда не возникало мысли о том, что хорошо бы избавиться от всех этих дополнений и использовать язык собственной разработки для решения нужных задач? В этой статье мы рассмотрим DSL — язык, заточенный под узкую задачу. Разобрать DSL

    habr.com/ru/companies/otus/art

    #php #dsl #парсер #токенизация #интерпретатор #AST

  13. Никакой магии: только лексер, парсер и интерпретатор на чистом PHP

    Вы вроде бы пишете код на чистом PHP, но почему-то каждый день используете маленькие языки: DQL в Doctrine ( «u.age > 18» ), Twig-выражения ( «user|length > 0» ), Symfony ExpressionLanguage ( «user.is_active and order.total > 100` ). Никогда не возникало мысли о том, что хорошо бы избавиться от всех этих дополнений и использовать язык собственной разработки для решения нужных задач? В этой статье мы рассмотрим DSL — язык, заточенный под узкую задачу. Разобрать DSL

    habr.com/ru/companies/otus/art

    #php #dsl #парсер #токенизация #интерпретатор #AST

  14. Compute crunch пришёл: как считать экономику LLM в 2026

    Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .

    habr.com/ru/articles/1024850/

    #LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура

  15. Compute crunch пришёл: как считать экономику LLM в 2026

    Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .

    habr.com/ru/articles/1024850/

    #LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура

  16. Compute crunch пришёл: как считать экономику LLM в 2026

    Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .

    habr.com/ru/articles/1024850/

    #LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура

  17. Compute crunch пришёл: как считать экономику LLM в 2026

    Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .

    habr.com/ru/articles/1024850/

    #LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура

  18. Дофаминовый шум, ИИ и токенизация активов: разбираем ежегодное письмо главы BlackRock Ларри Финка

    Каждый год Ларри Финк, глава крупнейшей в мире инвестиционной компании BlackRock (активы которой только за 2025 год выросли на $698 млрд), публикует открытое письмо инвесторам. Обычно такие письма воспринимаются как скучная корпоративная отчетность, но не в этот раз.

    habr.com/ru/companies/finam_br

    #ларри_финк #blackrock #искусственный_интеллект #финтех #токенизация #цифровые_активы #инвестиции #мировая_экономика #будущее_человечества #будущее_технологий

  19. Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

    GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

    habr.com/ru/articles/993768/

    #BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

  20. Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

    GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

    habr.com/ru/articles/993768/

    #BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

  21. Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

    GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

    habr.com/ru/articles/993768/

    #BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

  22. Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

    GPT-5.x разбивает слово "paratrooper" на par , atro , oper — три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель). Токенизатор не видит ничего. BPE, золотой стандарт токенизации с 2016 года, режет текст по частоте, а не по смыслу. И все крупные модели — GPT, Claude, Gemini, LLaMA — используют именно его. Несколько исследовательских групп проверили: что будет, если резать слова по морфемам — корням, приставкам, суффиксам? Результаты: +25% на LAMBADA, вдвое быстрее сходимость, а модель с 200k шагов обучения догоняет GPT-2 Large, которая в 6 раз больше. В статье — разбор трёх подходов (MorphBPE, MorphPiece, Unigram + морфология), конкретные цифры, ограничения (которые авторы предпочитают не выносить в заголовки) и ссылки, чтобы попробовать самому.

    habr.com/ru/articles/993768/

    #BPE #токенизация #морфемы #языковые_модели #NLP #лингвистика #GPT #LLaMA #трансформеры

  23. Как устроены AI токены: реальные расходы на запросы, принципы токенизации и разница с количеством слов

    Привет, на связи Егор! Я пишущий эксперт

    habr.com/ru/companies/gptunnel

    #токены_llm #токенизация #что_такое_токенизация #токен #токены #ии_и_машинное_обучение

  24. [Перевод] От текста к токенам: как работают пайплайны токенизации

    Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.

    habr.com/ru/articles/976356/

    #токенизация #индексирование #текстовые_данные #llm #искусственный_интеллект

  25. [Перевод] От текста к токенам: как работают пайплайны токенизации

    Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.

    habr.com/ru/articles/976356/

    #токенизация #индексирование #текстовые_данные #llm #искусственный_интеллект

  26. [Перевод] От текста к токенам: как работают пайплайны токенизации

    Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.

    habr.com/ru/articles/976356/

    #токенизация #индексирование #текстовые_данные #llm #искусственный_интеллект

  27. [Перевод] От текста к токенам: как работают пайплайны токенизации

    Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.

    habr.com/ru/articles/976356/

    #токенизация #индексирование #текстовые_данные #llm #искусственный_интеллект

  28. Токеномика как инструмент иллюзий: пыль в глаза или искусство продавать воздух?

    Почему токеномики - это пыль в глаза. Как криптопроекты создают иллюзию ценности и почему рынок принадлежит не гениям, а властителям медиасреды. Введение. Не секрет, что с появлением первой криптовалюты наши представления о финансах сильно изменились. Биткойн перевернул всё с ног на голову, заставив людей по-новому взглянуть на деньги, доверие и саму идею ценности. Но не меньший шум поднял и проект Виталика Бутерина - Ethereum, который появился в след за Биткойном. Он дал миру первую публичную блокчейн-платформу, на которой любой желающий мог выпускать свои крипто-токены. Так родился целый пласт экономики нового типа. Началась эпоха крипто-стартапов, где в основу идеи легла мысль: всё, что имеет хоть какую-то стоимость, можно и нужно токенизировать в блокчейне. Проекты наперебой выпускали собственные токены, обещая инвесторам участие в будущих экосистемах, доступ к сервисам или долю в гипотетической прибыли. Рынок заполнился тысячами цифровых активов, отличавшихся друг от друга лишь названием и историей происхождения. И чем громче звучала презентация, тем охотнее инвесторы вкладывались в очередной «революционный» токен. Так появилось новое модное слово - токеномика. Уверен, если вы читаете эту статью, то как минимум уже встречали этот термин, а как максимум считаете, что неплохо в нём разбираетесь. Скорее всего, вам так только кажется. И это нормально: индустрия за годы существования успела накрутить вокруг токеномик такой слой терминологии, схем и модных концепций, что даже специалисты здесь часто путаются в показаниях.

    habr.com/ru/articles/976562/

    #криптовалюта #криптобиржи #блокчейн #блокчейнтехнологии #биткоин #токеномика #альткоины #инвестиции #токенизация #криптостартапы

  29. Токеномика как инструмент иллюзий: пыль в глаза или искусство продавать воздух?

    Почему токеномики - это пыль в глаза. Как криптопроекты создают иллюзию ценности и почему рынок принадлежит не гениям, а властителям медиасреды. Введение. Не секрет, что с появлением первой криптовалюты наши представления о финансах сильно изменились. Биткойн перевернул всё с ног на голову, заставив людей по-новому взглянуть на деньги, доверие и саму идею ценности. Но не меньший шум поднял и проект Виталика Бутерина - Ethereum, который появился в след за Биткойном. Он дал миру первую публичную блокчейн-платформу, на которой любой желающий мог выпускать свои крипто-токены. Так родился целый пласт экономики нового типа. Началась эпоха крипто-стартапов, где в основу идеи легла мысль: всё, что имеет хоть какую-то стоимость, можно и нужно токенизировать в блокчейне. Проекты наперебой выпускали собственные токены, обещая инвесторам участие в будущих экосистемах, доступ к сервисам или долю в гипотетической прибыли. Рынок заполнился тысячами цифровых активов, отличавшихся друг от друга лишь названием и историей происхождения. И чем громче звучала презентация, тем охотнее инвесторы вкладывались в очередной «революционный» токен. Так появилось новое модное слово - токеномика. Уверен, если вы читаете эту статью, то как минимум уже встречали этот термин, а как максимум считаете, что неплохо в нём разбираетесь. Скорее всего, вам так только кажется. И это нормально: индустрия за годы существования успела накрутить вокруг токеномик такой слой терминологии, схем и модных концепций, что даже специалисты здесь часто путаются в показаниях.

    habr.com/ru/articles/976562/

    #криптовалюта #криптобиржи #блокчейн #блокчейнтехнологии #биткоин #токеномика #альткоины #инвестиции #токенизация #криптостартапы

  30. Токеномика как инструмент иллюзий: пыль в глаза или искусство продавать воздух?

    Почему токеномики - это пыль в глаза. Как криптопроекты создают иллюзию ценности и почему рынок принадлежит не гениям, а властителям медиасреды. Введение. Не секрет, что с появлением первой криптовалюты наши представления о финансах сильно изменились. Биткойн перевернул всё с ног на голову, заставив людей по-новому взглянуть на деньги, доверие и саму идею ценности. Но не меньший шум поднял и проект Виталика Бутерина - Ethereum, который появился в след за Биткойном. Он дал миру первую публичную блокчейн-платформу, на которой любой желающий мог выпускать свои крипто-токены. Так родился целый пласт экономики нового типа. Началась эпоха крипто-стартапов, где в основу идеи легла мысль: всё, что имеет хоть какую-то стоимость, можно и нужно токенизировать в блокчейне. Проекты наперебой выпускали собственные токены, обещая инвесторам участие в будущих экосистемах, доступ к сервисам или долю в гипотетической прибыли. Рынок заполнился тысячами цифровых активов, отличавшихся друг от друга лишь названием и историей происхождения. И чем громче звучала презентация, тем охотнее инвесторы вкладывались в очередной «революционный» токен. Так появилось новое модное слово - токеномика. Уверен, если вы читаете эту статью, то как минимум уже встречали этот термин, а как максимум считаете, что неплохо в нём разбираетесь. Скорее всего, вам так только кажется. И это нормально: индустрия за годы существования успела накрутить вокруг токеномик такой слой терминологии, схем и модных концепций, что даже специалисты здесь часто путаются в показаниях.

    habr.com/ru/articles/976562/

    #криптовалюта #криптобиржи #блокчейн #блокчейнтехнологии #биткоин #токеномика #альткоины #инвестиции #токенизация #криптостартапы

  31. Токеномика как инструмент иллюзий: пыль в глаза или искусство продавать воздух?

    Почему токеномики - это пыль в глаза. Как криптопроекты создают иллюзию ценности и почему рынок принадлежит не гениям, а властителям медиасреды. Введение. Не секрет, что с появлением первой криптовалюты наши представления о финансах сильно изменились. Биткойн перевернул всё с ног на голову, заставив людей по-новому взглянуть на деньги, доверие и саму идею ценности. Но не меньший шум поднял и проект Виталика Бутерина - Ethereum, который появился в след за Биткойном. Он дал миру первую публичную блокчейн-платформу, на которой любой желающий мог выпускать свои крипто-токены. Так родился целый пласт экономики нового типа. Началась эпоха крипто-стартапов, где в основу идеи легла мысль: всё, что имеет хоть какую-то стоимость, можно и нужно токенизировать в блокчейне. Проекты наперебой выпускали собственные токены, обещая инвесторам участие в будущих экосистемах, доступ к сервисам или долю в гипотетической прибыли. Рынок заполнился тысячами цифровых активов, отличавшихся друг от друга лишь названием и историей происхождения. И чем громче звучала презентация, тем охотнее инвесторы вкладывались в очередной «революционный» токен. Так появилось новое модное слово - токеномика. Уверен, если вы читаете эту статью, то как минимум уже встречали этот термин, а как максимум считаете, что неплохо в нём разбираетесь. Скорее всего, вам так только кажется. И это нормально: индустрия за годы существования успела накрутить вокруг токеномик такой слой терминологии, схем и модных концепций, что даже специалисты здесь часто путаются в показаниях.

    habr.com/ru/articles/976562/

    #криптовалюта #криптобиржи #блокчейн #блокчейнтехнологии #биткоин #токеномика #альткоины #инвестиции #токенизация #криптостартапы

  32. ERC-3643 vs ERC-1400: архитектурные решения для security tokens

    Выбор стандарта для security token — это архитектурное решение, которое определит compliance-модель, gas costs, интеграционные возможности и upgradeability на годы вперёд. В этой статье я разберу два основных стандарта — ERC-1400 и ERC-3643 — с точки зрения разработчика, который имплементировал оба.

    habr.com/ru/articles/975516/

    #security_tokens #erc1400 #erc3643 #TREX_ProtocolTREX_Protocol #токенизация_активов #токенизация_недвижимости #токенизация_реальных_активов #токенизация

  33. ERC-3643 vs ERC-1400: архитектурные решения для security tokens

    Выбор стандарта для security token — это архитектурное решение, которое определит compliance-модель, gas costs, интеграционные возможности и upgradeability на годы вперёд. В этой статье я разберу два основных стандарта — ERC-1400 и ERC-3643 — с точки зрения разработчика, который имплементировал оба.

    habr.com/ru/articles/975516/

    #security_tokens #erc1400 #erc3643 #TREX_ProtocolTREX_Protocol #токенизация_активов #токенизация_недвижимости #токенизация_реальных_активов #токенизация

  34. ERC-3643 vs ERC-1400: архитектурные решения для security tokens

    Выбор стандарта для security token — это архитектурное решение, которое определит compliance-модель, gas costs, интеграционные возможности и upgradeability на годы вперёд. В этой статье я разберу два основных стандарта — ERC-1400 и ERC-3643 — с точки зрения разработчика, который имплементировал оба.

    habr.com/ru/articles/975516/

    #security_tokens #erc1400 #erc3643 #TREX_ProtocolTREX_Protocol #токенизация_активов #токенизация_недвижимости #токенизация_реальных_активов #токенизация

  35. ERC-3643 vs ERC-1400: архитектурные решения для security tokens

    Выбор стандарта для security token — это архитектурное решение, которое определит compliance-модель, gas costs, интеграционные возможности и upgradeability на годы вперёд. В этой статье я разберу два основных стандарта — ERC-1400 и ERC-3643 — с точки зрения разработчика, который имплементировал оба.

    habr.com/ru/articles/975516/

    #security_tokens #erc1400 #erc3643 #TREX_ProtocolTREX_Protocol #токенизация_активов #токенизация_недвижимости #токенизация_реальных_активов #токенизация

  36. [Перевод] Работаем с NLP на Python

    На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).

    habr.com/ru/companies/otus/art

    #nlp #python #Обработка_естественного_языка #NLTK #предобработка_текста #токенизация #стемминг #лемматизация

  37. [Перевод] Работаем с NLP на Python

    На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).

    habr.com/ru/companies/otus/art

    #nlp #python #Обработка_естественного_языка #NLTK #предобработка_текста #токенизация #стемминг #лемматизация

  38. [Перевод] Работаем с NLP на Python

    На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).

    habr.com/ru/companies/otus/art

    #nlp #python #Обработка_естественного_языка #NLTK #предобработка_текста #токенизация #стемминг #лемматизация

  39. [Перевод] Работаем с NLP на Python

    На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).

    habr.com/ru/companies/otus/art

    #nlp #python #Обработка_естественного_языка #NLTK #предобработка_текста #токенизация #стемминг #лемматизация

  40. «Король глядит угрюмо…» — а я считаю звуки. Цифровое сравнение Стивенсона и Маршака

    Стивенсон и Маршак. Схватка поэтических тяжеловесов, которую можно судить с помощью кода Python. Награда - вересковый мед.

    habr.com/ru/articles/972154/

    #python #токенизация #naturallanguageprocessing #natural_language_processing #nlp #поэзия #литература #чтение

  41. Токенизированные акции, или как блокчейн навсегда сожрёт старую экономику

    Полный разбор: как они работают, откуда появились и почему в ближайшее время во всем мире можно будет токенизировать дом, машину и части тела.

    habr.com/ru/articles/970864/

    #Токенизация #токенизированные_акции #Блокчейн #Биткоин #Nasdaq #SEC #александр_столыпин #iposharks

  42. Токенизированные акции, или как блокчейн навсегда сожрёт старую экономику

    Полный разбор: как они работают, откуда появились и почему в ближайшее время во всем мире можно будет токенизировать дом, машину и части тела.

    habr.com/ru/articles/970864/

    #Токенизация #токенизированные_акции #Блокчейн #Биткоин #Nasdaq #SEC #александр_столыпин #iposharks

  43. Токенизированные акции, или как блокчейн навсегда сожрёт старую экономику

    Полный разбор: как они работают, откуда появились и почему в ближайшее время во всем мире можно будет токенизировать дом, машину и части тела.

    habr.com/ru/articles/970864/

    #Токенизация #токенизированные_акции #Блокчейн #Биткоин #Nasdaq #SEC #александр_столыпин #iposharks

  44. Токенизированные акции, или как блокчейн навсегда сожрёт старую экономику

    Полный разбор: как они работают, откуда появились и почему в ближайшее время во всем мире можно будет токенизировать дом, машину и части тела.

    habr.com/ru/articles/970864/

    #Токенизация #токенизированные_акции #Блокчейн #Биткоин #Nasdaq #SEC #александр_столыпин #iposharks

  45. Создание простой поисковой системы, которая действительно работает

    Зачем вообще делать что-то своё? Я знаю, что вы можете подумать: «Почему бы просто не использовать Elasticsearch?» или «А что насчёт Algolia?» Это вполне рабочие решения, но у них есть нюансы. Нужно разбираться с их API, поддерживать инфраструктуру под них и учитывать все тонкости их работы. Но иногда хочется чего-то более простого...

    habr.com/ru/articles/969312/

    #поиск #индексация #токенизация #sql #php #поисковая_система #оптимизация #репозиторий

  46. Создание простой поисковой системы, которая действительно работает

    Зачем вообще делать что-то своё? Я знаю, что вы можете подумать: «Почему бы просто не использовать Elasticsearch?» или «А что насчёт Algolia?» Это вполне рабочие решения, но у них есть нюансы. Нужно разбираться с их API, поддерживать инфраструктуру под них и учитывать все тонкости их работы. Но иногда хочется чего-то более простого...

    habr.com/ru/articles/969312/

    #поиск #индексация #токенизация #sql #php #поисковая_система #оптимизация #репозиторий

  47. Создание простой поисковой системы, которая действительно работает

    Зачем вообще делать что-то своё? Я знаю, что вы можете подумать: «Почему бы просто не использовать Elasticsearch?» или «А что насчёт Algolia?» Это вполне рабочие решения, но у них есть нюансы. Нужно разбираться с их API, поддерживать инфраструктуру под них и учитывать все тонкости их работы. Но иногда хочется чего-то более простого...

    habr.com/ru/articles/969312/

    #поиск #индексация #токенизация #sql #php #поисковая_система #оптимизация #репозиторий

  48. Создание простой поисковой системы, которая действительно работает

    Зачем вообще делать что-то своё? Я знаю, что вы можете подумать: «Почему бы просто не использовать Elasticsearch?» или «А что насчёт Algolia?» Это вполне рабочие решения, но у них есть нюансы. Нужно разбираться с их API, поддерживать инфраструктуру под них и учитывать все тонкости их работы. Но иногда хочется чего-то более простого...

    habr.com/ru/articles/969312/

    #поиск #индексация #токенизация #sql #php #поисковая_система #оптимизация #репозиторий

  49. Апокалипсис контента? Взгляд юриста и разбор LLM

    На днях наткнулся на статью, опубликованную в телеграм-канале Habr, под названием «Тихий апокалипсис контента: почему все устали от сгенерированных статей». В ней автор выражает озабоченность количеством сгенерированного контента, который набирает просмотры и вытесняет из выдачи авторские статьи. Статья автора натолкнула меня на идею порассуждать на эту тему, провести небольшие исследования, сравнить процесс генерации текста ИИ и человеком и просто поделиться своим «экспертным» мнением.

    habr.com/ru/articles/966882/

    #llmмодели #нейросети #генерация_текста #механизм_внимания #transformer #токенизация #апокалипсис_контента #вероятностная_генерация #авторегрессия

  50. Clickhouse в машинном обучении без использования GPU (Часть 1)

    Один из моих коллег сказал когда-то, что "база данных - это хранилище, а не считалище!" . Эту фразу я вспоминал регулярно, пока проводил свое маленькое исследование. Целью данной статьи является описание практического опыта эффективного решения одной из задач ML на существующих аппаратных ресурсах, без аренды/покупки дорогостоящих GPU.

    habr.com/ru/articles/948318/

    #clickhouse #ml #токенизация #sql