home.social

#chunking — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #chunking, aggregated by home.social.

  1. Стриминг ответов в Telegram-боте: новый API и 100 строк Python

    1 марта 2026 Telegram добавил в Bot API метод sendMessageDraft - возможность потокового вывода сообщений. Тот самый эффект, к которому все привыкли в ChatGPT и Claude. Текст появляется по частям, в конце бегают анимированные точки, и ты видишь, что ответ ещё генерируется. Я написал простенький рабочий пример на чистом Python - без каких-либо фреймворков. Только asyncio и urllib .

    habr.com/ru/articles/1019836/

    #telegram #telegram_bot #telegram_api #stream #chunking

  2. Learn how chunking strategies impact RAG performance in 2026, including fixed-size, semantic, and hybrid approaches. Discover optimization techniques for use cases like medical research and legal analysis using tools like LangChain and embedding models.

    #RAG #chunking #semantic chunking #LangChain #embedding models

    dasroot.net/posts/2026/02/chun

  3. Learn how chunking strategies impact RAG performance in 2026, including fixed-size, semantic, and hybrid approaches. Discover optimization techniques for use cases like medical research and legal analysis using tools like LangChain and embedding models.

    #RAG #chunking #semantic chunking #LangChain #embedding models

    dasroot.net/posts/2026/02/chun

  4. Learn how chunking strategies impact RAG performance in 2026, including fixed-size, semantic, and hybrid approaches. Discover optimization techniques for use cases like medical research and legal analysis using tools like LangChain and embedding models.

    #RAG #chunking #semantic chunking #LangChain #embedding models

    dasroot.net/posts/2026/02/chun

  5. Learn how chunking strategies impact RAG performance in 2026, including fixed-size, semantic, and hybrid approaches. Discover optimization techniques for use cases like medical research and legal analysis using tools like LangChain and embedding models.

    #RAG #chunking #semantic chunking #LangChain #embedding models

    dasroot.net/posts/2026/02/chun

  6. Learn how chunking strategies impact RAG performance in 2026, including fixed-size, semantic, and hybrid approaches. Discover optimization techniques for use cases like medical research and legal analysis using tools like LangChain and embedding models.

    chunking models

    dasroot.net/posts/2026/02/chun

  7. 🧠 New preprint by Zhong et al. proposes a #synaptic mechanism for #chunking in #WorkingMemory.

    Using short-term #plasticity and synaptic augmentation, their model shows how items can be temporarily suppressed and later retrieved as chunks, increasing effective capacity w/o increasing simultaneous activity.

    🌍 doi.org/10.7554/eLife.109538.1

    #Neuroscience #CompNeuro #SynapticPlasticity

  8. 🧠 New preprint by Zhong et al. proposes a #synaptic mechanism for #chunking in #WorkingMemory.

    Using short-term #plasticity and synaptic augmentation, their model shows how items can be temporarily suppressed and later retrieved as chunks, increasing effective capacity w/o increasing simultaneous activity.

    🌍 doi.org/10.7554/eLife.109538.1

    #Neuroscience #CompNeuro #SynapticPlasticity

  9. 🧠 New preprint by Zhong et al. proposes a #synaptic mechanism for #chunking in #WorkingMemory.

    Using short-term #plasticity and synaptic augmentation, their model shows how items can be temporarily suppressed and later retrieved as chunks, increasing effective capacity w/o increasing simultaneous activity.

    🌍 doi.org/10.7554/eLife.109538.1

    #Neuroscience #CompNeuro #SynapticPlasticity

  10. 🧠 New preprint by Zhong et al. proposes a #synaptic mechanism for #chunking in #WorkingMemory.

    Using short-term #plasticity and synaptic augmentation, their model shows how items can be temporarily suppressed and later retrieved as chunks, increasing effective capacity w/o increasing simultaneous activity.

    🌍 doi.org/10.7554/eLife.109538.1

    #Neuroscience #CompNeuro #SynapticPlasticity

  11. 🧠 New preprint by Zhong et al. proposes a #synaptic mechanism for #chunking in #WorkingMemory.

    Using short-term #plasticity and synaptic augmentation, their model shows how items can be temporarily suppressed and later retrieved as chunks, increasing effective capacity w/o increasing simultaneous activity.

    🌍 doi.org/10.7554/eLife.109538.1

    #Neuroscience #CompNeuro #SynapticPlasticity

  12. Архитектура высоконагруженных RAG-систем: 10 стратегий оптимизации чанкинга и интеграция с Weaviate, Qwen / Llama /Gemma

    Привет, Хабр! Это Андрей Носов, AI-архитектор в компании Raft, проектирую и внедряю высоконагруженные RAG-системы на предприятиях. Сегодня я расскажу о вызовах, которые мы преодолеваем каждый день, создавая такие системы, и сделаю акцент на чанкинге. Обозначим направления, в которых мы будем работать. Сегодня поговорим только о двух возможностях применения больших языковых моделей — это MedTech и LegalTech. Они наиболее востребованные на рынке в текущий момент в плане систем поиска. Такой выбор направлений связан с глобальным трендом на работу с профессиональными знаниями, о котором говорят Gartner и OpenAI.

    habr.com/ru/companies/oleg-bun

    #rag #chunking #llm #genai #архитектура #чанкинг #highload #highload++

  13. Архитектура высоконагруженных RAG-систем: 10 стратегий оптимизации чанкинга и интеграция с Weaviate, Qwen / Llama /Gemma

    Привет, Хабр! Это Андрей Носов, AI-архитектор в компании Raft, проектирую и внедряю высоконагруженные RAG-системы на предприятиях. Сегодня я расскажу о вызовах, которые мы преодолеваем каждый день, создавая такие системы, и сделаю акцент на чанкинге. Обозначим направления, в которых мы будем работать. Сегодня поговорим только о двух возможностях применения больших языковых моделей — это MedTech и LegalTech. Они наиболее востребованные на рынке в текущий момент в плане систем поиска. Такой выбор направлений связан с глобальным трендом на работу с профессиональными знаниями, о котором говорят Gartner и OpenAI.

    habr.com/ru/companies/oleg-bun

    #rag #chunking #llm #genai #архитектура #чанкинг #highload #highload++

  14. Архитектура высоконагруженных RAG-систем: 10 стратегий оптимизации чанкинга и интеграция с Weaviate, Qwen / Llama /Gemma

    Привет, Хабр! Это Андрей Носов, AI-архитектор в компании Raft, проектирую и внедряю высоконагруженные RAG-системы на предприятиях. Сегодня я расскажу о вызовах, которые мы преодолеваем каждый день, создавая такие системы, и сделаю акцент на чанкинге. Обозначим направления, в которых мы будем работать. Сегодня поговорим только о двух возможностях применения больших языковых моделей — это MedTech и LegalTech. Они наиболее востребованные на рынке в текущий момент в плане систем поиска. Такой выбор направлений связан с глобальным трендом на работу с профессиональными знаниями, о котором говорят Gartner и OpenAI.

    habr.com/ru/companies/oleg-bun

    #rag #chunking #llm #genai #архитектура #чанкинг #highload #highload++

  15. Архитектура высоконагруженных RAG-систем: 10 стратегий оптимизации чанкинга и интеграция с Weaviate, Qwen / Llama /Gemma

    Привет, Хабр! Это Андрей Носов, AI-архитектор в компании Raft, проектирую и внедряю высоконагруженные RAG-системы на предприятиях. Сегодня я расскажу о вызовах, которые мы преодолеваем каждый день, создавая такие системы, и сделаю акцент на чанкинге. Обозначим направления, в которых мы будем работать. Сегодня поговорим только о двух возможностях применения больших языковых моделей — это MedTech и LegalTech. Они наиболее востребованные на рынке в текущий момент в плане систем поиска. Такой выбор направлений связан с глобальным трендом на работу с профессиональными знаниями, о котором говорят Gartner и OpenAI.

    habr.com/ru/companies/oleg-bun

    #rag #chunking #llm #genai #архитектура #чанкинг #highload #highload++

  16. 🤖 Oh joy, yet another #AI model that promises to chunk #text across languages, because apparently, understanding words needed a chonkier approach. 🙄 #Hugging #Face proudly presents a delightfully complex name, ideal for confusing your cat and impressing no one at dinner parties. 🌍 Expect world peace and better #machine #translation any day now! 🎉
    huggingface.co/mirth/chonky_mm #Chunking #Language #Models #HackerNews #ngated

  17. 🤖 Oh joy, yet another #AI model that promises to chunk #text across languages, because apparently, understanding words needed a chonkier approach. 🙄 #Hugging #Face proudly presents a delightfully complex name, ideal for confusing your cat and impressing no one at dinner parties. 🌍 Expect world peace and better #machine #translation any day now! 🎉
    huggingface.co/mirth/chonky_mm #Chunking #Language #Models #HackerNews #ngated

  18. 🤖 Oh joy, yet another #AI model that promises to chunk #text across languages, because apparently, understanding words needed a chonkier approach. 🙄 #Hugging #Face proudly presents a delightfully complex name, ideal for confusing your cat and impressing no one at dinner parties. 🌍 Expect world peace and better #machine #translation any day now! 🎉
    huggingface.co/mirth/chonky_mm #Chunking #Language #Models #HackerNews #ngated

  19. 🤖 Oh joy, yet another #AI model that promises to chunk #text across languages, because apparently, understanding words needed a chonkier approach. 🙄 #Hugging #Face proudly presents a delightfully complex name, ideal for confusing your cat and impressing no one at dinner parties. 🌍 Expect world peace and better #machine #translation any day now! 🎉
    huggingface.co/mirth/chonky_mm #Chunking #Language #Models #HackerNews #ngated

  20. Chonkie: революция в RAG-чанкинге — скорость, лёгкость, удобство

    В эпоху, когда большие языковые модели (LLM) становятся всё более мощными и применяются во многих задачах, одна из ключевых проблем остаётся прежней — как эффективно снабжать их релевантным контекстом. Одним из популярных решений является подход RAG, где качество итогового ответа зависит от целого ряда факторов, одним из которых является качественное чанкирование исходных текстов. Сегодня мы рассмотрим одно из новых и интересных решений. Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft. В этой статье я расскажу о Chonkie — библиотеке для простого и быстрого чанкирования документов, а также на практике применю её и сравню с другими популярными решениями: LangChain и LlamaIndex .

    habr.com/ru/companies/raft/art

    #rag #chunking #ai #поиск #чанкинг #векторные_базы_данных #библиотека #llm_память

  21. Chonkie: революция в RAG-чанкинге — скорость, лёгкость, удобство

    В эпоху, когда большие языковые модели (LLM) становятся всё более мощными и применяются во многих задачах, одна из ключевых проблем остаётся прежней — как эффективно снабжать их релевантным контекстом. Одним из популярных решений является подход RAG, где качество итогового ответа зависит от целого ряда факторов, одним из которых является качественное чанкирование исходных текстов. Сегодня мы рассмотрим одно из новых и интересных решений. Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft. В этой статье я расскажу о Chonkie — библиотеке для простого и быстрого чанкирования документов, а также на практике применю её и сравню с другими популярными решениями: LangChain и LlamaIndex .

    habr.com/ru/companies/raft/art

    #rag #chunking #ai #поиск #чанкинг #векторные_базы_данных #библиотека #llm_память

  22. Chonkie: революция в RAG-чанкинге — скорость, лёгкость, удобство

    В эпоху, когда большие языковые модели (LLM) становятся всё более мощными и применяются во многих задачах, одна из ключевых проблем остаётся прежней — как эффективно снабжать их релевантным контекстом. Одним из популярных решений является подход RAG, где качество итогового ответа зависит от целого ряда факторов, одним из которых является качественное чанкирование исходных текстов. Сегодня мы рассмотрим одно из новых и интересных решений. Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft. В этой статье я расскажу о Chonkie — библиотеке для простого и быстрого чанкирования документов, а также на практике применю её и сравню с другими популярными решениями: LangChain и LlamaIndex .

    habr.com/ru/companies/raft/art

    #rag #chunking #ai #поиск #чанкинг #векторные_базы_данных #библиотека #llm_память

  23. Chonkie: революция в RAG-чанкинге — скорость, лёгкость, удобство

    В эпоху, когда большие языковые модели (LLM) становятся всё более мощными и применяются во многих задачах, одна из ключевых проблем остаётся прежней — как эффективно снабжать их релевантным контекстом. Одним из популярных решений является подход RAG, где качество итогового ответа зависит от целого ряда факторов, одним из которых является качественное чанкирование исходных текстов. Сегодня мы рассмотрим одно из новых и интересных решений. Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft. В этой статье я расскажу о Chonkie — библиотеке для простого и быстрого чанкирования документов, а также на практике применю её и сравню с другими популярными решениями: LangChain и LlamaIndex .

    habr.com/ru/companies/raft/art

    #rag #chunking #ai #поиск #чанкинг #векторные_базы_данных #библиотека #llm_память

  24. От задачи до решения: LLM с RAG-конфигурацией и ROC-AUC. Эксперимент на 121 прогоне за 40 часов с помощью ИИ

    Меня зовут Антон, сейчас занимаюсь прикладными проектами индекса цифровой зрелости БРИКС. Пробую за счет инструментов ИИ собирать каскады моделей ИИ для выявления неочевидных зависимостей в разных экономических и культурных процессах на основе данных извлекаемых из открытых источников. В рамках эксперимента я поставил себе задачу применить ИИ в прикладной задаче, при этом использовать только доступные всем инструменты и понятные нарративы. Одним словом, решил примерить на себя роль «Сделай там что-то с ИИ-шечкой, только быстро!» Рассказываю, что из этого поучилось (ссылки на рабочие блокноты, промпты и скриншоты прилагаются).

    habr.com/ru/companies/mipt_dig

    #llm #rag #f1_score #rocauc #google_colab #openrouter #Groq_api #chunking #DeepSeek #perplexity

  25. От задачи до решения: LLM с RAG-конфигурацией и ROC-AUC. Эксперимент на 121 прогоне за 40 часов с помощью ИИ

    Меня зовут Антон, сейчас занимаюсь прикладными проектами индекса цифровой зрелости БРИКС. Пробую за счет инструментов ИИ собирать каскады моделей ИИ для выявления неочевидных зависимостей в разных экономических и культурных процессах на основе данных извлекаемых из открытых источников. В рамках эксперимента я поставил себе задачу применить ИИ в прикладной задаче, при этом использовать только доступные всем инструменты и понятные нарративы. Одним словом, решил примерить на себя роль «Сделай там что-то с ИИ-шечкой, только быстро!» Рассказываю, что из этого поучилось (ссылки на рабочие блокноты, промпты и скриншоты прилагаются).

    habr.com/ru/companies/mipt_dig

    #llm #rag #f1_score #rocauc #google_colab #openrouter #Groq_api #chunking #DeepSeek #perplexity

  26. От задачи до решения: LLM с RAG-конфигурацией и ROC-AUC. Эксперимент на 121 прогоне за 40 часов с помощью ИИ

    Меня зовут Антон, сейчас занимаюсь прикладными проектами индекса цифровой зрелости БРИКС. Пробую за счет инструментов ИИ собирать каскады моделей ИИ для выявления неочевидных зависимостей в разных экономических и культурных процессах на основе данных извлекаемых из открытых источников. В рамках эксперимента я поставил себе задачу применить ИИ в прикладной задаче, при этом использовать только доступные всем инструменты и понятные нарративы. Одним словом, решил примерить на себя роль «Сделай там что-то с ИИ-шечкой, только быстро!» Рассказываю, что из этого поучилось (ссылки на рабочие блокноты, промпты и скриншоты прилагаются).

    habr.com/ru/companies/mipt_dig

    #llm #rag #f1_score #rocauc #google_colab #openrouter #Groq_api #chunking #DeepSeek #perplexity

  27. От задачи до решения: LLM с RAG-конфигурацией и ROC-AUC. Эксперимент на 121 прогоне за 40 часов с помощью ИИ

    Меня зовут Антон, сейчас занимаюсь прикладными проектами индекса цифровой зрелости БРИКС. Пробую за счет инструментов ИИ собирать каскады моделей ИИ для выявления неочевидных зависимостей в разных экономических и культурных процессах на основе данных извлекаемых из открытых источников. В рамках эксперимента я поставил себе задачу применить ИИ в прикладной задаче, при этом использовать только доступные всем инструменты и понятные нарративы. Одним словом, решил примерить на себя роль «Сделай там что-то с ИИ-шечкой, только быстро!» Рассказываю, что из этого поучилось (ссылки на рабочие блокноты, промпты и скриншоты прилагаются).

    habr.com/ru/companies/mipt_dig

    #llm #rag #f1_score #rocauc #google_colab #openrouter #Groq_api #chunking #DeepSeek #perplexity

  28. 💡 HOW TO: Use embeddings and visualization tools to split text into meaningful chunks. Robert Martin-Short shows you how.

    #Semantic #Text #Chunking

    towardsdatascience.com/a-visua

  29. I can’t believe it took me this long to discover this wonderful app.

    For myself and many of my students who are #ActuallyAutistic #AuDHD this is a god send.

    Yes it is AI so it is not perfect, e.g. the estimator function.

    Wonderful #universal tool for #chunking especially for teachers/educators with little experience in this.

    #GoblinTools #Education #iTeachSTEM #InclusiveEducation #LearningDifficulties

    goblin.tools/About

  30. I can’t believe it took me this long to discover this wonderful app.

    For myself and many of my students who are #ActuallyAutistic #AuDHD this is a god send.

    Yes it is AI so it is not perfect, e.g. the estimator function.

    Wonderful #universal tool for #chunking especially for teachers/educators with little experience in this.

    #GoblinTools #Education #iTeachSTEM #InclusiveEducation #LearningDifficulties

    goblin.tools/About

  31. I can’t believe it took me this long to discover this wonderful app.

    For myself and many of my students who are #ActuallyAutistic #AuDHD this is a god send.

    Yes it is AI so it is not perfect, e.g. the estimator function.

    Wonderful #universal tool for #chunking especially for teachers/educators with little experience in this.

    #GoblinTools #Education #iTeachSTEM #InclusiveEducation #LearningDifficulties

    goblin.tools/About

  32. I can’t believe it took me this long to discover this wonderful app.

    For myself and many of my students who are #ActuallyAutistic #AuDHD this is a god send.

    Yes it is AI so it is not perfect, e.g. the estimator function.

    Wonderful #universal tool for #chunking especially for teachers/educators with little experience in this.

    #GoblinTools #Education #iTeachSTEM #InclusiveEducation #LearningDifficulties

    goblin.tools/About

  33. Had a great time visiting @will_ngiam and the Awh / Vogel lab in Chicago this week, discussing about #chunking and #pointers in #workingmemory. #chunking is such a well known effect in cognitive psychology, but it's underlying mechanisms are still puzzling...

    Thanks to @will_ngiam for making it possible, it's a very impressive lab with very nice people!