#chunking — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #chunking, aggregated by home.social.
-
RAG в enterprise: 70-80% проблем не в модели, а в данных
Эта статья родилась из работы над
https://habr.com/ru/companies/alpinadigital/articles/1036196/
#RAG #enterprise_AI #retrieval_augmented_generation #embeddings #GraphRAG #Agentic_RAG #BM25 #chunking #LLM #AlpinaGPT
-
RAG в enterprise: 70-80% проблем не в модели, а в данных
Эта статья родилась из работы над
https://habr.com/ru/companies/alpinadigital/articles/1036196/
#RAG #enterprise_AI #retrieval_augmented_generation #embeddings #GraphRAG #Agentic_RAG #BM25 #chunking #LLM #AlpinaGPT
-
RAG в enterprise: 70-80% проблем не в модели, а в данных
Эта статья родилась из работы над
https://habr.com/ru/companies/alpinadigital/articles/1036196/
#RAG #enterprise_AI #retrieval_augmented_generation #embeddings #GraphRAG #Agentic_RAG #BM25 #chunking #LLM #AlpinaGPT
-
RAG в enterprise: 70-80% проблем не в модели, а в данных
Эта статья родилась из работы над
https://habr.com/ru/companies/alpinadigital/articles/1036196/
#RAG #enterprise_AI #retrieval_augmented_generation #embeddings #GraphRAG #Agentic_RAG #BM25 #chunking #LLM #AlpinaGPT
-
Стриминг ответов в Telegram-боте: новый API и 100 строк Python
1 марта 2026 Telegram добавил в Bot API метод sendMessageDraft - возможность потокового вывода сообщений. Тот самый эффект, к которому все привыкли в ChatGPT и Claude. Текст появляется по частям, в конце бегают анимированные точки, и ты видишь, что ответ ещё генерируется. Я написал простенький рабочий пример на чистом Python - без каких-либо фреймворков. Только asyncio и urllib .
-
Learn how chunking strategies impact RAG performance in 2026, including fixed-size, semantic, and hybrid approaches. Discover optimization techniques for use cases like medical research and legal analysis using tools like LangChain and embedding models.
#RAG #chunking #semantic chunking #LangChain #embedding models
https://dasroot.net/posts/2026/02/chunking-strategies-rag-performance/
-
Learn how chunking strategies impact RAG performance in 2026, including fixed-size, semantic, and hybrid approaches. Discover optimization techniques for use cases like medical research and legal analysis using tools like LangChain and embedding models.
#RAG #chunking #semantic chunking #LangChain #embedding models
https://dasroot.net/posts/2026/02/chunking-strategies-rag-performance/
-
Learn how chunking strategies impact RAG performance in 2026, including fixed-size, semantic, and hybrid approaches. Discover optimization techniques for use cases like medical research and legal analysis using tools like LangChain and embedding models.
#RAG #chunking #semantic chunking #LangChain #embedding models
https://dasroot.net/posts/2026/02/chunking-strategies-rag-performance/
-
Learn how chunking strategies impact RAG performance in 2026, including fixed-size, semantic, and hybrid approaches. Discover optimization techniques for use cases like medical research and legal analysis using tools like LangChain and embedding models.
#RAG #chunking #semantic chunking #LangChain #embedding models
https://dasroot.net/posts/2026/02/chunking-strategies-rag-performance/
-
Learn how chunking strategies impact RAG performance in 2026, including fixed-size, semantic, and hybrid approaches. Discover optimization techniques for use cases like medical research and legal analysis using tools like LangChain and embedding models.
#RAG #chunking #semantic chunking #LangChain #embedding models
https://dasroot.net/posts/2026/02/chunking-strategies-rag-performance/
-
🧠 New preprint by Zhong et al. proposes a #synaptic mechanism for #chunking in #WorkingMemory.
Using short-term #plasticity and synaptic augmentation, their model shows how items can be temporarily suppressed and later retrieved as chunks, increasing effective capacity w/o increasing simultaneous activity.
-
🧠 New preprint by Zhong et al. proposes a #synaptic mechanism for #chunking in #WorkingMemory.
Using short-term #plasticity and synaptic augmentation, their model shows how items can be temporarily suppressed and later retrieved as chunks, increasing effective capacity w/o increasing simultaneous activity.
-
🧠 New preprint by Zhong et al. proposes a #synaptic mechanism for #chunking in #WorkingMemory.
Using short-term #plasticity and synaptic augmentation, their model shows how items can be temporarily suppressed and later retrieved as chunks, increasing effective capacity w/o increasing simultaneous activity.
-
🧠 New preprint by Zhong et al. proposes a #synaptic mechanism for #chunking in #WorkingMemory.
Using short-term #plasticity and synaptic augmentation, their model shows how items can be temporarily suppressed and later retrieved as chunks, increasing effective capacity w/o increasing simultaneous activity.
-
🧠 New preprint by Zhong et al. proposes a #synaptic mechanism for #chunking in #WorkingMemory.
Using short-term #plasticity and synaptic augmentation, their model shows how items can be temporarily suppressed and later retrieved as chunks, increasing effective capacity w/o increasing simultaneous activity.
-
Архитектура высоконагруженных RAG-систем: 10 стратегий оптимизации чанкинга и интеграция с Weaviate, Qwen / Llama /Gemma
Привет, Хабр! Это Андрей Носов, AI-архитектор в компании Raft, проектирую и внедряю высоконагруженные RAG-системы на предприятиях. Сегодня я расскажу о вызовах, которые мы преодолеваем каждый день, создавая такие системы, и сделаю акцент на чанкинге. Обозначим направления, в которых мы будем работать. Сегодня поговорим только о двух возможностях применения больших языковых моделей — это MedTech и LegalTech. Они наиболее востребованные на рынке в текущий момент в плане систем поиска. Такой выбор направлений связан с глобальным трендом на работу с профессиональными знаниями, о котором говорят Gartner и OpenAI.
https://habr.com/ru/companies/oleg-bunin/articles/967102/
#rag #chunking #llm #genai #архитектура #чанкинг #highload #highload++
-
Архитектура высоконагруженных RAG-систем: 10 стратегий оптимизации чанкинга и интеграция с Weaviate, Qwen / Llama /Gemma
Привет, Хабр! Это Андрей Носов, AI-архитектор в компании Raft, проектирую и внедряю высоконагруженные RAG-системы на предприятиях. Сегодня я расскажу о вызовах, которые мы преодолеваем каждый день, создавая такие системы, и сделаю акцент на чанкинге. Обозначим направления, в которых мы будем работать. Сегодня поговорим только о двух возможностях применения больших языковых моделей — это MedTech и LegalTech. Они наиболее востребованные на рынке в текущий момент в плане систем поиска. Такой выбор направлений связан с глобальным трендом на работу с профессиональными знаниями, о котором говорят Gartner и OpenAI.
https://habr.com/ru/companies/oleg-bunin/articles/967102/
#rag #chunking #llm #genai #архитектура #чанкинг #highload #highload++
-
Архитектура высоконагруженных RAG-систем: 10 стратегий оптимизации чанкинга и интеграция с Weaviate, Qwen / Llama /Gemma
Привет, Хабр! Это Андрей Носов, AI-архитектор в компании Raft, проектирую и внедряю высоконагруженные RAG-системы на предприятиях. Сегодня я расскажу о вызовах, которые мы преодолеваем каждый день, создавая такие системы, и сделаю акцент на чанкинге. Обозначим направления, в которых мы будем работать. Сегодня поговорим только о двух возможностях применения больших языковых моделей — это MedTech и LegalTech. Они наиболее востребованные на рынке в текущий момент в плане систем поиска. Такой выбор направлений связан с глобальным трендом на работу с профессиональными знаниями, о котором говорят Gartner и OpenAI.
https://habr.com/ru/companies/oleg-bunin/articles/967102/
#rag #chunking #llm #genai #архитектура #чанкинг #highload #highload++
-
Архитектура высоконагруженных RAG-систем: 10 стратегий оптимизации чанкинга и интеграция с Weaviate, Qwen / Llama /Gemma
Привет, Хабр! Это Андрей Носов, AI-архитектор в компании Raft, проектирую и внедряю высоконагруженные RAG-системы на предприятиях. Сегодня я расскажу о вызовах, которые мы преодолеваем каждый день, создавая такие системы, и сделаю акцент на чанкинге. Обозначим направления, в которых мы будем работать. Сегодня поговорим только о двух возможностях применения больших языковых моделей — это MedTech и LegalTech. Они наиболее востребованные на рынке в текущий момент в плане систем поиска. Такой выбор направлений связан с глобальным трендом на работу с профессиональными знаниями, о котором говорят Gartner и OpenAI.
https://habr.com/ru/companies/oleg-bunin/articles/967102/
#rag #chunking #llm #genai #архитектура #чанкинг #highload #highload++
-
🤖 Oh joy, yet another #AI model that promises to chunk #text across languages, because apparently, understanding words needed a chonkier approach. 🙄 #Hugging #Face proudly presents a delightfully complex name, ideal for confusing your cat and impressing no one at dinner parties. 🌍 Expect world peace and better #machine #translation any day now! 🎉
https://huggingface.co/mirth/chonky_mmbert_small_multilingual_1 #Chunking #Language #Models #HackerNews #ngated -
🤖 Oh joy, yet another #AI model that promises to chunk #text across languages, because apparently, understanding words needed a chonkier approach. 🙄 #Hugging #Face proudly presents a delightfully complex name, ideal for confusing your cat and impressing no one at dinner parties. 🌍 Expect world peace and better #machine #translation any day now! 🎉
https://huggingface.co/mirth/chonky_mmbert_small_multilingual_1 #Chunking #Language #Models #HackerNews #ngated -
🤖 Oh joy, yet another #AI model that promises to chunk #text across languages, because apparently, understanding words needed a chonkier approach. 🙄 #Hugging #Face proudly presents a delightfully complex name, ideal for confusing your cat and impressing no one at dinner parties. 🌍 Expect world peace and better #machine #translation any day now! 🎉
https://huggingface.co/mirth/chonky_mmbert_small_multilingual_1 #Chunking #Language #Models #HackerNews #ngated -
🤖 Oh joy, yet another #AI model that promises to chunk #text across languages, because apparently, understanding words needed a chonkier approach. 🙄 #Hugging #Face proudly presents a delightfully complex name, ideal for confusing your cat and impressing no one at dinner parties. 🌍 Expect world peace and better #machine #translation any day now! 🎉
https://huggingface.co/mirth/chonky_mmbert_small_multilingual_1 #Chunking #Language #Models #HackerNews #ngated -
Chonky – a neural text semantic chunking goes multilingual
https://huggingface.co/mirth/chonky_mmbert_small_multilingual_1
#HackerNews #Chonky #Neural #Text #Multilingual #Chunking #AI
-
Chonky – a neural text semantic chunking goes multilingual
https://huggingface.co/mirth/chonky_mmbert_small_multilingual_1
#HackerNews #Chonky #Neural #Text #Multilingual #Chunking #AI
-
Chonky – a neural text semantic chunking goes multilingual
https://huggingface.co/mirth/chonky_mmbert_small_multilingual_1
#HackerNews #Chonky #Neural #Text #Multilingual #Chunking #AI
-
Chonky – a neural text semantic chunking goes multilingual
https://huggingface.co/mirth/chonky_mmbert_small_multilingual_1
#HackerNews #Chonky #Neural #Text #Multilingual #Chunking #AI
-
Chonky – a neural text semantic chunking goes multilingual
https://huggingface.co/mirth/chonky_mmbert_small_multilingual_1
#HackerNews #Chonky #Neural #Text #Multilingual #Chunking #AI
-
Chonkie: революция в RAG-чанкинге — скорость, лёгкость, удобство
В эпоху, когда большие языковые модели (LLM) становятся всё более мощными и применяются во многих задачах, одна из ключевых проблем остаётся прежней — как эффективно снабжать их релевантным контекстом. Одним из популярных решений является подход RAG, где качество итогового ответа зависит от целого ряда факторов, одним из которых является качественное чанкирование исходных текстов. Сегодня мы рассмотрим одно из новых и интересных решений. Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft. В этой статье я расскажу о Chonkie — библиотеке для простого и быстрого чанкирования документов, а также на практике применю её и сравню с другими популярными решениями: LangChain и LlamaIndex .
https://habr.com/ru/companies/raft/articles/954158/
#rag #chunking #ai #поиск #чанкинг #векторные_базы_данных #библиотека #llm_память
-
Chonkie: революция в RAG-чанкинге — скорость, лёгкость, удобство
В эпоху, когда большие языковые модели (LLM) становятся всё более мощными и применяются во многих задачах, одна из ключевых проблем остаётся прежней — как эффективно снабжать их релевантным контекстом. Одним из популярных решений является подход RAG, где качество итогового ответа зависит от целого ряда факторов, одним из которых является качественное чанкирование исходных текстов. Сегодня мы рассмотрим одно из новых и интересных решений. Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft. В этой статье я расскажу о Chonkie — библиотеке для простого и быстрого чанкирования документов, а также на практике применю её и сравню с другими популярными решениями: LangChain и LlamaIndex .
https://habr.com/ru/companies/raft/articles/954158/
#rag #chunking #ai #поиск #чанкинг #векторные_базы_данных #библиотека #llm_память
-
Chonkie: революция в RAG-чанкинге — скорость, лёгкость, удобство
В эпоху, когда большие языковые модели (LLM) становятся всё более мощными и применяются во многих задачах, одна из ключевых проблем остаётся прежней — как эффективно снабжать их релевантным контекстом. Одним из популярных решений является подход RAG, где качество итогового ответа зависит от целого ряда факторов, одним из которых является качественное чанкирование исходных текстов. Сегодня мы рассмотрим одно из новых и интересных решений. Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft. В этой статье я расскажу о Chonkie — библиотеке для простого и быстрого чанкирования документов, а также на практике применю её и сравню с другими популярными решениями: LangChain и LlamaIndex .
https://habr.com/ru/companies/raft/articles/954158/
#rag #chunking #ai #поиск #чанкинг #векторные_базы_данных #библиотека #llm_память
-
Chonkie: революция в RAG-чанкинге — скорость, лёгкость, удобство
В эпоху, когда большие языковые модели (LLM) становятся всё более мощными и применяются во многих задачах, одна из ключевых проблем остаётся прежней — как эффективно снабжать их релевантным контекстом. Одним из популярных решений является подход RAG, где качество итогового ответа зависит от целого ряда факторов, одним из которых является качественное чанкирование исходных текстов. Сегодня мы рассмотрим одно из новых и интересных решений. Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft. В этой статье я расскажу о Chonkie — библиотеке для простого и быстрого чанкирования документов, а также на практике применю её и сравню с другими популярными решениями: LangChain и LlamaIndex .
https://habr.com/ru/companies/raft/articles/954158/
#rag #chunking #ai #поиск #чанкинг #векторные_базы_данных #библиотека #llm_память
-
От задачи до решения: LLM с RAG-конфигурацией и ROC-AUC. Эксперимент на 121 прогоне за 40 часов с помощью ИИ
Меня зовут Антон, сейчас занимаюсь прикладными проектами индекса цифровой зрелости БРИКС. Пробую за счет инструментов ИИ собирать каскады моделей ИИ для выявления неочевидных зависимостей в разных экономических и культурных процессах на основе данных извлекаемых из открытых источников. В рамках эксперимента я поставил себе задачу применить ИИ в прикладной задаче, при этом использовать только доступные всем инструменты и понятные нарративы. Одним словом, решил примерить на себя роль «Сделай там что-то с ИИ-шечкой, только быстро!» Рассказываю, что из этого поучилось (ссылки на рабочие блокноты, промпты и скриншоты прилагаются).
https://habr.com/ru/companies/mipt_digital/articles/914930/
#llm #rag #f1_score #rocauc #google_colab #openrouter #Groq_api #chunking #DeepSeek #perplexity
-
От задачи до решения: LLM с RAG-конфигурацией и ROC-AUC. Эксперимент на 121 прогоне за 40 часов с помощью ИИ
Меня зовут Антон, сейчас занимаюсь прикладными проектами индекса цифровой зрелости БРИКС. Пробую за счет инструментов ИИ собирать каскады моделей ИИ для выявления неочевидных зависимостей в разных экономических и культурных процессах на основе данных извлекаемых из открытых источников. В рамках эксперимента я поставил себе задачу применить ИИ в прикладной задаче, при этом использовать только доступные всем инструменты и понятные нарративы. Одним словом, решил примерить на себя роль «Сделай там что-то с ИИ-шечкой, только быстро!» Рассказываю, что из этого поучилось (ссылки на рабочие блокноты, промпты и скриншоты прилагаются).
https://habr.com/ru/companies/mipt_digital/articles/914930/
#llm #rag #f1_score #rocauc #google_colab #openrouter #Groq_api #chunking #DeepSeek #perplexity
-
От задачи до решения: LLM с RAG-конфигурацией и ROC-AUC. Эксперимент на 121 прогоне за 40 часов с помощью ИИ
Меня зовут Антон, сейчас занимаюсь прикладными проектами индекса цифровой зрелости БРИКС. Пробую за счет инструментов ИИ собирать каскады моделей ИИ для выявления неочевидных зависимостей в разных экономических и культурных процессах на основе данных извлекаемых из открытых источников. В рамках эксперимента я поставил себе задачу применить ИИ в прикладной задаче, при этом использовать только доступные всем инструменты и понятные нарративы. Одним словом, решил примерить на себя роль «Сделай там что-то с ИИ-шечкой, только быстро!» Рассказываю, что из этого поучилось (ссылки на рабочие блокноты, промпты и скриншоты прилагаются).
https://habr.com/ru/companies/mipt_digital/articles/914930/
#llm #rag #f1_score #rocauc #google_colab #openrouter #Groq_api #chunking #DeepSeek #perplexity
-
От задачи до решения: LLM с RAG-конфигурацией и ROC-AUC. Эксперимент на 121 прогоне за 40 часов с помощью ИИ
Меня зовут Антон, сейчас занимаюсь прикладными проектами индекса цифровой зрелости БРИКС. Пробую за счет инструментов ИИ собирать каскады моделей ИИ для выявления неочевидных зависимостей в разных экономических и культурных процессах на основе данных извлекаемых из открытых источников. В рамках эксперимента я поставил себе задачу применить ИИ в прикладной задаче, при этом использовать только доступные всем инструменты и понятные нарративы. Одним словом, решил примерить на себя роль «Сделай там что-то с ИИ-шечкой, только быстро!» Рассказываю, что из этого поучилось (ссылки на рабочие блокноты, промпты и скриншоты прилагаются).
https://habr.com/ru/companies/mipt_digital/articles/914930/
#llm #rag #f1_score #rocauc #google_colab #openrouter #Groq_api #chunking #DeepSeek #perplexity
-
Chonky – a neural approach for text semantic chunking
https://github.com/mirth/chonky
#HackerNews #Chonky #Neural #Text #Chunking #Semantic #AI #MachineLearning
-
💡 HOW TO: Use embeddings and visualization tools to split text into meaningful chunks. Robert Martin-Short shows you how.
https://towardsdatascience.com/a-visual-exploration-of-semantic-text-chunking-6bb46f728e30
-
I can’t believe it took me this long to discover this wonderful app.
For myself and many of my students who are #ActuallyAutistic #AuDHD this is a god send.
Yes it is AI so it is not perfect, e.g. the estimator function.
Wonderful #universal tool for #chunking especially for teachers/educators with little experience in this.
#GoblinTools #Education #iTeachSTEM #InclusiveEducation #LearningDifficulties
-
I can’t believe it took me this long to discover this wonderful app.
For myself and many of my students who are #ActuallyAutistic #AuDHD this is a god send.
Yes it is AI so it is not perfect, e.g. the estimator function.
Wonderful #universal tool for #chunking especially for teachers/educators with little experience in this.
#GoblinTools #Education #iTeachSTEM #InclusiveEducation #LearningDifficulties
-
I can’t believe it took me this long to discover this wonderful app.
For myself and many of my students who are #ActuallyAutistic #AuDHD this is a god send.
Yes it is AI so it is not perfect, e.g. the estimator function.
Wonderful #universal tool for #chunking especially for teachers/educators with little experience in this.
#GoblinTools #Education #iTeachSTEM #InclusiveEducation #LearningDifficulties
-
I can’t believe it took me this long to discover this wonderful app.
For myself and many of my students who are #ActuallyAutistic #AuDHD this is a god send.
Yes it is AI so it is not perfect, e.g. the estimator function.
Wonderful #universal tool for #chunking especially for teachers/educators with little experience in this.
#GoblinTools #Education #iTeachSTEM #InclusiveEducation #LearningDifficulties
-
AI interview: Chunk wisely to avoid RAG hell
DataStax's Ed Anuff on the finer points of AI app development (free reg)
https://www.computing.co.uk/interview/4185895/ai-interview-chunk-wisely-avoid-rag-hell
-
Had a great time visiting @will_ngiam and the Awh / Vogel lab in Chicago this week, discussing about #chunking and #pointers in #workingmemory. #chunking is such a well known effect in cognitive psychology, but it's underlying mechanisms are still puzzling...
Thanks to @will_ngiam for making it possible, it's a very impressive lab with very nice people!