#чанкинг — Public Fediverse posts on home.social

Habr @[email protected] · 2026-04-28 · 14:22 UTC

Как я написал лучшее приложение для изучения иностранных языков с помощью SFSpeechRecognizer (нет)

Вообще‑то, я бэкендер последние лет 20, но недавно остался без работы (и AI тут не причём), решил «замутить» свой «стартап», пока ищу новую работу Java‑программиста. А заодно подтянуть новые технологии, поглубже изучить немецкий и английский и немного развеяться… Писать приложения под iOS было моим хобби последние лет 10, и пару моих приложений до сих пор постоянно висят в топе в Российском AppStore, но это были всё «игрушки», а захотелось сделать что‑то взаправду стоящее, и так возникла идея написать лучшее (ни больше ни меньше) приложение для изучения языков с помощью аудирования. Точнее, товарищ подсказал идею. А ещё точнее — идея давно была реализована под Андроид, но аналогов под iOS нет, а очень хотелось. И мне, и товарищу:). Да и смартфона с андроидом у меня нет и никогда не было, не судите строго, но не люблю я вирусы и глюки. Идея следующая: берёте любое аудио на любом нужном вам языке, загружаете в приложение, и оно автоматически (можно так же вручную) разбивает аудиофайл на нужные вам сегменты для «шэдоуинга», аудирования, многократного прослушивания и тому подобного. Аналогов в сторе я не нашёл, точнее, что‑то отдалённо похожее там есть, но без своих настроек, без выбора своего контента для изучения, без красивой визуализации аудио, короче, без всего того, что нам бы хотелось иметь. Итак, идея есть, какие технологии использовать? В старых моих приложениях был UIKit, Realm/CoreData, и, сториборды. Не судите строго, я как бэкэндер тогда не знал, что использование сторибордов среди «трушных» айосников считается плохим тоном и плохой приметой. Но теперь‑то я решил использовать современные технологии! И выбрал такой стэк: SwiftUI, SwiftData, Speech Framework. Что касается последнего, то он вроде бы доступен ещё с iOS 10, но я решил, что технологии развиваются, и распознавание текста из аудио должно было бы сделать со времени iOS 10 огромный рывок вперёд. Но теперь я не так сильно в этом уверен, и об этом эта моя маленькая статья…

https://habr.com/ru/articles/1029188/

#SFSpeechRecognizer #распознавание_речи #аудирование #изучение_языков #iOSразработка #SwiftUI #субтитры #сегментация_аудио #чанкинг #Speech_Framework

#speech_framework #чанкинг #сегментация_аудио #субтитры #swiftui #iosразработка

Habr @[email protected] · 2026-04-28 · 14:22 UTC

Как я написал лучшее приложение для изучения иностранных языков с помощью SFSpeechRecognizer (нет)

Вообще‑то, я бэкендер последние лет 20, но недавно остался без работы (и AI тут не причём), решил «замутить» свой «стартап», пока ищу новую работу Java‑программиста. А заодно подтянуть новые технологии, поглубже изучить немецкий и английский и немного развеяться… Писать приложения под iOS было моим хобби последние лет 10, и пару моих приложений до сих пор постоянно висят в топе в Российском AppStore, но это были всё «игрушки», а захотелось сделать что‑то взаправду стоящее, и так возникла идея написать лучшее (ни больше ни меньше) приложение для изучения языков с помощью аудирования. Точнее, товарищ подсказал идею. А ещё точнее — идея давно была реализована под Андроид, но аналогов под iOS нет, а очень хотелось. И мне, и товарищу:). Да и смартфона с андроидом у меня нет и никогда не было, не судите строго, но не люблю я вирусы и глюки. Идея следующая: берёте любое аудио на любом нужном вам языке, загружаете в приложение, и оно автоматически (можно так же вручную) разбивает аудиофайл на нужные вам сегменты для «шэдоуинга», аудирования, многократного прослушивания и тому подобного. Аналогов в сторе я не нашёл, точнее, что‑то отдалённо похожее там есть, но без своих настроек, без выбора своего контента для изучения, без красивой визуализации аудио, короче, без всего того, что нам бы хотелось иметь. Итак, идея есть, какие технологии использовать? В старых моих приложениях был UIKit, Realm/CoreData, и, сториборды. Не судите строго, я как бэкэндер тогда не знал, что использование сторибордов среди «трушных» айосников считается плохим тоном и плохой приметой. Но теперь‑то я решил использовать современные технологии! И выбрал такой стэк: SwiftUI, SwiftData, Speech Framework. Что касается последнего, то он вроде бы доступен ещё с iOS 10, но я решил, что технологии развиваются, и распознавание текста из аудио должно было бы сделать со времени iOS 10 огромный рывок вперёд. Но теперь я не так сильно в этом уверен, и об этом эта моя маленькая статья…

https://habr.com/ru/articles/1029188/

#SFSpeechRecognizer #распознавание_речи #аудирование #изучение_языков #iOSразработка #SwiftUI #субтитры #сегментация_аудио #чанкинг #Speech_Framework

#speech_framework #чанкинг #сегментация_аудио #субтитры #swiftui #iosразработка

Habr @[email protected] · 2026-04-28 · 14:22 UTC

Как я написал лучшее приложение для изучения иностранных языков с помощью SFSpeechRecognizer (нет)

Вообще‑то, я бэкендер последние лет 20, но недавно остался без работы (и AI тут не причём), решил «замутить» свой «стартап», пока ищу новую работу Java‑программиста. А заодно подтянуть новые технологии, поглубже изучить немецкий и английский и немного развеяться… Писать приложения под iOS было моим хобби последние лет 10, и пару моих приложений до сих пор постоянно висят в топе в Российском AppStore, но это были всё «игрушки», а захотелось сделать что‑то взаправду стоящее, и так возникла идея написать лучшее (ни больше ни меньше) приложение для изучения языков с помощью аудирования. Точнее, товарищ подсказал идею. А ещё точнее — идея давно была реализована под Андроид, но аналогов под iOS нет, а очень хотелось. И мне, и товарищу:). Да и смартфона с андроидом у меня нет и никогда не было, не судите строго, но не люблю я вирусы и глюки. Идея следующая: берёте любое аудио на любом нужном вам языке, загружаете в приложение, и оно автоматически (можно так же вручную) разбивает аудиофайл на нужные вам сегменты для «шэдоуинга», аудирования, многократного прослушивания и тому подобного. Аналогов в сторе я не нашёл, точнее, что‑то отдалённо похожее там есть, но без своих настроек, без выбора своего контента для изучения, без красивой визуализации аудио, короче, без всего того, что нам бы хотелось иметь. Итак, идея есть, какие технологии использовать? В старых моих приложениях был UIKit, Realm/CoreData, и, сториборды. Не судите строго, я как бэкэндер тогда не знал, что использование сторибордов среди «трушных» айосников считается плохим тоном и плохой приметой. Но теперь‑то я решил использовать современные технологии! И выбрал такой стэк: SwiftUI, SwiftData, Speech Framework. Что касается последнего, то он вроде бы доступен ещё с iOS 10, но я решил, что технологии развиваются, и распознавание текста из аудио должно было бы сделать со времени iOS 10 огромный рывок вперёд. Но теперь я не так сильно в этом уверен, и об этом эта моя маленькая статья…

https://habr.com/ru/articles/1029188/

#SFSpeechRecognizer #распознавание_речи #аудирование #изучение_языков #iOSразработка #SwiftUI #субтитры #сегментация_аудио #чанкинг #Speech_Framework

#speech_framework #чанкинг #сегментация_аудио #субтитры #swiftui #iosразработка

Habr @[email protected] · 2026-04-28 · 14:22 UTC

Как я написал лучшее приложение для изучения иностранных языков с помощью SFSpeechRecognizer (нет)

Вообще‑то, я бэкендер последние лет 20, но недавно остался без работы (и AI тут не причём), решил «замутить» свой «стартап», пока ищу новую работу Java‑программиста. А заодно подтянуть новые технологии, поглубже изучить немецкий и английский и немного развеяться… Писать приложения под iOS было моим хобби последние лет 10, и пару моих приложений до сих пор постоянно висят в топе в Российском AppStore, но это были всё «игрушки», а захотелось сделать что‑то взаправду стоящее, и так возникла идея написать лучшее (ни больше ни меньше) приложение для изучения языков с помощью аудирования. Точнее, товарищ подсказал идею. А ещё точнее — идея давно была реализована под Андроид, но аналогов под iOS нет, а очень хотелось. И мне, и товарищу:). Да и смартфона с андроидом у меня нет и никогда не было, не судите строго, но не люблю я вирусы и глюки. Идея следующая: берёте любое аудио на любом нужном вам языке, загружаете в приложение, и оно автоматически (можно так же вручную) разбивает аудиофайл на нужные вам сегменты для «шэдоуинга», аудирования, многократного прослушивания и тому подобного. Аналогов в сторе я не нашёл, точнее, что‑то отдалённо похожее там есть, но без своих настроек, без выбора своего контента для изучения, без красивой визуализации аудио, короче, без всего того, что нам бы хотелось иметь. Итак, идея есть, какие технологии использовать? В старых моих приложениях был UIKit, Realm/CoreData, и, сториборды. Не судите строго, я как бэкэндер тогда не знал, что использование сторибордов среди «трушных» айосников считается плохим тоном и плохой приметой. Но теперь‑то я решил использовать современные технологии! И выбрал такой стэк: SwiftUI, SwiftData, Speech Framework. Что касается последнего, то он вроде бы доступен ещё с iOS 10, но я решил, что технологии развиваются, и распознавание текста из аудио должно было бы сделать со времени iOS 10 огромный рывок вперёд. Но теперь я не так сильно в этом уверен, и об этом эта моя маленькая статья…

https://habr.com/ru/articles/1029188/

#SFSpeechRecognizer #распознавание_речи #аудирование #изучение_языков #iOSразработка #SwiftUI #субтитры #сегментация_аудио #чанкинг #Speech_Framework

#sfspeechrecognizer #распознавание_речи #аудирование #изучение_языков #iosразработка #swiftui

Habr @[email protected] · 2026-03-24 · 19:52 UTC

Agentic RAG Challenge. Я знаю что вы искали прошлым летом…

В данной статье хотел бы поделиться опытом участия в хакатоне Agentic Legal RAG Challenge 2026 . Наша команда называется "Sparks of intelligence".

https://habr.com/ru/articles/1014520/

#rag #qdrant #llamaindex #ии_агент #векторный_поиск #чанкинг #гибридный_поиск #векторная_база_данных #хакатон

#хакатон #векторная_база_данных #гибридный_поиск #чанкинг #векторный_поиск #ии_агент

Habr @[email protected] · 2026-03-24 · 19:52 UTC

Agentic RAG Challenge. Я знаю что вы искали прошлым летом…

В данной статье хотел бы поделиться опытом участия в хакатоне Agentic Legal RAG Challenge 2026 . Наша команда называется "Sparks of intelligence".

https://habr.com/ru/articles/1014520/

#rag #qdrant #llamaindex #ии_агент #векторный_поиск #чанкинг #гибридный_поиск #векторная_база_данных #хакатон

#хакатон #векторная_база_данных #гибридный_поиск #чанкинг #векторный_поиск #ии_агент

Habr @[email protected] · 2026-03-24 · 19:52 UTC

Agentic RAG Challenge. Я знаю что вы искали прошлым летом…

В данной статье хотел бы поделиться опытом участия в хакатоне Agentic Legal RAG Challenge 2026 . Наша команда называется "Sparks of intelligence".

https://habr.com/ru/articles/1014520/

#rag #qdrant #llamaindex #ии_агент #векторный_поиск #чанкинг #гибридный_поиск #векторная_база_данных #хакатон

#хакатон #векторная_база_данных #гибридный_поиск #чанкинг #векторный_поиск #ии_агент

Habr @[email protected] · 2026-03-24 · 19:52 UTC

Agentic RAG Challenge. Я знаю что вы искали прошлым летом…

В данной статье хотел бы поделиться опытом участия в хакатоне Agentic Legal RAG Challenge 2026 . Наша команда называется "Sparks of intelligence".

https://habr.com/ru/articles/1014520/

#rag #qdrant #llamaindex #ии_агент #векторный_поиск #чанкинг #гибридный_поиск #векторная_база_данных #хакатон

#rag #qdrant #llamaindex #ии_агент #векторный_поиск #чанкинг

Habr @[email protected] · 2026-03-23 · 09:02 UTC

AI без Python: как исправить документацию и внедрить RAG в JVM-стеке

Даже для опытных пользователей системы (продукт-оунеры, техлиды, CTO, руководители уровня B-1, сотрудники кост-менеджмента) это не всегда просто, тем более для новых. Значительная часть времени уходит не на работу в системе, а на поиск информации в разрозненных источниках: Excel-таблицы, письма, локальные заметки или уточнение деталей у коллег. Отсюда и появилась идея AI-ассистента как удобного способа получать ответы в одном месте, обычным человеческим языком. Python почти стандарт для AI-проектов, но мы, как и большинство продуктовых команд в банке, используем JVM-стек: Kotlin, Java, Spring Boot. Поэтому осознанно выбрали развивать AI-ассистента в уже знакомом стеке. Это не просто техническое предпочтение. Мы хотели сохранить поддержку и масштабируемость внутри команды и не привлекать новые компетенции, которых у нас пока нет. Наш опыт может быть полезен командам, которые работают в JVM-среде и хотят внедрить AI без перехода на другой стек.

https://habr.com/ru/companies/raiffeisenbank/articles/1012666/

#ai #kotlin #spring_ai #rag #backend #LLM #JVM #pgVector #langchain4j #чанкинг

#чанкинг #langchain4j #pgvector #jvm #llm #backend

Habr @[email protected] · 2026-03-23 · 09:02 UTC

AI без Python: как исправить документацию и внедрить RAG в JVM-стеке

Даже для опытных пользователей системы (продукт-оунеры, техлиды, CTO, руководители уровня B-1, сотрудники кост-менеджмента) это не всегда просто, тем более для новых. Значительная часть времени уходит не на работу в системе, а на поиск информации в разрозненных источниках: Excel-таблицы, письма, локальные заметки или уточнение деталей у коллег. Отсюда и появилась идея AI-ассистента как удобного способа получать ответы в одном месте, обычным человеческим языком. Python почти стандарт для AI-проектов, но мы, как и большинство продуктовых команд в банке, используем JVM-стек: Kotlin, Java, Spring Boot. Поэтому осознанно выбрали развивать AI-ассистента в уже знакомом стеке. Это не просто техническое предпочтение. Мы хотели сохранить поддержку и масштабируемость внутри команды и не привлекать новые компетенции, которых у нас пока нет. Наш опыт может быть полезен командам, которые работают в JVM-среде и хотят внедрить AI без перехода на другой стек.

https://habr.com/ru/companies/raiffeisenbank/articles/1012666/

#ai #kotlin #spring_ai #rag #backend #LLM #JVM #pgVector #langchain4j #чанкинг

#чанкинг #langchain4j #pgvector #jvm #llm #backend

Habr @[email protected] · 2026-03-23 · 09:02 UTC

AI без Python: как исправить документацию и внедрить RAG в JVM-стеке

Даже для опытных пользователей системы (продукт-оунеры, техлиды, CTO, руководители уровня B-1, сотрудники кост-менеджмента) это не всегда просто, тем более для новых. Значительная часть времени уходит не на работу в системе, а на поиск информации в разрозненных источниках: Excel-таблицы, письма, локальные заметки или уточнение деталей у коллег. Отсюда и появилась идея AI-ассистента как удобного способа получать ответы в одном месте, обычным человеческим языком. Python почти стандарт для AI-проектов, но мы, как и большинство продуктовых команд в банке, используем JVM-стек: Kotlin, Java, Spring Boot. Поэтому осознанно выбрали развивать AI-ассистента в уже знакомом стеке. Это не просто техническое предпочтение. Мы хотели сохранить поддержку и масштабируемость внутри команды и не привлекать новые компетенции, которых у нас пока нет. Наш опыт может быть полезен командам, которые работают в JVM-среде и хотят внедрить AI без перехода на другой стек.

https://habr.com/ru/companies/raiffeisenbank/articles/1012666/

#ai #kotlin #spring_ai #rag #backend #LLM #JVM #pgVector #langchain4j #чанкинг

#чанкинг #langchain4j #pgvector #jvm #llm #backend

Habr @[email protected] · 2026-03-23 · 09:02 UTC

AI без Python: как исправить документацию и внедрить RAG в JVM-стеке

Даже для опытных пользователей системы (продукт-оунеры, техлиды, CTO, руководители уровня B-1, сотрудники кост-менеджмента) это не всегда просто, тем более для новых. Значительная часть времени уходит не на работу в системе, а на поиск информации в разрозненных источниках: Excel-таблицы, письма, локальные заметки или уточнение деталей у коллег. Отсюда и появилась идея AI-ассистента как удобного способа получать ответы в одном месте, обычным человеческим языком. Python почти стандарт для AI-проектов, но мы, как и большинство продуктовых команд в банке, используем JVM-стек: Kotlin, Java, Spring Boot. Поэтому осознанно выбрали развивать AI-ассистента в уже знакомом стеке. Это не просто техническое предпочтение. Мы хотели сохранить поддержку и масштабируемость внутри команды и не привлекать новые компетенции, которых у нас пока нет. Наш опыт может быть полезен командам, которые работают в JVM-среде и хотят внедрить AI без перехода на другой стек.

https://habr.com/ru/companies/raiffeisenbank/articles/1012666/

#ai #kotlin #spring_ai #rag #backend #LLM #JVM #pgVector #langchain4j #чанкинг

#ai #kotlin #spring_ai #rag #backend #llm

Habr @[email protected] · 2026-03-18 · 09:02 UTC

RAG без седых волос (или с?)

Привет! Мы разработчики платформы AlfaGen — команда Умного поиска AdvancedRAG. Это внутренняя GenAI‑инфраструктура банка и продукты на её базе. В статье расскажем, как мы сделали Advanced RAG, чем он отличается от обычного Умного поиска — RAG. А ещё зачем вообще компаниям и пользователям такие продукты, и как вы можете сделать такой проект с меньшим числом седых волос.

https://habr.com/ru/companies/alfa/articles/1009016/

#advanced_rag #ролевая_модель #разграничение_прав_доступа #умный_поиск #ииинфраструктура #шардирование #чанкинг #hyde #промпты #реранкинг

#реранкинг #промпты #hyde #чанкинг #шардирование #ииинфраструктура

Habr @[email protected] · 2026-03-18 · 09:02 UTC

RAG без седых волос (или с?)

Привет! Мы разработчики платформы AlfaGen — команда Умного поиска AdvancedRAG. Это внутренняя GenAI‑инфраструктура банка и продукты на её базе. В статье расскажем, как мы сделали Advanced RAG, чем он отличается от обычного Умного поиска — RAG. А ещё зачем вообще компаниям и пользователям такие продукты, и как вы можете сделать такой проект с меньшим числом седых волос.

https://habr.com/ru/companies/alfa/articles/1009016/

#advanced_rag #ролевая_модель #разграничение_прав_доступа #умный_поиск #ииинфраструктура #шардирование #чанкинг #hyde #промпты #реранкинг

#реранкинг #промпты #hyde #чанкинг #шардирование #ииинфраструктура

Habr @[email protected] · 2026-03-18 · 09:02 UTC

RAG без седых волос (или с?)

Привет! Мы разработчики платформы AlfaGen — команда Умного поиска AdvancedRAG. Это внутренняя GenAI‑инфраструктура банка и продукты на её базе. В статье расскажем, как мы сделали Advanced RAG, чем он отличается от обычного Умного поиска — RAG. А ещё зачем вообще компаниям и пользователям такие продукты, и как вы можете сделать такой проект с меньшим числом седых волос.

https://habr.com/ru/companies/alfa/articles/1009016/

#advanced_rag #ролевая_модель #разграничение_прав_доступа #умный_поиск #ииинфраструктура #шардирование #чанкинг #hyde #промпты #реранкинг

#реранкинг #промпты #hyde #чанкинг #шардирование #ииинфраструктура

Habr @[email protected] · 2026-03-18 · 09:02 UTC

RAG без седых волос (или с?)

Привет! Мы разработчики платформы AlfaGen — команда Умного поиска AdvancedRAG. Это внутренняя GenAI‑инфраструктура банка и продукты на её базе. В статье расскажем, как мы сделали Advanced RAG, чем он отличается от обычного Умного поиска — RAG. А ещё зачем вообще компаниям и пользователям такие продукты, и как вы можете сделать такой проект с меньшим числом седых волос.

https://habr.com/ru/companies/alfa/articles/1009016/

#advanced_rag #ролевая_модель #разграничение_прав_доступа #умный_поиск #ииинфраструктура #шардирование #чанкинг #hyde #промпты #реранкинг

#advanced_rag #ролевая_модель #разграничение_прав_доступа #умный_поиск #ииинфраструктура #шардирование

Habr @[email protected] · 2026-02-10 · 09:22 UTC

Как мы автоматизировали чанкование для RAG в Gramax: от прототипа до 95%+ точности

Недавно на Хабре вышла статья про создание RAG-системы для строительных ГОСТов. Команда Цифрового стандарта проделала титаническую работу — полгода вручную разбивали документы на смысловые чанки. Респект за настойчивость и результат. Их история вдохновила поделиться собственным опытом. Мы тоже столкнулись с проблемой чанкования для умного поиска по базе знаний. Тоже прошли через RAG, векторные базы и поиски оптимального решения. Но пошли по пути полной автоматизации. Всем привет, меня зовут Дима, я делаю ИИ-функции в

https://habr.com/ru/companies/gram_ax/articles/994782/

#rag #aiагенты #база_знаний_поиск #ииассистент #чанкинг #поисковые_технологии #knowledge_base #knowledge_management

#knowledge_management #knowledge_base #поисковые_технологии #чанкинг #ииассистент #база_знаний_поиск

Habr @[email protected] · 2026-02-10 · 09:22 UTC

Как мы автоматизировали чанкование для RAG в Gramax: от прототипа до 95%+ точности

Недавно на Хабре вышла статья про создание RAG-системы для строительных ГОСТов. Команда Цифрового стандарта проделала титаническую работу — полгода вручную разбивали документы на смысловые чанки. Респект за настойчивость и результат. Их история вдохновила поделиться собственным опытом. Мы тоже столкнулись с проблемой чанкования для умного поиска по базе знаний. Тоже прошли через RAG, векторные базы и поиски оптимального решения. Но пошли по пути полной автоматизации. Всем привет, меня зовут Дима, я делаю ИИ-функции в

https://habr.com/ru/companies/gram_ax/articles/994782/

#rag #aiагенты #база_знаний_поиск #ииассистент #чанкинг #поисковые_технологии #knowledge_base #knowledge_management

#knowledge_management #knowledge_base #поисковые_технологии #чанкинг #ииассистент #база_знаний_поиск

Habr @[email protected] · 2026-02-10 · 09:22 UTC

Как мы автоматизировали чанкование для RAG в Gramax: от прототипа до 95%+ точности

Недавно на Хабре вышла статья про создание RAG-системы для строительных ГОСТов. Команда Цифрового стандарта проделала титаническую работу — полгода вручную разбивали документы на смысловые чанки. Респект за настойчивость и результат. Их история вдохновила поделиться собственным опытом. Мы тоже столкнулись с проблемой чанкования для умного поиска по базе знаний. Тоже прошли через RAG, векторные базы и поиски оптимального решения. Но пошли по пути полной автоматизации. Всем привет, меня зовут Дима, я делаю ИИ-функции в

https://habr.com/ru/companies/gram_ax/articles/994782/

#rag #aiагенты #база_знаний_поиск #ииассистент #чанкинг #поисковые_технологии #knowledge_base #knowledge_management

#knowledge_management #knowledge_base #поисковые_технологии #чанкинг #ииассистент #база_знаний_поиск

Habr @[email protected] · 2026-02-10 · 09:22 UTC

Как мы автоматизировали чанкование для RAG в Gramax: от прототипа до 95%+ точности

Недавно на Хабре вышла статья про создание RAG-системы для строительных ГОСТов. Команда Цифрового стандарта проделала титаническую работу — полгода вручную разбивали документы на смысловые чанки. Респект за настойчивость и результат. Их история вдохновила поделиться собственным опытом. Мы тоже столкнулись с проблемой чанкования для умного поиска по базе знаний. Тоже прошли через RAG, векторные базы и поиски оптимального решения. Но пошли по пути полной автоматизации. Всем привет, меня зовут Дима, я делаю ИИ-функции в

https://habr.com/ru/companies/gram_ax/articles/994782/

#rag #aiагенты #база_знаний_поиск #ииассистент #чанкинг #поисковые_технологии #knowledge_base #knowledge_management

#rag #aiагенты #база_знаний_поиск #ииассистент #чанкинг #поисковые_технологии

Habr @[email protected] · 2025-12-05 · 09:02 UTC

Архитектура высоконагруженных RAG-систем: 10 стратегий оптимизации чанкинга и интеграция с Weaviate, Qwen / Llama /Gemma

Привет, Хабр! Это Андрей Носов, AI-архитектор в компании Raft, проектирую и внедряю высоконагруженные RAG-системы на предприятиях. Сегодня я расскажу о вызовах, которые мы преодолеваем каждый день, создавая такие системы, и сделаю акцент на чанкинге. Обозначим направления, в которых мы будем работать. Сегодня поговорим только о двух возможностях применения больших языковых моделей — это MedTech и LegalTech. Они наиболее востребованные на рынке в текущий момент в плане систем поиска. Такой выбор направлений связан с глобальным трендом на работу с профессиональными знаниями, о котором говорят Gartner и OpenAI.

https://habr.com/ru/companies/oleg-bunin/articles/967102/

#rag #chunking #llm #genai #архитектура #чанкинг #highload #highload++

#rag #chunking #llm #genai #архитектура #чанкинг

Habr @[email protected] · 2025-12-05 · 09:02 UTC

Архитектура высоконагруженных RAG-систем: 10 стратегий оптимизации чанкинга и интеграция с Weaviate, Qwen / Llama /Gemma

Привет, Хабр! Это Андрей Носов, AI-архитектор в компании Raft, проектирую и внедряю высоконагруженные RAG-системы на предприятиях. Сегодня я расскажу о вызовах, которые мы преодолеваем каждый день, создавая такие системы, и сделаю акцент на чанкинге. Обозначим направления, в которых мы будем работать. Сегодня поговорим только о двух возможностях применения больших языковых моделей — это MedTech и LegalTech. Они наиболее востребованные на рынке в текущий момент в плане систем поиска. Такой выбор направлений связан с глобальным трендом на работу с профессиональными знаниями, о котором говорят Gartner и OpenAI.

https://habr.com/ru/companies/oleg-bunin/articles/967102/

#rag #chunking #llm #genai #архитектура #чанкинг #highload #highload++

#rag #chunking #llm #genai #архитектура #чанкинг

Habr @[email protected] · 2025-12-05 · 09:02 UTC

Архитектура высоконагруженных RAG-систем: 10 стратегий оптимизации чанкинга и интеграция с Weaviate, Qwen / Llama /Gemma

Привет, Хабр! Это Андрей Носов, AI-архитектор в компании Raft, проектирую и внедряю высоконагруженные RAG-системы на предприятиях. Сегодня я расскажу о вызовах, которые мы преодолеваем каждый день, создавая такие системы, и сделаю акцент на чанкинге. Обозначим направления, в которых мы будем работать. Сегодня поговорим только о двух возможностях применения больших языковых моделей — это MedTech и LegalTech. Они наиболее востребованные на рынке в текущий момент в плане систем поиска. Такой выбор направлений связан с глобальным трендом на работу с профессиональными знаниями, о котором говорят Gartner и OpenAI.

https://habr.com/ru/companies/oleg-bunin/articles/967102/

#rag #chunking #llm #genai #архитектура #чанкинг #highload #highload++

#rag #chunking #llm #genai #архитектура #чанкинг

Habr @[email protected] · 2025-12-05 · 09:02 UTC

Архитектура высоконагруженных RAG-систем: 10 стратегий оптимизации чанкинга и интеграция с Weaviate, Qwen / Llama /Gemma

Привет, Хабр! Это Андрей Носов, AI-архитектор в компании Raft, проектирую и внедряю высоконагруженные RAG-системы на предприятиях. Сегодня я расскажу о вызовах, которые мы преодолеваем каждый день, создавая такие системы, и сделаю акцент на чанкинге. Обозначим направления, в которых мы будем работать. Сегодня поговорим только о двух возможностях применения больших языковых моделей — это MedTech и LegalTech. Они наиболее востребованные на рынке в текущий момент в плане систем поиска. Такой выбор направлений связан с глобальным трендом на работу с профессиональными знаниями, о котором говорят Gartner и OpenAI.

https://habr.com/ru/companies/oleg-bunin/articles/967102/

#rag #chunking #llm #genai #архитектура #чанкинг #highload #highload++

#highload #чанкинг #архитектура #genai #llm #chunking

Habr @[email protected] · 2025-10-08 · 08:22 UTC

Chonkie: революция в RAG-чанкинге — скорость, лёгкость, удобство

В эпоху, когда большие языковые модели (LLM) становятся всё более мощными и применяются во многих задачах, одна из ключевых проблем остаётся прежней — как эффективно снабжать их релевантным контекстом. Одним из популярных решений является подход RAG, где качество итогового ответа зависит от целого ряда факторов, одним из которых является качественное чанкирование исходных текстов. Сегодня мы рассмотрим одно из новых и интересных решений. Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft. В этой статье я расскажу о Chonkie — библиотеке для простого и быстрого чанкирования документов, а также на практике применю её и сравню с другими популярными решениями: LangChain и LlamaIndex .

https://habr.com/ru/companies/raft/articles/954158/

#rag #chunking #ai #поиск #чанкинг #векторные_базы_данных #библиотека #llm_память

#llm_память #библиотека #векторные_базы_данных #чанкинг #поиск #ai

Habr @[email protected] · 2025-10-08 · 08:22 UTC

Chonkie: революция в RAG-чанкинге — скорость, лёгкость, удобство

В эпоху, когда большие языковые модели (LLM) становятся всё более мощными и применяются во многих задачах, одна из ключевых проблем остаётся прежней — как эффективно снабжать их релевантным контекстом. Одним из популярных решений является подход RAG, где качество итогового ответа зависит от целого ряда факторов, одним из которых является качественное чанкирование исходных текстов. Сегодня мы рассмотрим одно из новых и интересных решений. Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft. В этой статье я расскажу о Chonkie — библиотеке для простого и быстрого чанкирования документов, а также на практике применю её и сравню с другими популярными решениями: LangChain и LlamaIndex .

https://habr.com/ru/companies/raft/articles/954158/

#rag #chunking #ai #поиск #чанкинг #векторные_базы_данных #библиотека #llm_память

#llm_память #библиотека #векторные_базы_данных #чанкинг #поиск #ai

Habr @[email protected] · 2025-10-08 · 08:22 UTC

Chonkie: революция в RAG-чанкинге — скорость, лёгкость, удобство

В эпоху, когда большие языковые модели (LLM) становятся всё более мощными и применяются во многих задачах, одна из ключевых проблем остаётся прежней — как эффективно снабжать их релевантным контекстом. Одним из популярных решений является подход RAG, где качество итогового ответа зависит от целого ряда факторов, одним из которых является качественное чанкирование исходных текстов. Сегодня мы рассмотрим одно из новых и интересных решений. Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft. В этой статье я расскажу о Chonkie — библиотеке для простого и быстрого чанкирования документов, а также на практике применю её и сравню с другими популярными решениями: LangChain и LlamaIndex .

https://habr.com/ru/companies/raft/articles/954158/

#rag #chunking #ai #поиск #чанкинг #векторные_базы_данных #библиотека #llm_память

#llm_память #библиотека #векторные_базы_данных #чанкинг #поиск #ai

Habr @[email protected] · 2025-10-08 · 08:22 UTC

Chonkie: революция в RAG-чанкинге — скорость, лёгкость, удобство

В эпоху, когда большие языковые модели (LLM) становятся всё более мощными и применяются во многих задачах, одна из ключевых проблем остаётся прежней — как эффективно снабжать их релевантным контекстом. Одним из популярных решений является подход RAG, где качество итогового ответа зависит от целого ряда факторов, одним из которых является качественное чанкирование исходных текстов. Сегодня мы рассмотрим одно из новых и интересных решений. Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft. В этой статье я расскажу о Chonkie — библиотеке для простого и быстрого чанкирования документов, а также на практике применю её и сравню с другими популярными решениями: LangChain и LlamaIndex .

https://habr.com/ru/companies/raft/articles/954158/

#rag #chunking #ai #поиск #чанкинг #векторные_базы_данных #библиотека #llm_память

#rag #chunking #ai #поиск #чанкинг #векторные_базы_данных

Habr @[email protected] · 2024-06-24 · 07:52 UTC

Краткий гайд по общению с заказчиком

Статья содержит набор методик, основанных на исследованиях и широкой практике. Если переговоры не являются вашей основной деятельностью, то этого материала будет достаточно, чтобы поддерживать общение с клиентами, согласовывать сложные технические вопросы и получать новые заказы. Из статьи вы узнаете: • На чем основаны доверительные отношения с клиентом • Какой маркер показывает уровень зрелости отношений • Как построить разговор • Как доходчиво изложить информацию • Как добиться хорошей запоминаемости • Как использовать смысловые блоки, чтобы текст и речь влияли на принимаемые решения • Как безопасно сделать комплимент малознакомому человеку • Как приобрести навык быть приятным собеседником • Как подарки или их отсутствие влияют на отношения

https://habr.com/ru/articles/823712/

#Сэндлер #Чанкинг #переговоры_с_заказчиком

#переговоры_с_заказчиком #чанкинг #сэндлер

Habr @[email protected] · 2024-06-24 · 07:52 UTC

Краткий гайд по общению с заказчиком

Статья содержит набор методик, основанных на исследованиях и широкой практике. Если переговоры не являются вашей основной деятельностью, то этого материала будет достаточно, чтобы поддерживать общение с клиентами, согласовывать сложные технические вопросы и получать новые заказы. Из статьи вы узнаете: • На чем основаны доверительные отношения с клиентом • Какой маркер показывает уровень зрелости отношений • Как построить разговор • Как доходчиво изложить информацию • Как добиться хорошей запоминаемости • Как использовать смысловые блоки, чтобы текст и речь влияли на принимаемые решения • Как безопасно сделать комплимент малознакомому человеку • Как приобрести навык быть приятным собеседником • Как подарки или их отсутствие влияют на отношения

https://habr.com/ru/articles/823712/

#Сэндлер #Чанкинг #переговоры_с_заказчиком

#переговоры_с_заказчиком #чанкинг #сэндлер

Habr @[email protected] · 2024-06-24 · 07:52 UTC

Краткий гайд по общению с заказчиком

Статья содержит набор методик, основанных на исследованиях и широкой практике. Если переговоры не являются вашей основной деятельностью, то этого материала будет достаточно, чтобы поддерживать общение с клиентами, согласовывать сложные технические вопросы и получать новые заказы. Из статьи вы узнаете: • На чем основаны доверительные отношения с клиентом • Какой маркер показывает уровень зрелости отношений • Как построить разговор • Как доходчиво изложить информацию • Как добиться хорошей запоминаемости • Как использовать смысловые блоки, чтобы текст и речь влияли на принимаемые решения • Как безопасно сделать комплимент малознакомому человеку • Как приобрести навык быть приятным собеседником • Как подарки или их отсутствие влияют на отношения

https://habr.com/ru/articles/823712/

#Сэндлер #Чанкинг #переговоры_с_заказчиком

#сэндлер #чанкинг #переговоры_с_заказчиком