home.social

#индексирование — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #индексирование, aggregated by home.social.

  1. Факторы ранжирования Google в 2026 году

    В этой статье разберём, почему разговор о факторах ранжирования Google всё чаще заходит в тупик, если представлять их как список из title, ссылок, скорости, контента и поведенческих сигналов. Современный поиск работает сложнее. Страница проходит не один фильтр, а несколько слоёв оценки: доступность, индексирование, понимание запроса, понимание документа, качество, спам-фильтры, сниппеты, медиа, ссылки, локальный контекст и пользовательское взаимодействие.

    habr.com/ru/articles/1029838/

    #seo #seoоптимизация #seoпродвижение #seoпродвижение_сайтов #индексирование #индексирование_сайта #техническое_seo #вебразработка #поисковые_алгоритмы #контентная_стратегия

  2. Факторы ранжирования Google в 2026 году

    В этой статье разберём, почему разговор о факторах ранжирования Google всё чаще заходит в тупик, если представлять их как список из title, ссылок, скорости, контента и поведенческих сигналов. Современный поиск работает сложнее. Страница проходит не один фильтр, а несколько слоёв оценки: доступность, индексирование, понимание запроса, понимание документа, качество, спам-фильтры, сниппеты, медиа, ссылки, локальный контекст и пользовательское взаимодействие.

    habr.com/ru/articles/1029838/

    #seo #seoоптимизация #seoпродвижение #seoпродвижение_сайтов #индексирование #индексирование_сайта #техническое_seo #вебразработка #поисковые_алгоритмы #контентная_стратегия

  3. Факторы ранжирования Google в 2026 году

    В этой статье разберём, почему разговор о факторах ранжирования Google всё чаще заходит в тупик, если представлять их как список из title, ссылок, скорости, контента и поведенческих сигналов. Современный поиск работает сложнее. Страница проходит не один фильтр, а несколько слоёв оценки: доступность, индексирование, понимание запроса, понимание документа, качество, спам-фильтры, сниппеты, медиа, ссылки, локальный контекст и пользовательское взаимодействие.

    habr.com/ru/articles/1029838/

    #seo #seoоптимизация #seoпродвижение #seoпродвижение_сайтов #индексирование #индексирование_сайта #техническое_seo #вебразработка #поисковые_алгоритмы #контентная_стратегия

  4. Факторы ранжирования Google в 2026 году

    В этой статье разберём, почему разговор о факторах ранжирования Google всё чаще заходит в тупик, если представлять их как список из title, ссылок, скорости, контента и поведенческих сигналов. Современный поиск работает сложнее. Страница проходит не один фильтр, а несколько слоёв оценки: доступность, индексирование, понимание запроса, понимание документа, качество, спам-фильтры, сниппеты, медиа, ссылки, локальный контекст и пользовательское взаимодействие.

    habr.com/ru/articles/1029838/

    #seo #seoоптимизация #seoпродвижение #seoпродвижение_сайтов #индексирование #индексирование_сайта #техническое_seo #вебразработка #поисковые_алгоритмы #контентная_стратегия

  5. ULBT: как искать и сортировать зашифрованные строки без полного сканирования

    Рассмотрим задачу работы с персональными данными в системе, где большая часть данных находится в открытом доступе и не может строго контролироваться. В этом случае популярным решением будет вынесение чувствительных данных в отдельный защищенный контур с контролируемым доступом. Раскрытие данных по имеющимся ключам в требуемой точке является тривиальной задачей, но все усложняется, когда большие объемы конфиденциальных данных требуется фильтровать или использовать для сортировки. Если упростить задачу до сути: нам нужно быстро искать и сортировать конфиденциальные строки минимизируя обращения к закрытой зоне, но при этом не раскрывая их содержимое. Очевидным решением является использование индексов по закрытым данным в открытой зоне. Однако классические варианты либо плохо масштабируются, либо слишком много «сливают» через индекс. В этом тексте предлагается практический подход к решению этой проблемы на базе ULBT (Unbalanced Lexicographic Bucket Tree) . Предложенный подход предполагает решение следующих задач

    habr.com/ru/articles/1026008/

    #поиск_по_зашифрованным_данным #индексирование #конфиденциальность #алгоритмы #пейджинг #безопасность_данных

  6. ULBT: как искать и сортировать зашифрованные строки без полного сканирования

    Рассмотрим задачу работы с персональными данными в системе, где большая часть данных находится в открытом доступе и не может строго контролироваться. В этом случае популярным решением будет вынесение чувствительных данных в отдельный защищенный контур с контролируемым доступом. Раскрытие данных по имеющимся ключам в требуемой точке является тривиальной задачей, но все усложняется, когда большие объемы конфиденциальных данных требуется фильтровать или использовать для сортировки. Если упростить задачу до сути: нам нужно быстро искать и сортировать конфиденциальные строки минимизируя обращения к закрытой зоне, но при этом не раскрывая их содержимое. Очевидным решением является использование индексов по закрытым данным в открытой зоне. Однако классические варианты либо плохо масштабируются, либо слишком много «сливают» через индекс. В этом тексте предлагается практический подход к решению этой проблемы на базе ULBT (Unbalanced Lexicographic Bucket Tree) . Предложенный подход предполагает решение следующих задач

    habr.com/ru/articles/1026008/

    #поиск_по_зашифрованным_данным #индексирование #конфиденциальность #алгоритмы #пейджинг #безопасность_данных

  7. ULBT: как искать и сортировать зашифрованные строки без полного сканирования

    Рассмотрим задачу работы с персональными данными в системе, где большая часть данных находится в открытом доступе и не может строго контролироваться. В этом случае популярным решением будет вынесение чувствительных данных в отдельный защищенный контур с контролируемым доступом. Раскрытие данных по имеющимся ключам в требуемой точке является тривиальной задачей, но все усложняется, когда большие объемы конфиденциальных данных требуется фильтровать или использовать для сортировки. Если упростить задачу до сути: нам нужно быстро искать и сортировать конфиденциальные строки минимизируя обращения к закрытой зоне, но при этом не раскрывая их содержимое. Очевидным решением является использование индексов по закрытым данным в открытой зоне. Однако классические варианты либо плохо масштабируются, либо слишком много «сливают» через индекс. В этом тексте предлагается практический подход к решению этой проблемы на базе ULBT (Unbalanced Lexicographic Bucket Tree) . Предложенный подход предполагает решение следующих задач

    habr.com/ru/articles/1026008/

    #поиск_по_зашифрованным_данным #индексирование #конфиденциальность #алгоритмы #пейджинг #безопасность_данных

  8. ULBT: как искать и сортировать зашифрованные строки без полного сканирования

    Рассмотрим задачу работы с персональными данными в системе, где большая часть данных находится в открытом доступе и не может строго контролироваться. В этом случае популярным решением будет вынесение чувствительных данных в отдельный защищенный контур с контролируемым доступом. Раскрытие данных по имеющимся ключам в требуемой точке является тривиальной задачей, но все усложняется, когда большие объемы конфиденциальных данных требуется фильтровать или использовать для сортировки. Если упростить задачу до сути: нам нужно быстро искать и сортировать конфиденциальные строки минимизируя обращения к закрытой зоне, но при этом не раскрывая их содержимое. Очевидным решением является использование индексов по закрытым данным в открытой зоне. Однако классические варианты либо плохо масштабируются, либо слишком много «сливают» через индекс. В этом тексте предлагается практический подход к решению этой проблемы на базе ULBT (Unbalanced Lexicographic Bucket Tree) . Предложенный подход предполагает решение следующих задач

    habr.com/ru/articles/1026008/

    #поиск_по_зашифрованным_данным #индексирование #конфиденциальность #алгоритмы #пейджинг #безопасность_данных

  9. [Перевод] От текста к токенам: как работают пайплайны токенизации

    Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.

    habr.com/ru/articles/976356/

    #токенизация #индексирование #текстовые_данные #llm #искусственный_интеллект

  10. [Перевод] От текста к токенам: как работают пайплайны токенизации

    Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.

    habr.com/ru/articles/976356/

    #токенизация #индексирование #текстовые_данные #llm #искусственный_интеллект

  11. [Перевод] От текста к токенам: как работают пайплайны токенизации

    Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.

    habr.com/ru/articles/976356/

    #токенизация #индексирование #текстовые_данные #llm #искусственный_интеллект

  12. [Перевод] От текста к токенам: как работают пайплайны токенизации

    Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.

    habr.com/ru/articles/976356/

    #токенизация #индексирование #текстовые_данные #llm #искусственный_интеллект

  13. [Перевод] Оптимизация поисковых систем: баланс между скоростью, релевантностью и масштабируемостью

    Будучи разработчиками, мы постоянно стремимся создавать системы, которые не просто работают, но и отличаются эффективностью и масштабируемостью. В мире, где пользователи ожидают всё более быстрые и точные результаты, оптимизация производительности поиска становится ключевым приоритетом в современной разработке приложений. Эта статья основана на нашем выступлении на конференции QCon San Francisco 2024, где мы рассмотрели эволюцию подходов к индексированию данных, их извлечению и ранжированию. Для платформ вроде Uber Eats, обрабатывающих сложные запросы на больших объёмах данных, оптимизация поиска — это серьёзный вызов, требующий продвинутых стратегий: индексирования, шардинга и параллельной обработки запросов. Сложность поисковых систем продолжает расти, и необходимость соблюдения баланса между скоростью, релевантностью и масштабируемостью становится как никогда актуальной. В этой статье мы рассматриваем ключевые техники таких оптимизаций и их влияние на пользовательский опыт и производительность системы.

    habr.com/ru/companies/otus/art

    #шардинг #Индексирование #поиск #Масштабируемость #производительность #apache_kafka #apache_spark #big_data #ранжирование

  14. [Перевод] Оптимизация поисковых систем: баланс между скоростью, релевантностью и масштабируемостью

    Будучи разработчиками, мы постоянно стремимся создавать системы, которые не просто работают, но и отличаются эффективностью и масштабируемостью. В мире, где пользователи ожидают всё более быстрые и точные результаты, оптимизация производительности поиска становится ключевым приоритетом в современной разработке приложений. Эта статья основана на нашем выступлении на конференции QCon San Francisco 2024, где мы рассмотрели эволюцию подходов к индексированию данных, их извлечению и ранжированию. Для платформ вроде Uber Eats, обрабатывающих сложные запросы на больших объёмах данных, оптимизация поиска — это серьёзный вызов, требующий продвинутых стратегий: индексирования, шардинга и параллельной обработки запросов. Сложность поисковых систем продолжает расти, и необходимость соблюдения баланса между скоростью, релевантностью и масштабируемостью становится как никогда актуальной. В этой статье мы рассматриваем ключевые техники таких оптимизаций и их влияние на пользовательский опыт и производительность системы.

    habr.com/ru/companies/otus/art

    #шардинг #Индексирование #поиск #Масштабируемость #производительность #apache_kafka #apache_spark #big_data #ранжирование

  15. [Перевод] Оптимизация поисковых систем: баланс между скоростью, релевантностью и масштабируемостью

    Будучи разработчиками, мы постоянно стремимся создавать системы, которые не просто работают, но и отличаются эффективностью и масштабируемостью. В мире, где пользователи ожидают всё более быстрые и точные результаты, оптимизация производительности поиска становится ключевым приоритетом в современной разработке приложений. Эта статья основана на нашем выступлении на конференции QCon San Francisco 2024, где мы рассмотрели эволюцию подходов к индексированию данных, их извлечению и ранжированию. Для платформ вроде Uber Eats, обрабатывающих сложные запросы на больших объёмах данных, оптимизация поиска — это серьёзный вызов, требующий продвинутых стратегий: индексирования, шардинга и параллельной обработки запросов. Сложность поисковых систем продолжает расти, и необходимость соблюдения баланса между скоростью, релевантностью и масштабируемостью становится как никогда актуальной. В этой статье мы рассматриваем ключевые техники таких оптимизаций и их влияние на пользовательский опыт и производительность системы.

    habr.com/ru/companies/otus/art

    #шардинг #Индексирование #поиск #Масштабируемость #производительность #apache_kafka #apache_spark #big_data #ранжирование

  16. [Перевод] Оптимизация поисковых систем: баланс между скоростью, релевантностью и масштабируемостью

    Будучи разработчиками, мы постоянно стремимся создавать системы, которые не просто работают, но и отличаются эффективностью и масштабируемостью. В мире, где пользователи ожидают всё более быстрые и точные результаты, оптимизация производительности поиска становится ключевым приоритетом в современной разработке приложений. Эта статья основана на нашем выступлении на конференции QCon San Francisco 2024, где мы рассмотрели эволюцию подходов к индексированию данных, их извлечению и ранжированию. Для платформ вроде Uber Eats, обрабатывающих сложные запросы на больших объёмах данных, оптимизация поиска — это серьёзный вызов, требующий продвинутых стратегий: индексирования, шардинга и параллельной обработки запросов. Сложность поисковых систем продолжает расти, и необходимость соблюдения баланса между скоростью, релевантностью и масштабируемостью становится как никогда актуальной. В этой статье мы рассматриваем ключевые техники таких оптимизаций и их влияние на пользовательский опыт и производительность системы.

    habr.com/ru/companies/otus/art

    #шардинг #Индексирование #поиск #Масштабируемость #производительность #apache_kafka #apache_spark #big_data #ранжирование

  17. Реляционные базы данных в книге «Двенадцать стульев»: как устроен архив Коробейникова

    Меня зовут Екатерина Петрова , я автор медиа « вАЙТИ » и аналитик. Перечитывая свой любимый роман И. Ильфа и Е. Петрова «Двенадцать стульев», а именно сцену с архивариусом Коробейниковым, я вдруг поняла: его бумажный архив ордеров на имущество бывших дворян не что иное, как идеальный пример реляционной базы данных. Алфавитные указатели — это индексы, книги учета — таблицы с первичными ключами, ордера — настоящие транзакции.

    habr.com/ru/companies/beeline_

    #postgresql #sqlite #нормализация_данных #ddl #индексирование #структура_бд #анализ_данных #историческая_реконструкция #визуализация_данных #интерактивные_проекты

  18. Реляционные базы данных в книге «Двенадцать стульев»: как устроен архив Коробейникова

    Меня зовут Екатерина Петрова , я автор медиа « вАЙТИ » и аналитик. Перечитывая свой любимый роман И. Ильфа и Е. Петрова «Двенадцать стульев», а именно сцену с архивариусом Коробейниковым, я вдруг поняла: его бумажный архив ордеров на имущество бывших дворян не что иное, как идеальный пример реляционной базы данных. Алфавитные указатели — это индексы, книги учета — таблицы с первичными ключами, ордера — настоящие транзакции.

    habr.com/ru/companies/beeline_

    #postgresql #sqlite #нормализация_данных #ddl #индексирование #структура_бд #анализ_данных #историческая_реконструкция #визуализация_данных #интерактивные_проекты

  19. Реляционные базы данных в книге «Двенадцать стульев»: как устроен архив Коробейникова

    Меня зовут Екатерина Петрова , я автор медиа « вАЙТИ » и аналитик. Перечитывая свой любимый роман И. Ильфа и Е. Петрова «Двенадцать стульев», а именно сцену с архивариусом Коробейниковым, я вдруг поняла: его бумажный архив ордеров на имущество бывших дворян не что иное, как идеальный пример реляционной базы данных. Алфавитные указатели — это индексы, книги учета — таблицы с первичными ключами, ордера — настоящие транзакции.

    habr.com/ru/companies/beeline_

    #postgresql #sqlite #нормализация_данных #ddl #индексирование #структура_бд #анализ_данных #историческая_реконструкция #визуализация_данных #интерактивные_проекты

  20. Реляционные базы данных в книге «Двенадцать стульев»: как устроен архив Коробейникова

    Меня зовут Екатерина Петрова , я автор медиа « вАЙТИ » и аналитик. Перечитывая свой любимый роман И. Ильфа и Е. Петрова «Двенадцать стульев», а именно сцену с архивариусом Коробейниковым, я вдруг поняла: его бумажный архив ордеров на имущество бывших дворян не что иное, как идеальный пример реляционной базы данных. Алфавитные указатели — это индексы, книги учета — таблицы с первичными ключами, ордера — настоящие транзакции.

    habr.com/ru/companies/beeline_

    #postgresql #sqlite #нормализация_данных #ddl #индексирование #структура_бд #анализ_данных #историческая_реконструкция #визуализация_данных #интерактивные_проекты

  21. [Перевод] Как Discord индексирует триллионы сообщений

    В 2017 году мы рассказывали о том, как спроектировали нашу систему поиска сообщений так, чтобы она могла индексировать миллиарды сообщений . Благодаря этому наша поисковая инфраструктура стала высокопроизводительной, экономной, масштабируемой и простой в использовании. Мы решили выбрать Elasticsearch, в котором сообщения Discord шардились по индексам и использовалось логическое пространство имён для сообщений Elasticsearch в двух кластерах Elasticsearch. Сообщения шардились или по серверу Discord (который ниже будем называть гильдией) или по личным сообщениям (DM). Это позволило нам хранить все сообщения гильдии рядом для обеспечения высокой скорости запросов и работать с маленькими, более удобными кластерами. Так как поиском пользуются не все, сообщения индексировались лениво, и мы создали очередь сообщений, позволявшую воркерам получать блоки сообщений для индексирования, чтобы воспользоваться возможностями массового индексирования (bulk-indexing) Elasticsearch. Но с ростом объёмов Discord наша поисковая инфраструктура начала трещать по швам…‍

    habr.com/ru/articles/904642/

    #elasticsearch #kubernetes #базы_данных #индексирование #discord

  22. [Перевод] Как Discord индексирует триллионы сообщений

    В 2017 году мы рассказывали о том, как спроектировали нашу систему поиска сообщений так, чтобы она могла индексировать миллиарды сообщений . Благодаря этому наша поисковая инфраструктура стала высокопроизводительной, экономной, масштабируемой и простой в использовании. Мы решили выбрать Elasticsearch, в котором сообщения Discord шардились по индексам и использовалось логическое пространство имён для сообщений Elasticsearch в двух кластерах Elasticsearch. Сообщения шардились или по серверу Discord (который ниже будем называть гильдией) или по личным сообщениям (DM). Это позволило нам хранить все сообщения гильдии рядом для обеспечения высокой скорости запросов и работать с маленькими, более удобными кластерами. Так как поиском пользуются не все, сообщения индексировались лениво, и мы создали очередь сообщений, позволявшую воркерам получать блоки сообщений для индексирования, чтобы воспользоваться возможностями массового индексирования (bulk-indexing) Elasticsearch. Но с ростом объёмов Discord наша поисковая инфраструктура начала трещать по швам…‍

    habr.com/ru/articles/904642/

    #elasticsearch #kubernetes #базы_данных #индексирование #discord

  23. [Перевод] Как Discord индексирует триллионы сообщений

    В 2017 году мы рассказывали о том, как спроектировали нашу систему поиска сообщений так, чтобы она могла индексировать миллиарды сообщений . Благодаря этому наша поисковая инфраструктура стала высокопроизводительной, экономной, масштабируемой и простой в использовании. Мы решили выбрать Elasticsearch, в котором сообщения Discord шардились по индексам и использовалось логическое пространство имён для сообщений Elasticsearch в двух кластерах Elasticsearch. Сообщения шардились или по серверу Discord (который ниже будем называть гильдией) или по личным сообщениям (DM). Это позволило нам хранить все сообщения гильдии рядом для обеспечения высокой скорости запросов и работать с маленькими, более удобными кластерами. Так как поиском пользуются не все, сообщения индексировались лениво, и мы создали очередь сообщений, позволявшую воркерам получать блоки сообщений для индексирования, чтобы воспользоваться возможностями массового индексирования (bulk-indexing) Elasticsearch. Но с ростом объёмов Discord наша поисковая инфраструктура начала трещать по швам…‍

    habr.com/ru/articles/904642/

    #elasticsearch #kubernetes #базы_данных #индексирование #discord

  24. [Перевод] Как Discord индексирует триллионы сообщений

    В 2017 году мы рассказывали о том, как спроектировали нашу систему поиска сообщений так, чтобы она могла индексировать миллиарды сообщений . Благодаря этому наша поисковая инфраструктура стала высокопроизводительной, экономной, масштабируемой и простой в использовании. Мы решили выбрать Elasticsearch, в котором сообщения Discord шардились по индексам и использовалось логическое пространство имён для сообщений Elasticsearch в двух кластерах Elasticsearch. Сообщения шардились или по серверу Discord (который ниже будем называть гильдией) или по личным сообщениям (DM). Это позволило нам хранить все сообщения гильдии рядом для обеспечения высокой скорости запросов и работать с маленькими, более удобными кластерами. Так как поиском пользуются не все, сообщения индексировались лениво, и мы создали очередь сообщений, позволявшую воркерам получать блоки сообщений для индексирования, чтобы воспользоваться возможностями массового индексирования (bulk-indexing) Elasticsearch. Но с ростом объёмов Discord наша поисковая инфраструктура начала трещать по швам…‍

    habr.com/ru/articles/904642/

    #elasticsearch #kubernetes #базы_данных #индексирование #discord