#нормализация_данных — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-12 · 07:32 UTC

Как заставить xt850 совпадать с xt 850

С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.

https://habr.com/ru/articles/1032472/

#обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация

#токенизация #полнотекстовый_поиск #нормализация_данных #обработка_запросов

Habr @[email protected] · 2026-05-12 · 07:32 UTC

Как заставить xt850 совпадать с xt 850

С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.

https://habr.com/ru/articles/1032472/

#обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация

#токенизация #полнотекстовый_поиск #нормализация_данных #обработка_запросов

Habr @[email protected] · 2026-05-12 · 07:32 UTC

Как заставить xt850 совпадать с xt 850

С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.

https://habr.com/ru/articles/1032472/

#обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация

#токенизация #полнотекстовый_поиск #нормализация_данных #обработка_запросов

Habr @[email protected] · 2026-05-12 · 07:32 UTC

Как заставить xt850 совпадать с xt 850

С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.

https://habr.com/ru/articles/1032472/

#обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация

Habr @[email protected] · 2026-03-16 · 13:22 UTC

Почему нормализация контактных данных сложнее, чем кажется: опыт разработки движка очистки CRM-баз на Python

Грязные данные в CRM — это всегда дубли, ошибки в рассылках и «кривая» аналитика. В статье рассказываю, как я реализовал API для автоматической нормализации телефонов, email и имен на FastAPI, и почему простая проверка регулярками не заменяет систему оценки качества данных (QC). Попробовать Demo API

https://habr.com/ru/articles/1010892/

#API #нормализация_данных #очистка_данных #CRM #FastAPI #контактные_данные #обработка_персональных_данных #python

#python #обработка_персональных_данных #контактные_данные #fastapi #crm #очистка_данных

Habr @[email protected] · 2026-03-05 · 13:22 UTC

Как я готовился к Честному знаку и разработал подход к нормализации данных

Я работаю в компании, которая занимается автозапчастями. Не буду называть бренд, но представьте любой крупный интернет-магазин запчастей — у нас всё примерно так же. Десять лет всё работало. Поставщики присылали прайсы, менеджеры загружали. В 90% случаев клиенты искали товар по артикулу — просто вбивали номер и получали результат. Оставшиеся 10% запросов — это названия вроде «хомут бмв х5». И поиск как-то справлялся. Да, в базе была каша: один и тот же товар мог называться «Хомут винт. BMW X5/E81» и «Хомут крепления топливного шланга 12мм для BMW». Но артикулы вывозили, а на остальное закрывали глаза. А потом мы узнали про Честный знак.

https://habr.com/ru/articles/1006992/

#ИИ #нормализация_данных #Честный_знак #B2B #аналитика #автозапчасти

#автозапчасти #аналитика #b2b #честный_знак #нормализация_данных #ии

Habr @[email protected] · 2025-06-30 · 11:52 UTC

Реляционные базы данных в книге «Двенадцать стульев»: как устроен архив Коробейникова

Меня зовут Екатерина Петрова , я автор медиа « вАЙТИ » и аналитик. Перечитывая свой любимый роман И. Ильфа и Е. Петрова «Двенадцать стульев», а именно сцену с архивариусом Коробейниковым, я вдруг поняла: его бумажный архив ордеров на имущество бывших дворян не что иное, как идеальный пример реляционной базы данных. Алфавитные указатели — это индексы, книги учета — таблицы с первичными ключами, ордера — настоящие транзакции.

https://habr.com/ru/companies/beeline_cloud/articles/923328/

#postgresql #sqlite #нормализация_данных #ddl #индексирование #структура_бд #анализ_данных #историческая_реконструкция #визуализация_данных #интерактивные_проекты

#postgresql #sqlite #нормализация_данных #ddl #индексирование #структура_бд

Habr @[email protected] · 2025-06-30 · 11:52 UTC

Реляционные базы данных в книге «Двенадцать стульев»: как устроен архив Коробейникова

Меня зовут Екатерина Петрова , я автор медиа « вАЙТИ » и аналитик. Перечитывая свой любимый роман И. Ильфа и Е. Петрова «Двенадцать стульев», а именно сцену с архивариусом Коробейниковым, я вдруг поняла: его бумажный архив ордеров на имущество бывших дворян не что иное, как идеальный пример реляционной базы данных. Алфавитные указатели — это индексы, книги учета — таблицы с первичными ключами, ордера — настоящие транзакции.

https://habr.com/ru/companies/beeline_cloud/articles/923328/

#postgresql #sqlite #нормализация_данных #ddl #индексирование #структура_бд #анализ_данных #историческая_реконструкция #визуализация_данных #интерактивные_проекты

#postgresql #sqlite #нормализация_данных #ddl #индексирование #структура_бд

Habr @[email protected] · 2025-06-30 · 11:52 UTC

Реляционные базы данных в книге «Двенадцать стульев»: как устроен архив Коробейникова

Меня зовут Екатерина Петрова , я автор медиа « вАЙТИ » и аналитик. Перечитывая свой любимый роман И. Ильфа и Е. Петрова «Двенадцать стульев», а именно сцену с архивариусом Коробейниковым, я вдруг поняла: его бумажный архив ордеров на имущество бывших дворян не что иное, как идеальный пример реляционной базы данных. Алфавитные указатели — это индексы, книги учета — таблицы с первичными ключами, ордера — настоящие транзакции.

https://habr.com/ru/companies/beeline_cloud/articles/923328/

#postgresql #sqlite #нормализация_данных #ddl #индексирование #структура_бд #анализ_данных #историческая_реконструкция #визуализация_данных #интерактивные_проекты

#postgresql #sqlite #нормализация_данных #ddl #индексирование #структура_бд

Habr @[email protected] · 2025-06-30 · 11:52 UTC

Реляционные базы данных в книге «Двенадцать стульев»: как устроен архив Коробейникова

Меня зовут Екатерина Петрова , я автор медиа « вАЙТИ » и аналитик. Перечитывая свой любимый роман И. Ильфа и Е. Петрова «Двенадцать стульев», а именно сцену с архивариусом Коробейниковым, я вдруг поняла: его бумажный архив ордеров на имущество бывших дворян не что иное, как идеальный пример реляционной базы данных. Алфавитные указатели — это индексы, книги учета — таблицы с первичными ключами, ордера — настоящие транзакции.

https://habr.com/ru/companies/beeline_cloud/articles/923328/

#postgresql #sqlite #нормализация_данных #ddl #индексирование #структура_бд #анализ_данных #историческая_реконструкция #визуализация_данных #интерактивные_проекты

#интерактивные_проекты #визуализация_данных #историческая_реконструкция #анализ_данных #структура_бд #индексирование

Habr @[email protected] · 2024-06-28 · 13:32 UTC

[Перевод] Как нормализовывать телефонные номера

Замечали когда-нибудь, что все записывают телефонные номера по-разному? Некоторые пишут их через пробелы, другие через дефис, а кто-то использует скобки. Разные люди по-разному группируют цифры номеров в числа. И это становится реальной проблемой, когда вам нужно сохранить телефонные номера в базе данных и затем извлекать из неё записи по ним.

https://habr.com/ru/companies/ruvds/articles/824708/

#ruvds_перевод #телефонные_номера #код_страны #нормализация_данных #libphonenumber #phonenumbers #googlelibphonenumber

#googlelibphonenumber #phonenumbers #libphonenumber #нормализация_данных #код_страны #телефонные_номера

Habr @[email protected] · 2024-11-29 · 13:02 UTC

Универсальный классификатор НСИ- правда или фантастика?

Управление НСИ — оптимизация рабочих процессов. Основные задачи НСИ. Прикладные задачи. Классификация номенклатуры. Методы классификации НСИ. Основные критерии.

https://habr.com/ru/articles/862414/

#нормализация_данных #интеграция #интеграция_данных #интеграция_систем #интеграция_с_1с #нси #нси_и_интеграция

#нси_и_интеграция #нси #интеграция_с_1с #интеграция_систем #интеграция_данных #интеграция

Habr @[email protected] · 2025-06-13 · 12:52 UTC

Проектирование Информационных систем. Часть 8. Разработка логической структуры данных. 8.1. UML Class diagram

Одним из важнейших этапов в проектировании Информационной системы является выявление бизнес-объектов и их детализация на сущности Предметной области. По результатам этих активностей можно спроектировать модель хранилищ данных. Чаще всего такие работы выполняют параллельно с этапом описания бизнес-процессов. Как всегда, объявим цели текущего шага: определить и задокументировать сущности Предметной области и способы их взаимодействия. Спроектировать модель хранилищ данных. Таким образом мы расширяем наш домен решений, добавляя в него – модель данных. Чтобы сложить картинку о бизнес-объектах области автоматизации, необходимо уметь описывать бесконечное разнообразие сущностей мира - конечными фразами. Это можно сделать огрублено, приблизительно, упрощенно. 1) Первый шаг упрощения основан на том, что все объекты различны, но одни отличаются друг от друга «слабо», «мало», «незначительно», другие — «сильно», «существенно». 2) Второй шаг состоит в том, чтобы объединить все мало различающиеся объекты в одну группу, оставив вне ее все сильно различающиеся. В итоге бесконечно разнообразный мир описывается конечным множеством отличающихся друг от друга классов. Похожий прием мы уже использовали на каждом этапе, классифицируя рассматриваемы элементы, определяя для них простейшую абстрактную модель разнообразия действительности. Для выражения различий между классами им присваиваются различные имена (названия, обозначения, символы, номера и т.п.). Классифицировать можно не только объекты, но и свойства (цвета, звуки, силы, размеры и т.д.), и процессы (ходить, бегать, тянуть, есть, пить и т.д.). Таким образом, классификация сущностей исследуемой предметной области идентифицируется в виде названия некоторых классов.

https://habr.com/ru/articles/917654/

#проектирование_систем #проектирование_по #проектирование_баз_данных #анализ_и_проектирование_систем #системный_анализ #бизнесмодель #сущность #инженерия_требований #нормализация_данных

#нормализация_данных #инженерия_требований #сущность #бизнесмодель #системный_анализ #анализ_и_проектирование_систем

Habr @[email protected] · 2025-07-25 · 15:42 UTC

Сегментация клиентов методом K-Means на стороне БД

Привет, Хабр! Сегодня мы рассмотрим, как заставить PostgreSQL самостоятельно крутить K-Means для сегментации клиентов, не вытаскивая данные наружу. Пройдемся по циклу: нормализуем фичи в materialized view, напишем функцию PL/PythonU, которая дергает scikit-learn, сохраняем cluster_id обратно в таблицу и закрываем гештальт отчётом «доход по кластеру» чистым SQL.

https://habr.com/ru/companies/otus/articles/930506/

#python #sql #кластеризация #postgresql #нормализация_данных #хранимая_процедура

Habr @[email protected] · 2025-11-11 · 18:02 UTC

Как вайбкодинг помог разгрести строительные сметы

У знакомого есть консалтинговая компания по внедрению продуктов 1С в бизнес и он поделился болью - у его заказчика - среднего размера строительной компании необходимо внести в систему порядка нескольких сотен смет в xlsx формате в 1С конфигурацию, которую они внедряют. Сложность в том, что другие инженерные отрасли сильно отстают от IT в плане культуры разработки. Во времена моей юности по ФИДО ходила присказка "Если бы строители строили дома, как программисты пишут программы, то первый же залетевший дятел разрушил бы цивилизацию". Скорее всего автор этого афоризма никогда не был знаком с реальными строителями. Сейчас скорее наоборот - если бы строители писали программы, мы бы не вышли из эпохи арифмометров. Мы в IT приучены к тому, что ревью кода не пропустил коммит с лишним пробелом. У сметчиков же документация выглядит как в буквальном смысле черновики - все файлы разной структуры, с разным числом и содержанием колонок, разделы разного формата, где-то древовидные, где-то плоские, причём оформлены в разном стиле - где помечено цветом, где шрифтом, с комментариями на полях и прочее. Дело осложняется тем, что одно и то же наименование может быть записано разными сметчиками по-разному. Где просто бетон, где бетон с указанием марки, слова в разном порядке, часто одно и то же наименование, но записано и вовсе разными терминами, где синтаксический анализатор бессилен, при том что термины для неспециалиста неочевидные и незнакомые. Традиционный автоматический импорт в сметной документации невозможен. В итоге 6 сметчиков вводили одну строительную очередь больше 2-х месяцев - бюджет для компании-внедренца около 2-х миллионов.

https://habr.com/ru/articles/965444/

#искусственный_интеллект #ввод_данных #вайбкодинг #строительные_сметы #строительная_документация #нормализация_данных

#нормализация_данных #строительная_документация #строительные_сметы #вайбкодинг #ввод_данных #искусственный_интеллект

Habr @[email protected] · 2025-08-04 · 15:32 UTC

Интерактивная визуализация спортивных коэффициентов: что удалось, а что нет

Построить интерактивный дашборд, визуализирующий изменение спортивных коэффициентов в реальном времени. Аналог систем мониторинга, только вместо метрик — лайв-кэфы с букмекерского API.

https://habr.com/ru/articles/933852/

#D3js #визуализация_данных #спортивные_коэффициенты #WebSocket #нормализация_данных #SVG #Canvas #адаптивная_верстка #realtime_графики #frontend_архитектура

#frontend_архитектура #realtime_графики #адаптивная_верстка #canvas #svg #нормализация_данных

Habr @[email protected] · 2024-11-29 · 13:02 UTC

Универсальный классификатор НСИ- правда или фантастика?

Управление НСИ — оптимизация рабочих процессов. Основные задачи НСИ. Прикладные задачи. Классификация номенклатуры. Методы классификации НСИ. Основные критерии.

https://habr.com/ru/articles/862414/

#нормализация_данных #интеграция #интеграция_данных #интеграция_систем #интеграция_с_1с #нси #нси_и_интеграция

#нси_и_интеграция #нси #интеграция_с_1с #интеграция_систем #интеграция_данных #интеграция

Habr @[email protected] · 2024-11-29 · 13:02 UTC

Универсальный классификатор НСИ- правда или фантастика?

Управление НСИ — оптимизация рабочих процессов. Основные задачи НСИ. Прикладные задачи. Классификация номенклатуры. Методы классификации НСИ. Основные критерии.

https://habr.com/ru/articles/862414/

#нормализация_данных #интеграция #интеграция_данных #интеграция_систем #интеграция_с_1с #нси #нси_и_интеграция

#нси_и_интеграция #нси #интеграция_с_1с #интеграция_систем #интеграция_данных #интеграция

Habr @[email protected] · 2024-11-29 · 13:02 UTC

Универсальный классификатор НСИ- правда или фантастика?

Управление НСИ — оптимизация рабочих процессов. Основные задачи НСИ. Прикладные задачи. Классификация номенклатуры. Методы классификации НСИ. Основные критерии.

https://habr.com/ru/articles/862414/

#нормализация_данных #интеграция #интеграция_данных #интеграция_систем #интеграция_с_1с #нси #нси_и_интеграция

#нормализация_данных #интеграция #интеграция_данных #интеграция_систем #интеграция_с_1с #нси

Habr @[email protected] · 2025-08-04 · 15:32 UTC

Интерактивная визуализация спортивных коэффициентов: что удалось, а что нет

Построить интерактивный дашборд, визуализирующий изменение спортивных коэффициентов в реальном времени. Аналог систем мониторинга, только вместо метрик — лайв-кэфы с букмекерского API.

https://habr.com/ru/articles/933852/

#D3js #визуализация_данных #спортивные_коэффициенты #WebSocket #нормализация_данных #SVG #Canvas #адаптивная_верстка #realtime_графики #frontend_архитектура

#frontend_архитектура #realtime_графики #адаптивная_верстка #canvas #svg #нормализация_данных

Habr @[email protected] · 2025-11-11 · 18:02 UTC

Как вайбкодинг помог разгрести строительные сметы

У знакомого есть консалтинговая компания по внедрению продуктов 1С в бизнес и он поделился болью - у его заказчика - среднего размера строительной компании необходимо внести в систему порядка нескольких сотен смет в xlsx формате в 1С конфигурацию, которую они внедряют. Сложность в том, что другие инженерные отрасли сильно отстают от IT в плане культуры разработки. Во времена моей юности по ФИДО ходила присказка "Если бы строители строили дома, как программисты пишут программы, то первый же залетевший дятел разрушил бы цивилизацию". Скорее всего автор этого афоризма никогда не был знаком с реальными строителями. Сейчас скорее наоборот - если бы строители писали программы, мы бы не вышли из эпохи арифмометров. Мы в IT приучены к тому, что ревью кода не пропустил коммит с лишним пробелом. У сметчиков же документация выглядит как в буквальном смысле черновики - все файлы разной структуры, с разным числом и содержанием колонок, разделы разного формата, где-то древовидные, где-то плоские, причём оформлены в разном стиле - где помечено цветом, где шрифтом, с комментариями на полях и прочее. Дело осложняется тем, что одно и то же наименование может быть записано разными сметчиками по-разному. Где просто бетон, где бетон с указанием марки, слова в разном порядке, часто одно и то же наименование, но записано и вовсе разными терминами, где синтаксический анализатор бессилен, при том что термины для неспециалиста неочевидные и незнакомые. Традиционный автоматический импорт в сметной документации невозможен. В итоге 6 сметчиков вводили одну строительную очередь больше 2-х месяцев - бюджет для компании-внедренца около 2-х миллионов.

https://habr.com/ru/articles/965444/

#искусственный_интеллект #ввод_данных #вайбкодинг #строительные_сметы #строительная_документация #нормализация_данных

#нормализация_данных #строительная_документация #строительные_сметы #вайбкодинг #ввод_данных #искусственный_интеллект

Habr @[email protected] · 2025-11-11 · 18:02 UTC

Как вайбкодинг помог разгрести строительные сметы

У знакомого есть консалтинговая компания по внедрению продуктов 1С в бизнес и он поделился болью - у его заказчика - среднего размера строительной компании необходимо внести в систему порядка нескольких сотен смет в xlsx формате в 1С конфигурацию, которую они внедряют. Сложность в том, что другие инженерные отрасли сильно отстают от IT в плане культуры разработки. Во времена моей юности по ФИДО ходила присказка "Если бы строители строили дома, как программисты пишут программы, то первый же залетевший дятел разрушил бы цивилизацию". Скорее всего автор этого афоризма никогда не был знаком с реальными строителями. Сейчас скорее наоборот - если бы строители писали программы, мы бы не вышли из эпохи арифмометров. Мы в IT приучены к тому, что ревью кода не пропустил коммит с лишним пробелом. У сметчиков же документация выглядит как в буквальном смысле черновики - все файлы разной структуры, с разным числом и содержанием колонок, разделы разного формата, где-то древовидные, где-то плоские, причём оформлены в разном стиле - где помечено цветом, где шрифтом, с комментариями на полях и прочее. Дело осложняется тем, что одно и то же наименование может быть записано разными сметчиками по-разному. Где просто бетон, где бетон с указанием марки, слова в разном порядке, часто одно и то же наименование, но записано и вовсе разными терминами, где синтаксический анализатор бессилен, при том что термины для неспециалиста неочевидные и незнакомые. Традиционный автоматический импорт в сметной документации невозможен. В итоге 6 сметчиков вводили одну строительную очередь больше 2-х месяцев - бюджет для компании-внедренца около 2-х миллионов.

https://habr.com/ru/articles/965444/

#искусственный_интеллект #ввод_данных #вайбкодинг #строительные_сметы #строительная_документация #нормализация_данных

#нормализация_данных #строительная_документация #строительные_сметы #вайбкодинг #ввод_данных #искусственный_интеллект

Habr @[email protected] · 2025-11-11 · 18:02 UTC

Как вайбкодинг помог разгрести строительные сметы

У знакомого есть консалтинговая компания по внедрению продуктов 1С в бизнес и он поделился болью - у его заказчика - среднего размера строительной компании необходимо внести в систему порядка нескольких сотен смет в xlsx формате в 1С конфигурацию, которую они внедряют. Сложность в том, что другие инженерные отрасли сильно отстают от IT в плане культуры разработки. Во времена моей юности по ФИДО ходила присказка "Если бы строители строили дома, как программисты пишут программы, то первый же залетевший дятел разрушил бы цивилизацию". Скорее всего автор этого афоризма никогда не был знаком с реальными строителями. Сейчас скорее наоборот - если бы строители писали программы, мы бы не вышли из эпохи арифмометров. Мы в IT приучены к тому, что ревью кода не пропустил коммит с лишним пробелом. У сметчиков же документация выглядит как в буквальном смысле черновики - все файлы разной структуры, с разным числом и содержанием колонок, разделы разного формата, где-то древовидные, где-то плоские, причём оформлены в разном стиле - где помечено цветом, где шрифтом, с комментариями на полях и прочее. Дело осложняется тем, что одно и то же наименование может быть записано разными сметчиками по-разному. Где просто бетон, где бетон с указанием марки, слова в разном порядке, часто одно и то же наименование, но записано и вовсе разными терминами, где синтаксический анализатор бессилен, при том что термины для неспециалиста неочевидные и незнакомые. Традиционный автоматический импорт в сметной документации невозможен. В итоге 6 сметчиков вводили одну строительную очередь больше 2-х месяцев - бюджет для компании-внедренца около 2-х миллионов.

https://habr.com/ru/articles/965444/

#искусственный_интеллект #ввод_данных #вайбкодинг #строительные_сметы #строительная_документация #нормализация_данных