home.social

#нормализация_данных — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #нормализация_данных, aggregated by home.social.

  1. Как заставить xt850 совпадать с xt 850

    С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.

    habr.com/ru/articles/1032472/

    #обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация

  2. Как заставить xt850 совпадать с xt 850

    С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.

    habr.com/ru/articles/1032472/

    #обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация

  3. Как заставить xt850 совпадать с xt 850

    С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.

    habr.com/ru/articles/1032472/

    #обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация

  4. Как заставить xt850 совпадать с xt 850

    С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850 , используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры. Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.

    habr.com/ru/articles/1032472/

    #обработка_запросов #нормализация_данных #полнотекстовый_поиск #токенизация

  5. Почему нормализация контактных данных сложнее, чем кажется: опыт разработки движка очистки CRM-баз на Python

    Грязные данные в CRM — это всегда дубли, ошибки в рассылках и «кривая» аналитика. В статье рассказываю, как я реализовал API для автоматической нормализации телефонов, email и имен на FastAPI, и почему простая проверка регулярками не заменяет систему оценки качества данных (QC). Попробовать Demo API

    habr.com/ru/articles/1010892/

    #API #нормализация_данных #очистка_данных #CRM #FastAPI #контактные_данные #обработка_персональных_данных #python

  6. Как я готовился к Честному знаку и разработал подход к нормализации данных

    Я работаю в компании, которая занимается автозапчастями. Не буду называть бренд, но представьте любой крупный интернет-магазин запчастей — у нас всё примерно так же. Десять лет всё работало. Поставщики присылали прайсы, менеджеры загружали. В 90% случаев клиенты искали товар по артикулу — просто вбивали номер и получали результат. Оставшиеся 10% запросов — это названия вроде «хомут бмв х5». И поиск как-то справлялся. Да, в базе была каша: один и тот же товар мог называться «Хомут винт. BMW X5/E81» и «Хомут крепления топливного шланга 12мм для BMW». Но артикулы вывозили, а на остальное закрывали глаза. А потом мы узнали про Честный знак.

    habr.com/ru/articles/1006992/

    #ИИ #нормализация_данных #Честный_знак #B2B #аналитика #автозапчасти

  7. Реляционные базы данных в книге «Двенадцать стульев»: как устроен архив Коробейникова

    Меня зовут Екатерина Петрова , я автор медиа « вАЙТИ » и аналитик. Перечитывая свой любимый роман И. Ильфа и Е. Петрова «Двенадцать стульев», а именно сцену с архивариусом Коробейниковым, я вдруг поняла: его бумажный архив ордеров на имущество бывших дворян не что иное, как идеальный пример реляционной базы данных. Алфавитные указатели — это индексы, книги учета — таблицы с первичными ключами, ордера — настоящие транзакции.

    habr.com/ru/companies/beeline_

    #postgresql #sqlite #нормализация_данных #ddl #индексирование #структура_бд #анализ_данных #историческая_реконструкция #визуализация_данных #интерактивные_проекты

  8. Реляционные базы данных в книге «Двенадцать стульев»: как устроен архив Коробейникова

    Меня зовут Екатерина Петрова , я автор медиа « вАЙТИ » и аналитик. Перечитывая свой любимый роман И. Ильфа и Е. Петрова «Двенадцать стульев», а именно сцену с архивариусом Коробейниковым, я вдруг поняла: его бумажный архив ордеров на имущество бывших дворян не что иное, как идеальный пример реляционной базы данных. Алфавитные указатели — это индексы, книги учета — таблицы с первичными ключами, ордера — настоящие транзакции.

    habr.com/ru/companies/beeline_

    #postgresql #sqlite #нормализация_данных #ddl #индексирование #структура_бд #анализ_данных #историческая_реконструкция #визуализация_данных #интерактивные_проекты

  9. Реляционные базы данных в книге «Двенадцать стульев»: как устроен архив Коробейникова

    Меня зовут Екатерина Петрова , я автор медиа « вАЙТИ » и аналитик. Перечитывая свой любимый роман И. Ильфа и Е. Петрова «Двенадцать стульев», а именно сцену с архивариусом Коробейниковым, я вдруг поняла: его бумажный архив ордеров на имущество бывших дворян не что иное, как идеальный пример реляционной базы данных. Алфавитные указатели — это индексы, книги учета — таблицы с первичными ключами, ордера — настоящие транзакции.

    habr.com/ru/companies/beeline_

    #postgresql #sqlite #нормализация_данных #ddl #индексирование #структура_бд #анализ_данных #историческая_реконструкция #визуализация_данных #интерактивные_проекты

  10. Реляционные базы данных в книге «Двенадцать стульев»: как устроен архив Коробейникова

    Меня зовут Екатерина Петрова , я автор медиа « вАЙТИ » и аналитик. Перечитывая свой любимый роман И. Ильфа и Е. Петрова «Двенадцать стульев», а именно сцену с архивариусом Коробейниковым, я вдруг поняла: его бумажный архив ордеров на имущество бывших дворян не что иное, как идеальный пример реляционной базы данных. Алфавитные указатели — это индексы, книги учета — таблицы с первичными ключами, ордера — настоящие транзакции.

    habr.com/ru/companies/beeline_

    #postgresql #sqlite #нормализация_данных #ddl #индексирование #структура_бд #анализ_данных #историческая_реконструкция #визуализация_данных #интерактивные_проекты

  11. [Перевод] Как нормализовывать телефонные номера

    Замечали когда-нибудь, что все записывают телефонные номера по-разному? Некоторые пишут их через пробелы, другие через дефис, а кто-то использует скобки. Разные люди по-разному группируют цифры номеров в числа. И это становится реальной проблемой, когда вам нужно сохранить телефонные номера в базе данных и затем извлекать из неё записи по ним.

    habr.com/ru/companies/ruvds/ar

    #ruvds_перевод #телефонные_номера #код_страны #нормализация_данных #libphonenumber #phonenumbers #googlelibphonenumber

  12. Универсальный классификатор НСИ- правда или фантастика?

    Управление НСИ — оптимизация рабочих процессов. Основные задачи НСИ. Прикладные задачи. Классификация номенклатуры. Методы классификации НСИ. Основные критерии.

    habr.com/ru/articles/862414/

    #нормализация_данных #интеграция #интеграция_данных #интеграция_систем #интеграция_с_1с #нси #нси_и_интеграция

  13. Проектирование Информационных систем. Часть 8. Разработка логической структуры данных. 8.1. UML Class diagram

    Одним из важнейших этапов в проектировании Информационной системы является выявление бизнес-объектов и их детализация на сущности Предметной области. По результатам этих активностей можно спроектировать модель хранилищ данных. Чаще всего такие работы выполняют параллельно с этапом описания бизнес-процессов. Как всегда, объявим цели текущего шага: определить и задокументировать сущности Предметной области и способы их взаимодействия. Спроектировать модель хранилищ данных. Таким образом мы расширяем наш домен решений, добавляя в него – модель данных. Чтобы сложить картинку о бизнес-объектах области автоматизации, необходимо уметь описывать бесконечное разнообразие сущностей мира - конечными фразами. Это можно сделать огрублено, приблизительно, упрощенно. 1) Первый шаг упрощения основан на том, что все объекты различны, но одни отличаются друг от друга «слабо», «мало», «незначительно», другие — «сильно», «существенно». 2) Второй шаг состоит в том, чтобы объединить все мало различающиеся объекты в одну группу, оставив вне ее все сильно различающиеся. В итоге бесконечно разнообразный мир описывается конечным множеством отличающихся друг от друга классов. Похожий прием мы уже использовали на каждом этапе, классифицируя рассматриваемы элементы, определяя для них простейшую абстрактную модель разнообразия действительности. Для выражения различий между классами им присваиваются различные имена (названия, обозначения, символы, номера и т.п.). Классифицировать можно не только объекты, но и свойства (цвета, звуки, силы, размеры и т.д.), и процессы (ходить, бегать, тянуть, есть, пить и т.д.). Таким образом, классификация сущностей исследуемой предметной области идентифицируется в виде названия некоторых классов.

    habr.com/ru/articles/917654/

    #проектирование_систем #проектирование_по #проектирование_баз_данных #анализ_и_проектирование_систем #системный_анализ #бизнесмодель #сущность #инженерия_требований #нормализация_данных

  14. Сегментация клиентов методом K-Means на стороне БД

    Привет, Хабр! Сегодня мы рассмотрим, как заставить PostgreSQL самостоятельно крутить K-Means для сегментации клиентов, не вытаскивая данные наружу. Пройдемся по циклу: нормализуем фичи в materialized view, напишем функцию PL/PythonU, которая дергает scikit-learn, сохраняем cluster_id обратно в таблицу и закрываем гештальт отчётом «доход по кластеру» чистым SQL.

    habr.com/ru/companies/otus/art

    #python #sql #кластеризация #postgresql #нормализация_данных #хранимая_процедура

  15. Как вайбкодинг помог разгрести строительные сметы

    У знакомого есть консалтинговая компания по внедрению продуктов 1С в бизнес и он поделился болью - у его заказчика - среднего размера строительной компании необходимо внести в систему порядка нескольких сотен смет в xlsx формате в 1С конфигурацию, которую они внедряют. Сложность в том, что другие инженерные отрасли сильно отстают от IT в плане культуры разработки. Во времена моей юности по ФИДО ходила присказка "Если бы строители строили дома, как программисты пишут программы, то первый же залетевший дятел разрушил бы цивилизацию". Скорее всего автор этого афоризма никогда не был знаком с реальными строителями. Сейчас скорее наоборот - если бы строители писали программы, мы бы не вышли из эпохи арифмометров. Мы в IT приучены к тому, что ревью кода не пропустил коммит с лишним пробелом. У сметчиков же документация выглядит как в буквальном смысле черновики - все файлы разной структуры, с разным числом и содержанием колонок, разделы разного формата, где-то древовидные, где-то плоские, причём оформлены в разном стиле - где помечено цветом, где шрифтом, с комментариями на полях и прочее. Дело осложняется тем, что одно и то же наименование может быть записано разными сметчиками по-разному. Где просто бетон, где бетон с указанием марки, слова в разном порядке, часто одно и то же наименование, но записано и вовсе разными терминами, где синтаксический анализатор бессилен, при том что термины для неспециалиста неочевидные и незнакомые. Традиционный автоматический импорт в сметной документации невозможен. В итоге 6 сметчиков вводили одну строительную очередь больше 2-х месяцев - бюджет для компании-внедренца около 2-х миллионов.

    habr.com/ru/articles/965444/

    #искусственный_интеллект #ввод_данных #вайбкодинг #строительные_сметы #строительная_документация #нормализация_данных

  16. Интерактивная визуализация спортивных коэффициентов: что удалось, а что нет

    Построить интерактивный дашборд, визуализирующий изменение спортивных коэффициентов в реальном времени. Аналог систем мониторинга, только вместо метрик — лайв-кэфы с букмекерского API.

    habr.com/ru/articles/933852/

    #D3js #визуализация_данных #спортивные_коэффициенты #WebSocket #нормализация_данных #SVG #Canvas #адаптивная_верстка #realtime_графики #frontend_архитектура

  17. Универсальный классификатор НСИ- правда или фантастика?

    Управление НСИ — оптимизация рабочих процессов. Основные задачи НСИ. Прикладные задачи. Классификация номенклатуры. Методы классификации НСИ. Основные критерии.

    habr.com/ru/articles/862414/

    #нормализация_данных #интеграция #интеграция_данных #интеграция_систем #интеграция_с_1с #нси #нси_и_интеграция

  18. Универсальный классификатор НСИ- правда или фантастика?

    Управление НСИ — оптимизация рабочих процессов. Основные задачи НСИ. Прикладные задачи. Классификация номенклатуры. Методы классификации НСИ. Основные критерии.

    habr.com/ru/articles/862414/

    #нормализация_данных #интеграция #интеграция_данных #интеграция_систем #интеграция_с_1с #нси #нси_и_интеграция

  19. Универсальный классификатор НСИ- правда или фантастика?

    Управление НСИ — оптимизация рабочих процессов. Основные задачи НСИ. Прикладные задачи. Классификация номенклатуры. Методы классификации НСИ. Основные критерии.

    habr.com/ru/articles/862414/

    #нормализация_данных #интеграция #интеграция_данных #интеграция_систем #интеграция_с_1с #нси #нси_и_интеграция

  20. Интерактивная визуализация спортивных коэффициентов: что удалось, а что нет

    Построить интерактивный дашборд, визуализирующий изменение спортивных коэффициентов в реальном времени. Аналог систем мониторинга, только вместо метрик — лайв-кэфы с букмекерского API.

    habr.com/ru/articles/933852/

    #D3js #визуализация_данных #спортивные_коэффициенты #WebSocket #нормализация_данных #SVG #Canvas #адаптивная_верстка #realtime_графики #frontend_архитектура

  21. Как вайбкодинг помог разгрести строительные сметы

    У знакомого есть консалтинговая компания по внедрению продуктов 1С в бизнес и он поделился болью - у его заказчика - среднего размера строительной компании необходимо внести в систему порядка нескольких сотен смет в xlsx формате в 1С конфигурацию, которую они внедряют. Сложность в том, что другие инженерные отрасли сильно отстают от IT в плане культуры разработки. Во времена моей юности по ФИДО ходила присказка "Если бы строители строили дома, как программисты пишут программы, то первый же залетевший дятел разрушил бы цивилизацию". Скорее всего автор этого афоризма никогда не был знаком с реальными строителями. Сейчас скорее наоборот - если бы строители писали программы, мы бы не вышли из эпохи арифмометров. Мы в IT приучены к тому, что ревью кода не пропустил коммит с лишним пробелом. У сметчиков же документация выглядит как в буквальном смысле черновики - все файлы разной структуры, с разным числом и содержанием колонок, разделы разного формата, где-то древовидные, где-то плоские, причём оформлены в разном стиле - где помечено цветом, где шрифтом, с комментариями на полях и прочее. Дело осложняется тем, что одно и то же наименование может быть записано разными сметчиками по-разному. Где просто бетон, где бетон с указанием марки, слова в разном порядке, часто одно и то же наименование, но записано и вовсе разными терминами, где синтаксический анализатор бессилен, при том что термины для неспециалиста неочевидные и незнакомые. Традиционный автоматический импорт в сметной документации невозможен. В итоге 6 сметчиков вводили одну строительную очередь больше 2-х месяцев - бюджет для компании-внедренца около 2-х миллионов.

    habr.com/ru/articles/965444/

    #искусственный_интеллект #ввод_данных #вайбкодинг #строительные_сметы #строительная_документация #нормализация_данных

  22. Как вайбкодинг помог разгрести строительные сметы

    У знакомого есть консалтинговая компания по внедрению продуктов 1С в бизнес и он поделился болью - у его заказчика - среднего размера строительной компании необходимо внести в систему порядка нескольких сотен смет в xlsx формате в 1С конфигурацию, которую они внедряют. Сложность в том, что другие инженерные отрасли сильно отстают от IT в плане культуры разработки. Во времена моей юности по ФИДО ходила присказка "Если бы строители строили дома, как программисты пишут программы, то первый же залетевший дятел разрушил бы цивилизацию". Скорее всего автор этого афоризма никогда не был знаком с реальными строителями. Сейчас скорее наоборот - если бы строители писали программы, мы бы не вышли из эпохи арифмометров. Мы в IT приучены к тому, что ревью кода не пропустил коммит с лишним пробелом. У сметчиков же документация выглядит как в буквальном смысле черновики - все файлы разной структуры, с разным числом и содержанием колонок, разделы разного формата, где-то древовидные, где-то плоские, причём оформлены в разном стиле - где помечено цветом, где шрифтом, с комментариями на полях и прочее. Дело осложняется тем, что одно и то же наименование может быть записано разными сметчиками по-разному. Где просто бетон, где бетон с указанием марки, слова в разном порядке, часто одно и то же наименование, но записано и вовсе разными терминами, где синтаксический анализатор бессилен, при том что термины для неспециалиста неочевидные и незнакомые. Традиционный автоматический импорт в сметной документации невозможен. В итоге 6 сметчиков вводили одну строительную очередь больше 2-х месяцев - бюджет для компании-внедренца около 2-х миллионов.

    habr.com/ru/articles/965444/

    #искусственный_интеллект #ввод_данных #вайбкодинг #строительные_сметы #строительная_документация #нормализация_данных

  23. Как вайбкодинг помог разгрести строительные сметы

    У знакомого есть консалтинговая компания по внедрению продуктов 1С в бизнес и он поделился болью - у его заказчика - среднего размера строительной компании необходимо внести в систему порядка нескольких сотен смет в xlsx формате в 1С конфигурацию, которую они внедряют. Сложность в том, что другие инженерные отрасли сильно отстают от IT в плане культуры разработки. Во времена моей юности по ФИДО ходила присказка "Если бы строители строили дома, как программисты пишут программы, то первый же залетевший дятел разрушил бы цивилизацию". Скорее всего автор этого афоризма никогда не был знаком с реальными строителями. Сейчас скорее наоборот - если бы строители писали программы, мы бы не вышли из эпохи арифмометров. Мы в IT приучены к тому, что ревью кода не пропустил коммит с лишним пробелом. У сметчиков же документация выглядит как в буквальном смысле черновики - все файлы разной структуры, с разным числом и содержанием колонок, разделы разного формата, где-то древовидные, где-то плоские, причём оформлены в разном стиле - где помечено цветом, где шрифтом, с комментариями на полях и прочее. Дело осложняется тем, что одно и то же наименование может быть записано разными сметчиками по-разному. Где просто бетон, где бетон с указанием марки, слова в разном порядке, часто одно и то же наименование, но записано и вовсе разными терминами, где синтаксический анализатор бессилен, при том что термины для неспециалиста неочевидные и незнакомые. Традиционный автоматический импорт в сметной документации невозможен. В итоге 6 сметчиков вводили одну строительную очередь больше 2-х месяцев - бюджет для компании-внедренца около 2-х миллионов.

    habr.com/ru/articles/965444/

    #искусственный_интеллект #ввод_данных #вайбкодинг #строительные_сметы #строительная_документация #нормализация_данных