home.social

#расстояние_левенштейна — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #расстояние_левенштейна, aggregated by home.social.

  1. Нечёткий поиск при пересечении множеств, или Как выжать все соки из Хэширования по сигнатуре

    На просторах интернета легко можно найти материалы по реализации нечёткого поиска, в которых предполагается поиск одной строки в множестве строк M . Но что если возникнет необходимость реализовать нечёткое сравнение множества M₁ с множеством M₂ ? При классическом подходе нам придется выполнить сравнений - при линейном росте этих множеств, сложность задачи будет расти экспоненциально , в плане производительности это решение никуда не годиться! В этой статье предложен вариант реализации ускоренного алгоритма для решения этой задачи. Теоретической новизны в проекте практически нет. Цели: 1 - Ознакомить с концепцией 2 - Дать конкретный пример интеграции в БД SQL(MSSQL) 3 - Ознакомить с возможностями на базе практической реализации

    habr.com/ru/articles/965934/

    #нечёткое_сравнение_строк #расстояние_хэмминга #расстояние_левенштейна #hengine #хэширование_по_сигнатуре #sql #интеграция_стороннего_кода_в_SQL #mssql #sqlclr #c#net

  2. [Перевод] Обрабатываем строки в 109 раз быстрее, чем Nvidia на H100

    Недавно я выпустил StringZilla v4 — первый релиз с поддержкой CUDA моей библиотеки для обработки строк. нацеленной в первую очередь на SIMD . Это означает, что теперь она стала быстрой не только на CPU, но и на GPU! • Я хотел добавить ускорение ROCm для GPU AMD • Я хотел добавить параллельный мультипаттерновый алгоритм поиска • Я хотел опубликовать всё это ещё в декабре 2024 года Итак, не всё пошло по плану, но StringZilla 4 CUDA наконец-то здесь, и она добавляет 500 с лишним GigaCUPS вычислений редакторского расстояния; при этом пакет можно установить через pip install . Также в ней есть некоторые другие трюки, предназначенные для крупномасштабных систем извлечения данных, баз данных и озёр данных, а также биоинформационных задач . И всё это под разрешительной опенсорсной лицензией Apache 2.0, позволяющей свободно использовать библиотеку в коммерческих целях. В этом посте я рассмотрю самые интересные части релиза, и в том числе: • Быструю оценку алгоритмов динамического программирования на GPU , • Хэширование CRC32 , MurMurHash , xxHash , aHash и не только, а также • Фингерпринтинг биологических последовательностей 52-битными целыми числами

    habr.com/ru/articles/949522/

    #обработка_строк #string #белки #расстояние_левенштейна