home.social

#фильтрация_спама — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #фильтрация_спама, aggregated by home.social.

  1. Методы распознавания матерных (и не только) языков

    Всем привет! Меня зовут Миша, я работаю Backend-разработчиком в Doubletapp . В одном из проектов появилась фича по добавлению тегов по интересам. Любой пользователь может создать интерес, и он будет виден всем остальным. Неожиданно (!!!) появились интересы с не очень хорошими словами, которые обычно называют матерными. Встала задача по распознаванию языка с матерными словами, чтобы исключить возможность добавления гадости в наш огород!

    habr.com/ru/companies/doubleta

    #распознавание_речи #распознавание_текста #фильтрация_спама #триграммы #нечеткий_поиск #chatgpt

  2. Интернет тонет в спаме

    Спам в каталоге пакетов npm Интернет уже не тот, что в 90-е. Тогда мы искали интересные сайты по тематическим каталогам Yahoo и Рамблера. Поисковых систем не существовало до появления AltaVista. Даже мысли не было создавать мусорные сайты для прокрутки рекламы, продажи ненужных товаров или обмана людей. Коммерция ещё не пришла в интернет. Сейчас совсем другое дело. Почти никто уже не воспринимает интернет как технологическое чудо и научный инструмент. Для мошенников это просто ещё один способ обмануть окружающих. Когда знакомый бизнесмен в начале 2000-х узнал про существование электронной почты, его первый вопрос был — как разослать тысячи писем со своей рекламой? Факт аморальности рассылки спама его совершенно не смутил на фоне потенциальной прибыли. У коммерсантов просто другая система ценностей. И не только электронная почта. То же самое с сайтами, блогами и остальным UGC: сегодня всё генерируется автоматически для поисковой оптимизации, облапошивания простых людей и выманивания денег любым путём. Иногда кажется, что в интернете осталось только 5% полезного контента — и 95% спама.

    habr.com/ru/articles/854224/

    #спам #Спамооборона #LLM #генерация_текстов #водяные_знаки #фильтрация_спама #DMARC #SPF #DKIM #поисковая_оптимизация #спуфинг #SynthIDText #Github #ARC #SEO #Google #поисковый_спам #GPT_Store