#gliner — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #gliner, aggregated by home.social.
-
Тихая эволюция zero-shot энкодеров. От UniNER до GLiNER 2
Пока все говорят про LLM агентов, есть целый класс задач где 205M энкодер делает ту же работу что ChatGPT - быстрее, дешевле, без vendor lock-in. Я хочу рассказать про эволюцию энкодеров, которую вы возможно пропустили: начиная от UniNER, заканчивая GLiNER 2, с ключевыми инсайтами на каждом шаге.
-
Русский Маскарад — применение NER для защиты персональных данных
Всем привет! На связи команда хакатонщиков “Старые Бауманцы” и я - Саша Зазнобин. Сегодня хочу поговорить с вами о такой малоприятной теме как защита персональных данных. Если вы точно знаете, чего хотите от этой статьи - листайте в конец, там метрики разных моделей в табличном виде. С остальными продолжим вдумчивую беседу по порядку. Мировой ландшафт в этой части воистину впечатляет тут и 152-ФЗ в России, и более 20 разных законов действующих по своему в разных штатах США и Генеральный регламент ЕС о защите персональных данных. Единственное разумное объяснение всего это регуляторного фестиваля для меня - это то, что рептилойды-инопланетяне, тайно контролирующие землю, испугались рывка технологического прогресса в искусственном интеллекте и через эти законы пытаются затормозить прогресс. Все остальные объяснения звучат просто несостоятельно. Впрочем вернемся к основной теме. Итак, сегодня мы будем соблюдать закон о персональных данных (иначе говоря побеждать заговор рептилойдов) через маскировку персональных данных.То есть мы их будем выявлять и маскировать - а потом обрабатывать данные так как нашей душеньке угодно. Для этого существует отдельный класс задач в data science: Named Entity Recognition сокращенно (NER) — технология обработки естественного языка, направленная на выделение определенных сущностей в тексте, таких как имена людей, географические объекты, названия организаций, даты, номера телефонов и другие категории. Основная цель в рамках поставленной задачи NER для маскирования персональных данных — автоматически распознавать и скрывать (маскировать) чувствительную информацию в текстах.