#открытые_данные — Public Fediverse posts on home.social

Habr @[email protected] · 2026-04-17 · 17:12 UTC

Как мы собираем ингушский язык: словарь, корпус и ИИ в одном проекте

Ингушский язык — один из нахских языков кавказской семьи, родной для примерно 400–500 тысяч человек. На нём говорят в Ингушетии, частично в Чечне и диаспоре по всей России. Язык живой и имеет государственный статус, но его цифровое присутствие долго оставалось минимальным: разрозненные PDF-словари, несколько сообществ в соцсетях, почти ничего пригодного для повседневного использования. Так появился PaydaDosh — открытая лингвистическая платформа, которая сегодня является крупнейшим онлайн-словарём ингушского языка.

https://habr.com/ru/articles/1024816/

#ингушский_язык #лингвистика #словарь #малые_языки #лексикография #корпус_текстов #NLP #открытые_данные

#открытые_данные #nlp #корпус_текстов #лексикография #малые_языки #словарь

Habr @[email protected] · 2026-02-11 · 13:22 UTC

Только 12,5% игр в «Стиме» получают пользовательский отклик

Data-driven разбор рынка Steam 2021–2025 Каждый год десятки тысяч разработчиков выходят в Steam с надеждой, что их игра «найдет аудиторию». Платформа кажется демократичной: опубликуй игру, заплати сбор — и ты рядом с хитами. Но так ли хорошо у них дела? Данные говорят, что на деле Steam — это жесточайший рынок за внимание игроков, где либо ты привлек игроков на старте, либо тебя, вероятнее всего, ждет забвение… Представляю результат анализа данных из Steam за 2021–2025 годы (≈65 000 игр) .

https://habr.com/ru/articles/995396/

#gamedev #игры #games #аналитика #открытые_данные

#открытые_данные #аналитика #games #игры #gamedev

Habr @[email protected] · 2026-01-28 · 09:02 UTC

Новые финансовые бенчмарки для LLM. Лаборатории ИИ «Финама»

В Лаборатории искусственного интеллекта «Финама» мы изучаем и развиваем применение ИИ в домене финансов: от бенчмаркинга LLM до прикладных сценариев в трейдинге и управлении рисками. Сегодня хотим поделиться с вами нашим исследовательским проектом. В последнее время мы все чаще встречаем новости вроде “ИИ от OpenAI взял «золото» Международной олимпиады по информатике” . Главное преимущество такого формата оценки — уверенность, что задания оригинальные и что, при обучении модели они не встречались в идентичном виде. Наша лаборатория поставила себе задачу узнать — насколько обширны знания LLM в области экономики, финансов и трейдинга. Вначале мы тестировали модели на открытых Question Answering (QA) бенчмарках (FinQA, ConvFinQA, TATQA), но столкнулись с несоответствием результатов на бенчмарках и в реальном hands-on тестировании. В результате мы пришли к идее использовать для оценки LLM форматы, близкие к существующим сертификационным экзаменам, которые сдают инвесторы для подтверждения своей квалификации CFA-like Level 1, 2, 3 ( Chartered Financial Analyst ) и CMT-like Level 2 ( Chartered Market Technician ). Для проверки того, знают ли модели специфику российского рынка, мы собрали бенчмарк на основе олимпиады « Высшая лига » по трекам «Финансы и инвестиции» и «Мировая экономика». В открытом доступе ( GitHub ) опубликованы не только результаты наших замеров, но и единый фреймворк, поддерживающий как наши новые бенчмарки, так и уже существующие. Надеемся, это поможет развитию LLM4Trading!

https://habr.com/ru/companies/finam_broker/articles/989842/

#искусственный_интеллект #llmмодели #финансовые_бенчмарки #cfa #трейдинг #машинное_обучение #оценка_моделей #российский_рынок #fintech #открытые_данные

#открытые_данные #fintech #российский_рынок #оценка_моделей #машинное_обучение #трейдинг

Habr @[email protected] · 2025-07-03 · 17:02 UTC

200 000+ снимков мусора: что мы узнали о датасетах

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

https://habr.com/ru/articles/924696/

#управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

#управление_проектами #искусственный_интеллект #машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии

Habr @[email protected] · 2025-07-03 · 17:02 UTC

200 000+ снимков мусора: что мы узнали о датасетах

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

https://habr.com/ru/articles/924696/

#управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

#управление_проектами #искусственный_интеллект #машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии

Habr @[email protected] · 2025-07-03 · 17:02 UTC

200 000+ снимков мусора: что мы узнали о датасетах

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

https://habr.com/ru/articles/924696/

#управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

#управление_проектами #искусственный_интеллект #машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии

Habr @[email protected] · 2025-07-03 · 17:02 UTC

200 000+ снимков мусора: что мы узнали о датасетах

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

https://habr.com/ru/articles/924696/

#управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

#разметка_данных #парсинг_данных #сбор_данных_для_ии #разметка_датасета #открытые_данные #машинное_обучение

Habr @[email protected] · 2025-06-08 · 11:52 UTC

Как мы строили систему для проверки людей и компаний

Это моя первая статья на Хабре. Формат нащупываю. Хотелось бы сразу с кейсами и диаграммами, но решил начать с простого — краткий разбор архитектуры нашего сервиса и того, как мы пришли к текущему состоянию. Сервис — это проверка физических и юридических лиц по открытым источникам. Пользователь вводит ИНН или ФИО и получает отчёт: есть ли долги, исполнительные производства, признаки банкротства, участие в сомнительных организациях и так далее. Отчёт собирается на лету по 10+ источникам. Система существует давно. Код — не идеален. Архитектура — не микросервисная. Docker и Kubernetes у нас не прижились, зато есть реальный боевой опыт. Ниже — краткий разбор, как оно устроено, какие ошибки мы прошли и как всё это выживает под нагрузкой.

https://habr.com/ru/articles/916624/

#проверка_контрагентов #открытые_данные #архитектура_системы #агрегаторы_данных #saas #госданные #b2c #b2b #источники_данных #автоматизация

#автоматизация #источники_данных #b2b #b2c #госданные #saas

Habr @[email protected] · 2025-05-06 · 12:02 UTC

Анализ тенденций арт-рынка

Арт‑рынок непонятен для многих и работает по своим неписанным законам, которые иногда непонятны даже для самих участников рынка. Более того, процессы, происходящие в этой сфере зачастую противоречат сами себе, и бывает сложно делать верные выводы и строить прогнозы. Но, что точно не вызывает сомнений — что коронокризис дал арт‑рынку тот самый пинок , который сдвинул с места очень консервативную неповоротливую прекрасную, но смотрящую свысока на всех вокруг, машину арт‑рынка. После взлета онлайн‑продаж 2020–2021 гг. существенная часть арт‑рынка стала использовать те же инструменты, что другие классические рынки товаров:

https://habr.com/ru/articles/907298/

#аналитика_рынка #открытые_данные #арт #искусство

Habr @[email protected] · 2025-04-21 · 09:02 UTC

Как я за год написал шесть больших научных статей и несколько маленьких

Без «литературных негров» и чатГПТ — личный рассказ об инструментах, технологиях и приёмах, которые помогли мне не вылететь из аспирантуры и догнать коллег. Открытые данные, Python, R, RMarkdown, Quarto, git и немного ИИ в помощь исследователю.

https://habr.com/ru/articles/898038/

#научные_исследования #научная_работа #научные_статьи #открытые_данные #публикации #rmarkdown #deepl #rstudio #git #r_lang

#научные_исследования #научная_работа #научные_статьи #открытые_данные #публикации #rmarkdown

Habr @[email protected] · 2024-12-26 · 10:22 UTC

SOAP, XML и Python: получаем данные с zakupki.gov.ru

Эта статья написана для начинающих пользователей, которые хотят разобраться в работе сервиса отдачи информации zakupki.gov.ru. Мы шаг за шагом разберем, как получить токен для физического лица, как выглядит XML-документ для запроса и как написать простую программу на Python для взаимодействия с сервисом. Это не руководство от профессионала, а скорее дневник выживания: как не сойти с ума, пока пытаешься подружиться с сервисом zakupki.gov.ru.

https://habr.com/ru/articles/869934/

#zakupkigovru #soap #python #открытые_данные #xml

Habr @[email protected] · 2024-10-08 · 10:42 UTC

Оголяем «данные» и что из этого вышло

Однажды я задался целью создать устройство, которое измеряло бы качество воздуха — не просто как-то, а с высокой точностью. Проект по разработке устройства привел к созданию NeboAir — недорогого датчика, который претендует на высокую точность. В этом материале я расскажу об испытаниях в реальных условиях и о том, что получилось в итоге.

https://habr.com/ru/articles/848320/

#открытые_данные #стартап #экология #визуализация_данных #графики #графики_и_диаграммы #исследование #наука #наука_о_данных #наука_и_технологии

#наука_и_технологии #наука_о_данных #наука #исследование #графики_и_диаграммы #графики

Habr @[email protected] · 2024-08-13 · 07:32 UTC

Open Street Map — OSINT-инструмент для маркетологов

Собрать базу телефонов / email для холодных контактов можно несколькими способами: 1) купить готовую базу 2) написать и запустить парсер сайтов по списку 3) собирать в режиме ручного поиска в интернете Все перечисленные способы имеют свои преимущества и недостатки. В статье мы разобрали еще один способ, тоже не идеальный, но с двумя большими плюсами — быстро и бесплатно.

https://habr.com/ru/companies/first/articles/833926/

#osm #открытые_данные #маркетинг #osint

#osint #маркетинг #открытые_данные #osm

Habr @[email protected] · 2024-02-27 · 10:42 UTC

Open Research Knowledge Graph: новый подход к научной коммуникации

На сегодняшний день для представления и обмена результатами исследований мы используем методы, которые были разработаны много веков назад. С момента зарождения современной науки (публикации первого научного журнала "Transactions of the Royal Philosophical Society", 1665 г.) мы используем все тот же метод передачи научных знаний – статьи. Немецкая национальная научно-техническая библиотека TIB и исследовательский центр L3S при Университете Лейбница в Ганновере изобретают новый подход к научной коммуникации. Вместо того чтобы представлять исследования в виде статичных PDF файлов, они работают над динамическим графом знаний - Open Research Knowledge Graph , где научные идеи, подходы и методы представлены в структурированном машиночитаемом формате.

https://habr.com/ru/articles/796553/

#научные_статьи #граф_знаний #открытые_данные #научная_коммуникация #семантика