home.social

#датасеты — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #датасеты, aggregated by home.social.

  1. Умный подоконник: как ESP32 спас мой домашний огород (и что я узнал про «невидимые» пины)

    История о том, как микроконтроллер за 500 рублей помог вырастить клубнику ранней весной, и почему важно знать «анатомию» чипа Живу в обычной квартире. Места мало, света ещё меньше. Но хочется своего — без пестицидов, свеженького. Решил организовать домашнюю ферму на подоконнике : клубника, базилик, салат, щавель, лук. Если более глобально: в Мире наблюдается перенасыщение людьми, еды на всех не хватит, Дальний Восток от Москвы далеко, а ездить за 80 км от МКАД очень часто ну точно неохота. Если летом можно использовать балкон, где много натурального солнца, то зимой и в переходные периоды (весна и осень) есть совсем маленький клочок на территории квартиры, где то ли горизонтальную ферму делать, то ли вообще вертикальную. Или гибрид вертикальной и горизонтальной. Есть еще нюанс — 4-5 прямоугольных горшков, как показал мой опыт, Вам явно не хватит. Но этого уже будет достаточно, чтобы было некоторое количество урожая к Вашему столу. Не лучше ли закупать микрозелень и клубнику в магазина, где ее «везут с Краснодара»? Ну есть проблема — в этом капитализме нас повсюду обманывают: искусственное дозревание, пестициды и дешевые эффективные добавки, не лучшее качество воздуха при выращивании в теплице и так далее. Поэтому если бумеры и поколение X ненавидели городское фермерство за то, что в загазованных условиях ты пытаешься что-то ростить, то сегодня все сложно. В небоскребе на 63 этаже вообще может быть воздух чище, чем на загородном участке в 3 метрах от забора. Все ситуативно, но на помощь приходят инструменты и средства Умного Дома и Интернета вещей. Именно сегодня наиболее актуально автоматизировать и роботизировать домашние фермы.

    habr.com/ru/articles/1025358/

    #умный_дом #умный_подоконник #агроферма #клубника_и_земляника #выращивание #выращивание_растений #автополив #умная_ферма #искусственный_интеллект #датасеты

  2. Как мы собрали русскоязычный датасет олимпиадной математики (и зачем это нужно AI)

    Математические исследования всё чаще используют методы ИИ для анализа сложных задач, генерации решений и предоставления персонализированного обучения. Но эффективность моделей напрямую зависит от качества и структуры данных, на которых они обучаются. Несмотря на обилие математических текстов в интернете, для русскоязычных моделей остро не хватает материалов, сочетающих в себе авторитетность источника, сложность содержания и лингвистическое разнообразие. Команда специалистов

    habr.com/ru/companies/doubleta

    #датасеты #обучение_моделей #неросети #олимпиадная_математика #AIME #обучение #LLM #Data_LLM

  3. Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию

    Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель

    habr.com/ru/companies/doubleta

    #датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий

  4. Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию

    Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель

    habr.com/ru/companies/doubleta

    #датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий

  5. Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию

    Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель

    habr.com/ru/companies/doubleta

    #датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий

  6. Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию

    Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель

    habr.com/ru/companies/doubleta

    #датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий

  7. Как протестировать машинный переводчик

    Машинный перевод уже стал привычной частью жизни — от деловой переписки до общения с людьми из других стран. Но за простотой нажатия кнопки «перевести» стоит сложная технология, которая требует постоянного контроля качества. В компании Lingvanex мы применяем собственный подход к выбору тестовых данных, ориентируясь на максимальную репрезентативность и адаптацию к реальным запросам клиентов. Цель состоит в том, чтобы создавать модели, которые могут точно переводить тексты как с лексической, так и с грамматической точностью, сохраняя контекст и стиль. В этой статье мы подробнее рассмотрим, как наша команда выбирает тестовые наборы данных и обсудим ограничения существующих стандартов.

    habr.com/ru/articles/955954/

    #тестирование #машинный_перевод #тестовые_данные #qa #переводчик #llmмодели #языковые_модели #machine_translation #датасеты #подход_к_тестированию

  8. MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

    Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

    habr.com/ru/companies/mts_ai/a

    #llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

  9. MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

    Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

    habr.com/ru/companies/mts_ai/a

    #llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

  10. MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

    Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

    habr.com/ru/companies/mts_ai/a

    #llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

  11. MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

    Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

    habr.com/ru/companies/mts_ai/a

    #llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

  12. 130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

    Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.

    habr.com/ru/companies/magnus-t

    #машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ML #где_искать_датасет #обучение_моделей #компьютерное_зрение #обработка_естественного_языка #MLрепозитории #распознавание_речи

  13. 130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

    Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.

    habr.com/ru/companies/magnus-t

    #машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ML #где_искать_датасет #обучение_моделей #компьютерное_зрение #обработка_естественного_языка #MLрепозитории #распознавание_речи

  14. 130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

    Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.

    habr.com/ru/companies/magnus-t

    #машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ML #где_искать_датасет #обучение_моделей #компьютерное_зрение #обработка_естественного_языка #MLрепозитории #распознавание_речи

  15. 130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

    Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.

    habr.com/ru/companies/magnus-t

    #машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ML #где_искать_датасет #обучение_моделей #компьютерное_зрение #обработка_естественного_языка #MLрепозитории #распознавание_речи

  16. Картель влиятельных датасетов в обучении ИИ

    В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть. Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений. По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.

    habr.com/ru/companies/ruvds/ar

    #ИИ #обучение_ИИ #LLM #языковая_модель #датасеты #наборы_данных #YouTube #OpenAI #синтетические_тексты #Data_Provenance_Initiative #эффект_Матфея #концентрация_ресурсов #культурное_влияние #переобучение #SOTA #ruvds_статьи

  17. Картель влиятельных датасетов в обучении ИИ

    В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть. Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений. По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.

    habr.com/ru/companies/ruvds/ar

    #ИИ #обучение_ИИ #LLM #языковая_модель #датасеты #наборы_данных #YouTube #OpenAI #синтетические_тексты #Data_Provenance_Initiative #эффект_Матфея #концентрация_ресурсов #культурное_влияние #переобучение #SOTA #ruvds_статьи

  18. Картель влиятельных датасетов в обучении ИИ

    В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть. Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений. По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.

    habr.com/ru/companies/ruvds/ar

    #ИИ #обучение_ИИ #LLM #языковая_модель #датасеты #наборы_данных #YouTube #OpenAI #синтетические_тексты #Data_Provenance_Initiative #эффект_Матфея #концентрация_ресурсов #культурное_влияние #переобучение #SOTA #ruvds_статьи

  19. Картель влиятельных датасетов в обучении ИИ

    В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть. Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений. По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.

    habr.com/ru/companies/ruvds/ar

    #ИИ #обучение_ИИ #LLM #языковая_модель #датасеты #наборы_данных #YouTube #OpenAI #синтетические_тексты #Data_Provenance_Initiative #эффект_Матфея #концентрация_ресурсов #культурное_влияние #переобучение #SOTA #ruvds_статьи

  20. [Перевод] «Чем ближе к вокзалу, тем хуже кебаб?»: «исследование»

    Во французском сабреддите я наткнулся на пост с интересной гипотезой: Чем ближе точка к вокзалу, тем хуже там кебаб. Пост на французском привлёк достаточно большое внимание, учитывая относительно небольшой размер сабреддита; это доказывало, что многие с ним согласны. Впрочем, в комментариях были и критики, рассказывающие истории, противоречащие сформулированной гипотезе. Я решил, что мне нечем заняться, ведь я вылетевший с учёбы выгоревший безработный с новоприобретённым диагнозом «аутизм», поэтому стоит пожертвовать немного своего времени на благую цель — проведение этого неформального «исследования». В пределах следующих трёх рабочих дней мне на почту точно придёт Нобелевская премия мира и куча рабочих офферов.

    habr.com/ru/articles/885880/

    #google_places_api #быстрое_питание #фастфуд #датасеты #географические_объекты

  21. [Перевод] «Чем ближе к вокзалу, тем хуже кебаб?»: «исследование»

    Во французском сабреддите я наткнулся на пост с интересной гипотезой: Чем ближе точка к вокзалу, тем хуже там кебаб. Пост на французском привлёк достаточно большое внимание, учитывая относительно небольшой размер сабреддита; это доказывало, что многие с ним согласны. Впрочем, в комментариях были и критики, рассказывающие истории, противоречащие сформулированной гипотезе. Я решил, что мне нечем заняться, ведь я вылетевший с учёбы выгоревший безработный с новоприобретённым диагнозом «аутизм», поэтому стоит пожертвовать немного своего времени на благую цель — проведение этого неформального «исследования». В пределах следующих трёх рабочих дней мне на почту точно придёт Нобелевская премия мира и куча рабочих офферов.

    habr.com/ru/articles/885880/

    #google_places_api #быстрое_питание #фастфуд #датасеты #географические_объекты

  22. [Перевод] «Чем ближе к вокзалу, тем хуже кебаб?»: «исследование»

    Во французском сабреддите я наткнулся на пост с интересной гипотезой: Чем ближе точка к вокзалу, тем хуже там кебаб. Пост на французском привлёк достаточно большое внимание, учитывая относительно небольшой размер сабреддита; это доказывало, что многие с ним согласны. Впрочем, в комментариях были и критики, рассказывающие истории, противоречащие сформулированной гипотезе. Я решил, что мне нечем заняться, ведь я вылетевший с учёбы выгоревший безработный с новоприобретённым диагнозом «аутизм», поэтому стоит пожертвовать немного своего времени на благую цель — проведение этого неформального «исследования». В пределах следующих трёх рабочих дней мне на почту точно придёт Нобелевская премия мира и куча рабочих офферов.

    habr.com/ru/articles/885880/

    #google_places_api #быстрое_питание #фастфуд #датасеты #географические_объекты

  23. [Перевод] «Чем ближе к вокзалу, тем хуже кебаб?»: «исследование»

    Во французском сабреддите я наткнулся на пост с интересной гипотезой: Чем ближе точка к вокзалу, тем хуже там кебаб. Пост на французском привлёк достаточно большое внимание, учитывая относительно небольшой размер сабреддита; это доказывало, что многие с ним согласны. Впрочем, в комментариях были и критики, рассказывающие истории, противоречащие сформулированной гипотезе. Я решил, что мне нечем заняться, ведь я вылетевший с учёбы выгоревший безработный с новоприобретённым диагнозом «аутизм», поэтому стоит пожертвовать немного своего времени на благую цель — проведение этого неформального «исследования». В пределах следующих трёх рабочих дней мне на почту точно придёт Нобелевская премия мира и куча рабочих офферов.

    habr.com/ru/articles/885880/

    #google_places_api #быстрое_питание #фастфуд #датасеты #географические_объекты

  24. GAN и диффузионные модели: как научить нейросеть рисовать

    Привет! Сегодня хочу поговорить о двух очень горячих темах в области искусственного интеллекта — генеративно‑состязательные сети (GAN) и диффузионные модели (типа Stable Diffusion). Я сама как‑то подсела на все эти AI‑картинки и поняла, что нужно срочно поделиться тем что накопала. Поехали!:‑)

    habr.com/ru/articles/871722/

    #GAN #диффузионные_модели #Stable_Diffusion #генеративные_сети #искусственный_интеллект #машинное_обучение #PyTorch #датасеты #синтетические_данные #AIарт

  25. [Перевод] Уроки, извлеченные из масштабирования до многотерабайтных датасетов

    В этой статье я расскажу об уроках, которые вынес при работе с многотерабайтными датасетами. Объясню, с какими сложностями столкнулся при увеличении масштабов датасета и как их удалось решить. Я разделил статью на две части: первая посвящена масштабированию на отдельной машине, вторая — масштабированию на множестве машин. Наша цель — максимизировать доступные ресурсы и как можно быстрее выполнить поставленные задачи.

    habr.com/ru/companies/magnus-t

    #датасеты #big_data #joblib #машинное+обучение #параллелизация #spark #dask #виртуализация #инстансы #виртуальная_машина