#датасеты — Public Fediverse posts on home.social

Habr @[email protected] · 2026-04-19 · 19:32 UTC

Умный подоконник: как ESP32 спас мой домашний огород (и что я узнал про «невидимые» пины)

История о том, как микроконтроллер за 500 рублей помог вырастить клубнику ранней весной, и почему важно знать «анатомию» чипа Живу в обычной квартире. Места мало, света ещё меньше. Но хочется своего — без пестицидов, свеженького. Решил организовать домашнюю ферму на подоконнике : клубника, базилик, салат, щавель, лук. Если более глобально: в Мире наблюдается перенасыщение людьми, еды на всех не хватит, Дальний Восток от Москвы далеко, а ездить за 80 км от МКАД очень часто ну точно неохота. Если летом можно использовать балкон, где много натурального солнца, то зимой и в переходные периоды (весна и осень) есть совсем маленький клочок на территории квартиры, где то ли горизонтальную ферму делать, то ли вообще вертикальную. Или гибрид вертикальной и горизонтальной. Есть еще нюанс — 4-5 прямоугольных горшков, как показал мой опыт, Вам явно не хватит. Но этого уже будет достаточно, чтобы было некоторое количество урожая к Вашему столу. Не лучше ли закупать микрозелень и клубнику в магазина, где ее «везут с Краснодара»? Ну есть проблема — в этом капитализме нас повсюду обманывают: искусственное дозревание, пестициды и дешевые эффективные добавки, не лучшее качество воздуха при выращивании в теплице и так далее. Поэтому если бумеры и поколение X ненавидели городское фермерство за то, что в загазованных условиях ты пытаешься что-то ростить, то сегодня все сложно. В небоскребе на 63 этаже вообще может быть воздух чище, чем на загородном участке в 3 метрах от забора. Все ситуативно, но на помощь приходят инструменты и средства Умного Дома и Интернета вещей. Именно сегодня наиболее актуально автоматизировать и роботизировать домашние фермы.

https://habr.com/ru/articles/1025358/

#умный_дом #умный_подоконник #агроферма #клубника_и_земляника #выращивание #выращивание_растений #автополив #умная_ферма #искусственный_интеллект #датасеты

#датасеты #искусственный_интеллект #умная_ферма #автополив #выращивание_растений #выращивание

Habr @[email protected] · 2026-04-13 · 14:02 UTC

Как мы собрали русскоязычный датасет олимпиадной математики (и зачем это нужно AI)

Математические исследования всё чаще используют методы ИИ для анализа сложных задач, генерации решений и предоставления персонализированного обучения. Но эффективность моделей напрямую зависит от качества и структуры данных, на которых они обучаются. Несмотря на обилие математических текстов в интернете, для русскоязычных моделей остро не хватает материалов, сочетающих в себе авторитетность источника, сложность содержания и лингвистическое разнообразие. Команда специалистов

https://habr.com/ru/companies/doubletapp/articles/1022826/

#датасеты #обучение_моделей #неросети #олимпиадная_математика #AIME #обучение #LLM #Data_LLM

#data_llm #llm #обучение #aime #олимпиадная_математика #неросети

Habr @[email protected] · 2026-03-18 · 13:12 UTC

Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию

Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель

https://habr.com/ru/companies/doubletapp/articles/1011314/

#датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий

#автоматизация_предприятий #автоматизация_бизнеспроцессов #автоматизация_бизнеса #обучение_нейронных_сетей #компьютерное_зрение #разметка_изображений

Habr @[email protected] · 2026-03-18 · 13:12 UTC

Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию

Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель

https://habr.com/ru/companies/doubletapp/articles/1011314/

#датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий

#автоматизация_предприятий #автоматизация_бизнеспроцессов #автоматизация_бизнеса #обучение_нейронных_сетей #компьютерное_зрение #разметка_изображений

Habr @[email protected] · 2026-03-18 · 13:12 UTC

Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию

Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель

https://habr.com/ru/companies/doubletapp/articles/1011314/

#датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий

#автоматизация_предприятий #автоматизация_бизнеспроцессов #автоматизация_бизнеса #обучение_нейронных_сетей #компьютерное_зрение #разметка_изображений

Habr @[email protected] · 2026-03-18 · 13:12 UTC

Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию

Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель

https://habr.com/ru/companies/doubletapp/articles/1011314/

#датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий

#датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение

Habr @[email protected] · 2025-10-13 · 09:12 UTC

Как протестировать машинный переводчик

Машинный перевод уже стал привычной частью жизни — от деловой переписки до общения с людьми из других стран. Но за простотой нажатия кнопки «перевести» стоит сложная технология, которая требует постоянного контроля качества. В компании Lingvanex мы применяем собственный подход к выбору тестовых данных, ориентируясь на максимальную репрезентативность и адаптацию к реальным запросам клиентов. Цель состоит в том, чтобы создавать модели, которые могут точно переводить тексты как с лексической, так и с грамматической точностью, сохраняя контекст и стиль. В этой статье мы подробнее рассмотрим, как наша команда выбирает тестовые наборы данных и обсудим ограничения существующих стандартов.

https://habr.com/ru/articles/955954/

#тестирование #машинный_перевод #тестовые_данные #qa #переводчик #llmмодели #языковые_модели #machine_translation #датасеты #подход_к_тестированию

#подход_к_тестированию #датасеты #machine_translation #языковые_модели #llmмодели #переводчик

Habr @[email protected] · 2025-10-09 · 09:52 UTC

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

https://habr.com/ru/companies/mts_ai/articles/953292/

#llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

#датасеты #мультимодальные_модели #мультимодальность #бенчмарки_бям #бенчмарки #vlm

Habr @[email protected] · 2025-10-09 · 09:52 UTC

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

https://habr.com/ru/companies/mts_ai/articles/953292/

#llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

#датасеты #мультимодальные_модели #мультимодальность #бенчмарки_бям #бенчмарки #vlm

Habr @[email protected] · 2025-10-09 · 09:52 UTC

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

https://habr.com/ru/companies/mts_ai/articles/953292/

#llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

#датасеты #мультимодальные_модели #мультимодальность #бенчмарки_бям #бенчмарки #vlm

Habr @[email protected] · 2025-10-09 · 09:52 UTC

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

https://habr.com/ru/companies/mts_ai/articles/953292/

#llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

#llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность

Habr @[email protected] · 2025-10-08 · 09:12 UTC

130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.

https://habr.com/ru/companies/magnus-tech/articles/954130/

#машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ML #где_искать_датасет #обучение_моделей #компьютерное_зрение #обработка_естественного_языка #MLрепозитории #распознавание_речи

#распознавание_речи #mlрепозитории #обработка_естественного_языка #компьютерное_зрение #обучение_моделей #где_искать_датасет

Habr @[email protected] · 2025-10-08 · 09:12 UTC

130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.

https://habr.com/ru/companies/magnus-tech/articles/954130/

#машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ML #где_искать_датасет #обучение_моделей #компьютерное_зрение #обработка_естественного_языка #MLрепозитории #распознавание_речи

#распознавание_речи #mlрепозитории #обработка_естественного_языка #компьютерное_зрение #обучение_моделей #где_искать_датасет

Habr @[email protected] · 2025-10-08 · 09:12 UTC

130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.

https://habr.com/ru/companies/magnus-tech/articles/954130/

#машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ML #где_искать_датасет #обучение_моделей #компьютерное_зрение #обработка_естественного_языка #MLрепозитории #распознавание_речи

#распознавание_речи #mlрепозитории #обработка_естественного_языка #компьютерное_зрение #обучение_моделей #где_искать_датасет

Habr @[email protected] · 2025-10-08 · 09:12 UTC

130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.

https://habr.com/ru/companies/magnus-tech/articles/954130/

#машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ML #где_искать_датасет #обучение_моделей #компьютерное_зрение #обработка_естественного_языка #MLрепозитории #распознавание_речи

#машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ml #где_искать_датасет #обучение_моделей

Habr @[email protected] · 2025-03-25 · 10:32 UTC

Картель влиятельных датасетов в обучении ИИ

В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть. Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений. По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.

https://habr.com/ru/companies/ruvds/articles/885924/

#ИИ #обучение_ИИ #LLM #языковая_модель #датасеты #наборы_данных #YouTube #OpenAI #синтетические_тексты #Data_Provenance_Initiative #эффект_Матфея #концентрация_ресурсов #культурное_влияние #переобучение #SOTA #ruvds_статьи

#ruvds_статьи #sota #переобучение #культурное_влияние #концентрация_ресурсов #эффект_матфея

Habr @[email protected] · 2025-03-25 · 10:32 UTC

Картель влиятельных датасетов в обучении ИИ

В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть. Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений. По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.

https://habr.com/ru/companies/ruvds/articles/885924/

#ИИ #обучение_ИИ #LLM #языковая_модель #датасеты #наборы_данных #YouTube #OpenAI #синтетические_тексты #Data_Provenance_Initiative #эффект_Матфея #концентрация_ресурсов #культурное_влияние #переобучение #SOTA #ruvds_статьи

#ruvds_статьи #sota #переобучение #культурное_влияние #концентрация_ресурсов #эффект_матфея

Habr @[email protected] · 2025-03-25 · 10:32 UTC

Картель влиятельных датасетов в обучении ИИ

В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть. Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений. По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.

https://habr.com/ru/companies/ruvds/articles/885924/

#ИИ #обучение_ИИ #LLM #языковая_модель #датасеты #наборы_данных #YouTube #OpenAI #синтетические_тексты #Data_Provenance_Initiative #эффект_Матфея #концентрация_ресурсов #культурное_влияние #переобучение #SOTA #ruvds_статьи

#ruvds_статьи #sota #переобучение #культурное_влияние #концентрация_ресурсов #эффект_матфея

Habr @[email protected] · 2025-03-25 · 10:32 UTC

Картель влиятельных датасетов в обучении ИИ

В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть. Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений. По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.

https://habr.com/ru/companies/ruvds/articles/885924/

#ИИ #обучение_ИИ #LLM #языковая_модель #датасеты #наборы_данных #YouTube #OpenAI #синтетические_тексты #Data_Provenance_Initiative #эффект_Матфея #концентрация_ресурсов #культурное_влияние #переобучение #SOTA #ruvds_статьи

#ии #обучение_ии #llm #языковая_модель #датасеты #наборы_данных

Habr @[email protected] · 2025-02-26 · 09:52 UTC

[Перевод] «Чем ближе к вокзалу, тем хуже кебаб?»: «исследование»

Во французском сабреддите я наткнулся на пост с интересной гипотезой: Чем ближе точка к вокзалу, тем хуже там кебаб. Пост на французском привлёк достаточно большое внимание, учитывая относительно небольшой размер сабреддита; это доказывало, что многие с ним согласны. Впрочем, в комментариях были и критики, рассказывающие истории, противоречащие сформулированной гипотезе. Я решил, что мне нечем заняться, ведь я вылетевший с учёбы выгоревший безработный с новоприобретённым диагнозом «аутизм», поэтому стоит пожертвовать немного своего времени на благую цель — проведение этого неформального «исследования». В пределах следующих трёх рабочих дней мне на почту точно придёт Нобелевская премия мира и куча рабочих офферов.

https://habr.com/ru/articles/885880/

#google_places_api #быстрое_питание #фастфуд #датасеты #географические_объекты

#географические_объекты #датасеты #фастфуд #быстрое_питание #google_places_api

Habr @[email protected] · 2025-02-26 · 09:52 UTC

[Перевод] «Чем ближе к вокзалу, тем хуже кебаб?»: «исследование»

Во французском сабреддите я наткнулся на пост с интересной гипотезой: Чем ближе точка к вокзалу, тем хуже там кебаб. Пост на французском привлёк достаточно большое внимание, учитывая относительно небольшой размер сабреддита; это доказывало, что многие с ним согласны. Впрочем, в комментариях были и критики, рассказывающие истории, противоречащие сформулированной гипотезе. Я решил, что мне нечем заняться, ведь я вылетевший с учёбы выгоревший безработный с новоприобретённым диагнозом «аутизм», поэтому стоит пожертвовать немного своего времени на благую цель — проведение этого неформального «исследования». В пределах следующих трёх рабочих дней мне на почту точно придёт Нобелевская премия мира и куча рабочих офферов.

https://habr.com/ru/articles/885880/

#google_places_api #быстрое_питание #фастфуд #датасеты #географические_объекты

#географические_объекты #датасеты #фастфуд #быстрое_питание #google_places_api

Habr @[email protected] · 2025-02-26 · 09:52 UTC

[Перевод] «Чем ближе к вокзалу, тем хуже кебаб?»: «исследование»

Во французском сабреддите я наткнулся на пост с интересной гипотезой: Чем ближе точка к вокзалу, тем хуже там кебаб. Пост на французском привлёк достаточно большое внимание, учитывая относительно небольшой размер сабреддита; это доказывало, что многие с ним согласны. Впрочем, в комментариях были и критики, рассказывающие истории, противоречащие сформулированной гипотезе. Я решил, что мне нечем заняться, ведь я вылетевший с учёбы выгоревший безработный с новоприобретённым диагнозом «аутизм», поэтому стоит пожертвовать немного своего времени на благую цель — проведение этого неформального «исследования». В пределах следующих трёх рабочих дней мне на почту точно придёт Нобелевская премия мира и куча рабочих офферов.

https://habr.com/ru/articles/885880/

#google_places_api #быстрое_питание #фастфуд #датасеты #географические_объекты

#географические_объекты #датасеты #фастфуд #быстрое_питание #google_places_api

Habr @[email protected] · 2025-02-26 · 09:52 UTC

[Перевод] «Чем ближе к вокзалу, тем хуже кебаб?»: «исследование»

Во французском сабреддите я наткнулся на пост с интересной гипотезой: Чем ближе точка к вокзалу, тем хуже там кебаб. Пост на французском привлёк достаточно большое внимание, учитывая относительно небольшой размер сабреддита; это доказывало, что многие с ним согласны. Впрочем, в комментариях были и критики, рассказывающие истории, противоречащие сформулированной гипотезе. Я решил, что мне нечем заняться, ведь я вылетевший с учёбы выгоревший безработный с новоприобретённым диагнозом «аутизм», поэтому стоит пожертвовать немного своего времени на благую цель — проведение этого неформального «исследования». В пределах следующих трёх рабочих дней мне на почту точно придёт Нобелевская премия мира и куча рабочих офферов.

https://habr.com/ru/articles/885880/

#google_places_api #быстрое_питание #фастфуд #датасеты #географические_объекты

Habr @[email protected] · 2025-01-05 · 11:32 UTC

GAN и диффузионные модели: как научить нейросеть рисовать

Привет! Сегодня хочу поговорить о двух очень горячих темах в области искусственного интеллекта — генеративно‑состязательные сети (GAN) и диффузионные модели (типа Stable Diffusion). Я сама как‑то подсела на все эти AI‑картинки и поняла, что нужно срочно поделиться тем что накопала. Поехали!:‑)

https://habr.com/ru/articles/871722/

#GAN #диффузионные_модели #Stable_Diffusion #генеративные_сети #искусственный_интеллект #машинное_обучение #PyTorch #датасеты #синтетические_данные #AIарт

#gan #диффузионные_модели #stable_diffusion #генеративные_сети #искусственный_интеллект #машинное_обучение

Habr @[email protected] · 2024-08-09 · 15:22 UTC

[Перевод] Уроки, извлеченные из масштабирования до многотерабайтных датасетов

В этой статье я расскажу об уроках, которые вынес при работе с многотерабайтными датасетами. Объясню, с какими сложностями столкнулся при увеличении масштабов датасета и как их удалось решить. Я разделил статью на две части: первая посвящена масштабированию на отдельной машине, вторая — масштабированию на множестве машин. Наша цель — максимизировать доступные ресурсы и как можно быстрее выполнить поставленные задачи.

https://habr.com/ru/companies/magnus-tech/articles/834506/

#датасеты #big_data #joblib #машинное+обучение #параллелизация #spark #dask #виртуализация #инстансы #виртуальная_машина

#виртуальная_машина #инстансы #виртуализация #dask #spark #параллелизация