home.social

#наборы_данных — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #наборы_данных, aggregated by home.social.

  1. Система компоновки данных в 1С

    Большинство знают базу: создал схему компоновки, написал запрос, перетащил поля в настройки — получил отчёт. Но СКД умеет гораздо больше! И многие задачи, которые решают кодом в модуле отчёта, на самом деле решаются средствами самой компоновки — проще, надёжнее и с бонусом в виде пользовательской настройки. Разберём механизм и приёмы, которые экономят время и код.

    habr.com/ru/companies/otus/art

    # #скд #наборы_данных

  2. 130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

    Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.

    habr.com/ru/companies/magnus-t

    #машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ML #где_искать_датасет #обучение_моделей #компьютерное_зрение #обработка_естественного_языка #MLрепозитории #распознавание_речи

  3. 130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

    Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.

    habr.com/ru/companies/magnus-t

    #машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ML #где_искать_датасет #обучение_моделей #компьютерное_зрение #обработка_естественного_языка #MLрепозитории #распознавание_речи

  4. 130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

    Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.

    habr.com/ru/companies/magnus-t

    #машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ML #где_искать_датасет #обучение_моделей #компьютерное_зрение #обработка_естественного_языка #MLрепозитории #распознавание_речи

  5. 130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

    Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.

    habr.com/ru/companies/magnus-t

    #машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ML #где_искать_датасет #обучение_моделей #компьютерное_зрение #обработка_естественного_языка #MLрепозитории #распознавание_речи

  6. Картель влиятельных датасетов в обучении ИИ

    В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть. Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений. По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.

    habr.com/ru/companies/ruvds/ar

    #ИИ #обучение_ИИ #LLM #языковая_модель #датасеты #наборы_данных #YouTube #OpenAI #синтетические_тексты #Data_Provenance_Initiative #эффект_Матфея #концентрация_ресурсов #культурное_влияние #переобучение #SOTA #ruvds_статьи

  7. Картель влиятельных датасетов в обучении ИИ

    В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть. Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений. По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.

    habr.com/ru/companies/ruvds/ar

    #ИИ #обучение_ИИ #LLM #языковая_модель #датасеты #наборы_данных #YouTube #OpenAI #синтетические_тексты #Data_Provenance_Initiative #эффект_Матфея #концентрация_ресурсов #культурное_влияние #переобучение #SOTA #ruvds_статьи

  8. Картель влиятельных датасетов в обучении ИИ

    В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть. Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений. По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.

    habr.com/ru/companies/ruvds/ar

    #ИИ #обучение_ИИ #LLM #языковая_модель #датасеты #наборы_данных #YouTube #OpenAI #синтетические_тексты #Data_Provenance_Initiative #эффект_Матфея #концентрация_ресурсов #культурное_влияние #переобучение #SOTA #ruvds_статьи

  9. Картель влиятельных датасетов в обучении ИИ

    В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть. Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений. По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.

    habr.com/ru/companies/ruvds/ar

    #ИИ #обучение_ИИ #LLM #языковая_модель #датасеты #наборы_данных #YouTube #OpenAI #синтетические_тексты #Data_Provenance_Initiative #эффект_Матфея #концентрация_ресурсов #культурное_влияние #переобучение #SOTA #ruvds_статьи