home.social

#dataset — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #dataset, aggregated by home.social.

  1. Muchos intentan asociar el rótulo de open source como «libre de culpa y cargo». Y siguen mezclando peras con manzanas. El hecho de que un modelo sea open source no garantiza que sea ético, transparente, confiable ni con seguridad jurídica. Stable Diffusion se lanzó como open source y es la génesis del mal en todo este asunto.

    #AI #StableDiffusion #opensource #genAI #stabilityAI #LAION #generativeAI #ethical #ethics #technology #dataset

  2. theguardian.com/society/2026/a. "Last year, there were 347 #deaths, including 150 from suicide & 125 domestic homicides. Across the 5-year #dataset, #victims were predominantly #female (73%), & #suspects predominantly #male (79%). Over the 5 years, the project recorded 1,452 deaths in 1,410 incidents - 641 of these were domestic homicides, 553 were suicide after domestic #abuse, 131 unexpected deaths, 86 child deaths & 41 deaths classified as 'other'."

  3. От сигнатур к ML IDS: чему IDS Suricata может научить модель?

    [Текст не для публикации: не нашел как Редакции прикрепить сообщение, эта статья написана в рамках Блога "Институт системного программирования им. В.П. Иванникова РАН"]

    habr.com/ru/articles/1015132/

    #IDS #Suricata #ML #dataset

  4. M.M. Sandin et al. (preprint, 2025) "inferred a timeline of #eukaryoteevolution using molecular clock and birth-death diversification models". They used a "#dataset of 75,975 non-redundant...#taxonomicunits and 77 well-supported fossil calibrations" and reconstructed an #evolutionary #diversification of #eukaryote #crowngroup representatives in the Proterozoic (ca. 2.5 billion to 541 million y. ago).
    StefanFWirth

    Ref
    doi.org/10.64898/2025.12.12.69

    Fig
    M.M.Sandin et al.(2025), creativecommons.org/licenses/b

  5. APB FYI

    I've just removed the LLM network which creates Alt texts, useless for blind people.

    I've consulted several blind people IRL who told me the same thing.

    Alt text generated by all LLM systems is useless

    The system that we have here on the FediVerse which uses a ethical data set, puts the emphasis on useless details for the blind individual.

    The blind person can immediately see if a photograph has been described by the photographer.

    It is totally different from what an LLM can produce.

    The emphasis are straight to the point

    • the description has a technical part
    • the description has a compositional part
    • the description has a color part
    • the description has a lighting part
    • the description has a short story

    All of the above are important for the blind individual, however a large language model, doesn't know anything; it puts elaborate emphasis on things that are totally unnecessary absolutely unusable and makes the description messy to such a degree that all those Alt texts are simply ignored by the blind people.

    Background:

    As a young child I was extremely traumatized by cousin LLoyd, who broke my right eye, by throwing a stone into my eye.

    Note

    The only thing the only section that wasn't broken was the section that can never heal
    I had to walk a whole year with a broken eye. I had not only lost depth of vision, I also lost a considerable amount of information which made my brains work much harder and made seeing the world much more difficult, putting extreme stress on my left eye.

    From that perspective, I know from personal experience trauma and horror, what it means for a blind person to tell you that your LLM generated Slop, Alt text description, is totally useless.

    I've checked the bot going through many iterations of many LLM back ends and came to the same conclusion as the blind people

    ALT text generated by any LLM is useless

    Note
    Cousin LLoyd was angry that I laughed at him & Paul for fighting with his big brother about a cooked egg, instead of sharing it. They were living in a hostile environment
    I got my sight back thanks to a genious of an eye surgeon, who literally rebuilt my eye. I'm eternally grateful to him
    EOF

    en.wikipedia.org/wiki/Large_la

    Z

    #LLM #AI #generated #Slop #Alt #text #useless #training #model #dataset #technology #Closed #Source #energy #environment #waste #medical #surgeon #eye #broken #healing #year

  6. Сделай сам с помощью ИИ: Собираем систему мониторинга теплицы без знания кода

    Приветствую! Меня всё ещё зовут Александр Воробьев и я всё ещё пытаюсь облегчить жизнь программистам микроконтроллеров, схемотехникам, стартаперам и всем тем, кто не ровно дышет к автоматизации и технологиям. В далеком 2022 году решил я автоматизировать теплицу тёще и даже это реализовал на базе ESP32 с управлением автополива по WI-FI и мониторингом температуры, освещенности, влажности почвы в теплице. Использовал готовый сервис интернета вещей iocontrol.ru для управления поливом и мониторингом телеметрии - температура, влажность, освещенность. Удобная штука, но с ограничениями. Но тем не менее огромное спасибо создателям этого веб ресурса! Вкратце расскажу про железную часть проекта

    habr.com/ru/articles/1005606/

    #esp32 #esp32c6 #электроника #ииагенты #iot #aiot #беспроводные_технологии #big_data #dataset #умная_теплица

  7. Сделай сам с помощью ИИ: Собираем систему мониторинга теплицы без знания кода

    Приветствую! Меня всё ещё зовут Александр Воробьев и я всё ещё пытаюсь облегчить жизнь программистам микроконтроллеров, схемотехникам, стартаперам и всем тем, кто не ровно дышет к автоматизации и технологиям. В далеком 2022 году решил я автоматизировать теплицу тёще и даже это реализовал на базе ESP32 с управлением автополива по WI-FI и мониторингом температуры, освещенности, влажности почвы в теплице. Использовал готовый сервис интернета вещей iocontrol.ru для управления поливом и мониторингом телеметрии - температура, влажность, освещенность. Удобная штука, но с ограничениями. Но тем не менее огромное спасибо создателям этого веб ресурса! Вкратце расскажу про железную часть проекта

    habr.com/ru/articles/1005606/

    #esp32 #esp32c6 #электроника #ииагенты #iot #aiot #беспроводные_технологии #big_data #dataset #умная_теплица

  8. Сделай сам с помощью ИИ: Собираем систему мониторинга теплицы без знания кода

    Приветствую! Меня всё ещё зовут Александр Воробьев и я всё ещё пытаюсь облегчить жизнь программистам микроконтроллеров, схемотехникам, стартаперам и всем тем, кто не ровно дышет к автоматизации и технологиям. В далеком 2022 году решил я автоматизировать теплицу тёще и даже это реализовал на базе ESP32 с управлением автополива по WI-FI и мониторингом температуры, освещенности, влажности почвы в теплице. Использовал готовый сервис интернета вещей iocontrol.ru для управления поливом и мониторингом телеметрии - температура, влажность, освещенность. Удобная штука, но с ограничениями. Но тем не менее огромное спасибо создателям этого веб ресурса! Вкратце расскажу про железную часть проекта

    habr.com/ru/articles/1005606/

    #esp32 #esp32c6 #электроника #ииагенты #iot #aiot #беспроводные_технологии #big_data #dataset #умная_теплица

  9. Сделай сам с помощью ИИ: Собираем систему мониторинга теплицы без знания кода

    Приветствую! Меня всё ещё зовут Александр Воробьев и я всё ещё пытаюсь облегчить жизнь программистам микроконтроллеров, схемотехникам, стартаперам и всем тем, кто не ровно дышет к автоматизации и технологиям. В далеком 2022 году решил я автоматизировать теплицу тёще и даже это реализовал на базе ESP32 с управлением автополива по WI-FI и мониторингом температуры, освещенности, влажности почвы в теплице. Использовал готовый сервис интернета вещей iocontrol.ru для управления поливом и мониторингом телеметрии - температура, влажность, освещенность. Удобная штука, но с ограничениями. Но тем не менее огромное спасибо создателям этого веб ресурса! Вкратце расскажу про железную часть проекта

    habr.com/ru/articles/1005606/

    #esp32 #esp32c6 #электроника #ииагенты #iot #aiot #беспроводные_технологии #big_data #dataset #умная_теплица

  10. 👀The Neural Network Factory: An LLM-Generated Dataset 👀

    We leveraged GPT-5 to automatically generate a diverse dataset of neural networks suitable for empirical experimentation.

    The dataset contains 608 neural networks implemented in PyTorch, each defined by explicit design choices across four key dimensions: architecture type, task category, input data characteristics, and model complexity.

    -- Work led by Nadia DAOUDI

    🔗 livablesoftware.com/neural-net

    #NN #llm #dataset #empirical #research

  11. 69 часов экспериментов с YOLO. Что на самом деле влияет на качество модели

    Существуют множество готовых решений, позволяющих запускать модели «из коробки», и YOLO не исключение. Встроенные механизмы автоматически подбирают параметры обучения модели, что удобно для быстрых экспериментов и прототипов. Но инженерный интерес рано или поздно берёт своё. Хочется попробовать разные версии, разобраться в тонкостях работы модели и понять, почему модель ведёт себя именно так, а не иначе. С одной стороны, кажется, зачем что-то менять, если уже есть «оптимальное решение»? А с другой исследовательский азарт: «А что, если попробовать так?» или «Почему это работает именно так?». На практике выясняется, что подбор гиперпараметров задача не такая уж простая. Важно учитывать версии библиотек, совместимость кода и особенности расчёта метрик, которые могут отличаться от релиза к релизу. В статье я делюсь собственным опытом экспериментов с разными версиями YOLO на личном датасете.

    habr.com/ru/articles/983246/

    #yolo #dataset #обучение_моделей #computer_vision #pcb #machine_learning #машинное_обучение #учусь_программировать #cv #ultralytics

  12. Автоматизированные системы мониторинга моделей машинного обучения с помощью нашего open source фреймворка

    Любая модель машинного обучения начинается с данных . Известное выражение «garbage in, garbage out» как нельзя лучше описывает главную уязвимость ML‑систем. В автоматизированном машинном обучении (AutoML) наиболее критичными точками являются процесс сборки данных и проблема мониторинга данных, в т.ч. в онлайне. Если процессы feature engineering и обучения наша библиотека формализует «из коробки» с помощью конфигурационных файлов и единых правил, то ответственность за загрузку и получение данных несет пользователь.

    habr.com/ru/companies/vsk_insu

    #bigdata #big_data #big_data_analytics #python #opensource #ml #learning #mlинженер #dataset #data_science

  13. @rl_dane

    When I have the bandwidth I will download the set and play with it, including archivers.
    However I'm certain it's available in zip format
    Check the torrents

    #Programming #Pile #program #OpenSource #LLM #slop #AI #technology #dataset

  14. Семантическая декомпозиция медицинских текстов: автоматизированное извлечение клинических находок и биомаркеров

    Уже скоро год, как запущена AI-платформа для хранения и аналитики персональных медицинских данных Lissa Health . Недавно в ней появился отчет «Профиль здоровья», который учитывает любую информацию, которую пользователь предоставил о себе. Чтобы его реализовать, нам пришлось полностью переработать идеологию движка системы. Мы совершили качественный переход от документо-центрической к фактор-центрической модели данных, где атомом информации о здоровье человека является медицинский факт с уникальным кодом и контекстом. Ниже - техническое описание новой структуры.

    habr.com/ru/articles/984598/

    #лабораторные_тесты #анализы #медицина #ai #dataset #LOINC #SNOMED #FHIR #ehr #цифровой_двойник

  15. Семантическая декомпозиция медицинских текстов: автоматизированное извлечение клинических находок и биомаркеров

    Уже скоро год, как запущена AI-платформа для хранения и аналитики персональных медицинских данных Lissa Health . Недавно в ней появился отчет «Профиль здоровья», который учитывает любую информацию, которую пользователь предоставил о себе. Чтобы его реализовать, нам пришлось полностью переработать идеологию движка системы. Мы совершили качественный переход от документо-центрической к фактор-центрической модели данных, где атомом информации о здоровье человека является медицинский факт с уникальным кодом и контекстом. Ниже - техническое описание новой структуры.

    habr.com/ru/articles/984598/

    #лабораторные_тесты #анализы #медицина #ai #dataset #LOINC #SNOMED #FHIR #ehr #цифровой_двойник

  16. Семантическая декомпозиция медицинских текстов: автоматизированное извлечение клинических находок и биомаркеров

    Уже скоро год, как запущена AI-платформа для хранения и аналитики персональных медицинских данных Lissa Health . Недавно в ней появился отчет «Профиль здоровья», который учитывает любую информацию, которую пользователь предоставил о себе. Чтобы его реализовать, нам пришлось полностью переработать идеологию движка системы. Мы совершили качественный переход от документо-центрической к фактор-центрической модели данных, где атомом информации о здоровье человека является медицинский факт с уникальным кодом и контекстом. Ниже - техническое описание новой структуры.

    habr.com/ru/articles/984598/

    #лабораторные_тесты #анализы #медицина #ai #dataset #LOINC #SNOMED #FHIR #ehr #цифровой_двойник

  17. Семантическая декомпозиция медицинских текстов: автоматизированное извлечение клинических находок и биомаркеров

    Уже скоро год, как запущена AI-платформа для хранения и аналитики персональных медицинских данных Lissa Health . Недавно в ней появился отчет «Профиль здоровья», который учитывает любую информацию, которую пользователь предоставил о себе. Чтобы его реализовать, нам пришлось полностью переработать идеологию движка системы. Мы совершили качественный переход от документо-центрической к фактор-центрической модели данных, где атомом информации о здоровье человека является медицинский факт с уникальным кодом и контекстом. Ниже - техническое описание новой структуры.

    habr.com/ru/articles/984598/

    #лабораторные_тесты #анализы #медицина #ai #dataset #LOINC #SNOMED #FHIR #ehr #цифровой_двойник

  18. Notes on ##UAP Discussions : Students and researchers should really by now be fully acquainted with the contemporary work of Dr. #BeatrizVillarroel and her cohort. Students in particular can get a good look at the #systematics and technical requirements for poking and prodding a #dataset and deriving challenge resistent statistics to support or refute the inevitable questions that #Science is required to ask. The course you can’t take yet is in there. It’s spread out all over the place otherwise

  19. Currently teaching lm/glm.

    Does anyone know a real life (publicly available) dataset for which the fitted value vs residuals plot would look like this? (quantitative response y; as many predictors as you want, here it was generated with a single one but if there are several, it's ok)

    🔁 welcome

    #stats #lm #dataset #rstats #teaching #academicChatter

  20. New 𝗭𝗙𝗦 𝗕𝗼𝗼𝘁 𝗘𝗻𝘃𝗶𝗿𝗼𝗻𝗺𝗲𝗻𝘁𝘀 𝗘𝘅𝗽𝗹𝗮𝗶𝗻𝗲𝗱 [ZFS Boot Environments Explained] article on vermaden.wordpress.com blog.

    vermaden.wordpress.com/2025/11

    #verblog #beadm #bectl #dataset #desktop #freebsd #laptop #pool #server #zfs

  21. Acabo de actualizar mi dataset sobre contaminación lumínica nocturna global generado con mi herramienta radiance-geojson (codeberg.org/imigueldiaz/radia). Contiene archivos JSON (.json.gz) y un dump completo en PostGIS (restaurada ocupa 27GB, con casi 140 millones de puntos georreferenciados), con datos de radiancia, brillo del cielo y clasificación Bortle para 173 países a 0.5 km de resolución. Basado en imágenes VIIRS de Earth Observation Group, Colorado School of Mines.

    Puedes descargarlo gratis desde: archive.org/details/radiance-g

    Ideal para análisis geoespaciales, ambientales y astronómicos, en mi caso lo usaré para astrofotografía si me da la vida. Licencia CC BY 4.0.

    #opendata #geospatial #lightpollution #VIIRS #PostGIS #gis #spatialdata #dataset #CCBY4 #opensource #radiance #astrophoto #astrophotography

  22. Polars — «убийца Pandas» на максималках

    Всем привет! Меня зовут Александр Андреев, я инженер данных. Сегодня я хочу рассказать вам о библиотеке Polars - потенциальной замене Pandas, любимой у большинства дата-инженеров и дата-саентистов библиотеки для работы с данными. В своей статье я последовательно пройдусь от истории библиотеки Polars до примеров кода, технических аспектов ее производительности и в конце дам ссылки на все бенчмарки, обучающие материалы и дополнительные статьи, которые использовались для написания данного обзора-туториала по этой замечательной библиотеке.

    habr.com/ru/articles/946788/

    #polars #pandas #data_engineering #data_science #data_analysis #dataframe #library #python #rust #dataset

  23. Ever downloaded a dataset and wondered: "what am I looking at here?" You’re not alone. That’s why README files are so important.

    A README is like a quick-start guide to your research data. Its the key to #reproducibility, reuse & maximum impact.

    Learn more ➡️ bit.ly/Whats-a-README

    #biology #opendata #openaccess #openscience #README #datasharing #dataset