home.social

Search

1000 results for “dataplane”

  1. #AI #GenerativeAI #GhostWork #DataLabelling #WageSlavery: "To build AI, Silicon Valley’s most illustrious companies are fighting over the limited talent of computer scientists in their backyard, paying hundreds of thousands of dollars to a newly minted Ph.D. But to train and deploy them using real-world data, these same companies have turned to the likes of Sama, and their veritable armies of low-wage workers with basic digital literacy, but no stable employment.

    Sama isn’t the only service of its kind globally. Start-ups such as Scale AI, Appen, Hive Micro, iMerit and Mighty AI (now owned by Uber), and more traditional IT companies such as Accenture and Wipro are all part of this growing industry estimated to be worth $17bn by 2030.

    Because of the sheer volume of data that AI companies need to be labelled, most start-ups outsource their services to lower-income countries where hundreds of workers like Ian and Benja are paid to sift and interpret data that trains AI systems."

    lithub.com/how-vulnerable-low-

  2. #AI #GenerativeAI #GhostWork #DataLabelling #WageSlavery: "To build AI, Silicon Valley’s most illustrious companies are fighting over the limited talent of computer scientists in their backyard, paying hundreds of thousands of dollars to a newly minted Ph.D. But to train and deploy them using real-world data, these same companies have turned to the likes of Sama, and their veritable armies of low-wage workers with basic digital literacy, but no stable employment.

    Sama isn’t the only service of its kind globally. Start-ups such as Scale AI, Appen, Hive Micro, iMerit and Mighty AI (now owned by Uber), and more traditional IT companies such as Accenture and Wipro are all part of this growing industry estimated to be worth $17bn by 2030.

    Because of the sheer volume of data that AI companies need to be labelled, most start-ups outsource their services to lower-income countries where hundreds of workers like Ian and Benja are paid to sift and interpret data that trains AI systems."

    lithub.com/how-vulnerable-low-

  3. Colonia Aurora’s Women’s Day gift bag sparked a very awkward national conversation

    A celebratory photo takes an unexpected turn as symbolism sparks debate over gender roles.

    Dear Cherubs, in Colonia Aurora, Misiones, a Women’s Day celebration turned into a public-relations skid mark after the municipality handed out cleaning supplies as prizes and posed the winners for photos. The event was meant to honor local women, but the visual language did the exact opposite and the internet noticed immediately.

    THE PHOTO OP
    Misiones Online reported that the municipality’s annual event included talks, music and recreational activities, and that more than 200 people attended. But the image that escaped into the wild was not the speech or the concert; it was women smiling with brooms, buckets and squeegees on a day that is supposed to recognize equality, not repackage housework as a prize.

    Página/12 and Infobae both described the same basic scene: prizes linked to domestic chores, posted from the municipality’s own social media, followed by a wave of criticism. That is the kind of clue that tells you the problem was not just what happened, but how proudly it was photographed.

    THE DEFENSE
    Mayor Carlos Goring told local media the cleaning items were part of a mime game and were not the only gifts handed out. He argued the day also included reflection, health talks and other prizes, but once the optics have gone viral, explanations tend to arrive carrying a very small umbrella.

    The municipality itself is a small one, with a little over 10,000 residents, tucked in Misiones near the Uruguay River and known for tobacco, yerba mate, soy and an increasingly important pineapple harvest, according to Infobae and DataClave. That is the kind of place where a community event can feel intimate and well-intended, right up until a photo turns it into a national punchline.

    The blunt truth is that International Women’s Day carries a century-long history of labor, rights and political struggle, so a broom can never really be “just a joke” once it becomes the centerpiece. A playful game may have been the intent, but the message received by many viewers was a shrugging remix of old stereotypes, which is why the backlash spread so fast.

    As noted by thisclaimer.com, the story is less about one municipal blunder than about the gap between intent and image. In the age of instant sharing, that gap can turn a local tribute into a national embarrassment before the mop water has even dried.

    Colonia Aurora probably meant to stage a warm, community-minded event. Instead, it managed to hand critics a perfectly packaged symbol of exactly what not to do on 8M, and that is a hard lesson to sweep under the rug.

    Misiones Online — https://misionesonline.net/2026/03/09/entrega-de-escobas-y-baldes-dia-de-la-mujer-criticas/
    Infobae — https://www.infobae.com/politica/2026/03/09/polemico-festejo-por-el-dia-de-la-mujer-en-misiones-un-municipio-entrego-baldes-escurridores-y-escobas-como-premios/
    Página/12 — https://www.pagina12.com.ar/2026/03/09/un-municipio-de-misiones-regalo-baldes-escobas-y-escurridores-por-el-dia-de-la-mujer/
    DataClave — https://www.dataclave.com.ar/poder/controversia-en-pueblo-de-misiones-tras-un-festejo-del-8m-donde-regalaron-escobas-y-baldes_a69af09dc1d279cdde00a0818
    thisclaimer.com — https://thisclaimer.com
    Thisclaimer YouTube — https://www.youtube.com/@thisclaimer?sub_confirmation=1

    The Thisclaimer logo blends a classic warning symbol with a brain icon to represent critical thinking, curiosity, and thoughtful disclaimers. #Argentina #coloniaAurora #controversialEvent #criticism #culturalBacklash #education #equalityDebate #feministCritique #genderControversy #genderRolesDebate #genderStereotypes #governmentBacklash #health #inspiration #internationalWomensDay #localNews #mediaCriticism #misiones #municipalControversy #municipalPolitics #Music #news #opticsFail #outdatedStereotypes #poetry #politicalMisstep #PRDisaster #publicBacklash #publicCriticism #publicOutrage #PublicRelations #sexismDebate #socialMediaOutrage #symbolicControversy #toneDeaf #viral #viralBacklash #viralControversy #womenRightsDebate #womensDay
  4. Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

    Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

    habr.com/ru/companies/datasapi

    #mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

  5. Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

    Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

    habr.com/ru/companies/datasapi

    #mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

  6. Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

    Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

    habr.com/ru/companies/datasapi

    #mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

  7. Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

    Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

    habr.com/ru/companies/datasapi

    #mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

  8. DuckDB Labs released #DuckLake 1.0 - a data lake format that stores table metadata in a SQL database, rather than spreading it across object storage files.

    Key features:
    • catalog-stored small updates
    • improved sorting and partitioning
    • compatibility with Iceberg-style data features

    Learn more ⇨ bit.ly/48PsPIS

    #InfoQ #DuckDB #ApacheIceberg #AI #DataLake #DataStorage

  9. Data lakes are typically thought of as simple warehouses. But they don't have to be! 👀 In Graylog 7.0 data lakes function as pressure release valves for #security teams overwhelmed by storage costs, investigation delays, and cloud data sprawl — where analysts can get direct access to long term data, and more.

    Our data lake provides inexpensive storage where logs stay searchable, preview-able, and recoverable. Learn more about getting cloud scale without cloud surprises, and why this is a truly practical stance on managing data volume.

    graylog.org/post/how-to-use-da #CyberSecurity #SEIM #DataLake #TDIR

  10. Data lakes are typically thought of as simple warehouses. But they don't have to be! 👀 In Graylog 7.0 data lakes function as pressure release valves for #security teams overwhelmed by storage costs, investigation delays, and cloud data sprawl — where analysts can get direct access to long term data, and more.

    Our data lake provides inexpensive storage where logs stay searchable, preview-able, and recoverable. Learn more about getting cloud scale without cloud surprises, and why this is a truly practical stance on managing data volume.

    graylog.org/post/how-to-use-da #CyberSecurity #SEIM #DataLake #TDIR

  11. Data lakes are typically thought of as simple warehouses. But they don't have to be! 👀 In Graylog 7.0 data lakes function as pressure release valves for #security teams overwhelmed by storage costs, investigation delays, and cloud data sprawl — where analysts can get direct access to long term data, and more.

    Our data lake provides inexpensive storage where logs stay searchable, preview-able, and recoverable. Learn more about getting cloud scale without cloud surprises, and why this is a truly practical stance on managing data volume.

    graylog.org/post/how-to-use-da #CyberSecurity #SEIM #DataLake #TDIR

  12. Data lakes are typically thought of as simple warehouses. But they don't have to be! 👀 In Graylog 7.0 data lakes function as pressure release valves for #security teams overwhelmed by storage costs, investigation delays, and cloud data sprawl — where analysts can get direct access to long term data, and more.

    Our data lake provides inexpensive storage where logs stay searchable, preview-able, and recoverable. Learn more about getting cloud scale without cloud surprises, and why this is a truly practical stance on managing data volume.

    graylog.org/post/how-to-use-da #CyberSecurity #SEIM #DataLake #TDIR

  13. Data lakes are typically thought of as simple warehouses. But they don't have to be! 👀 In Graylog 7.0 data lakes function as pressure release valves for #security teams overwhelmed by storage costs, investigation delays, and cloud data sprawl — where analysts can get direct access to long term data, and more.

    Our data lake provides inexpensive storage where logs stay searchable, preview-able, and recoverable. Learn more about getting cloud scale without cloud surprises, and why this is a truly practical stance on managing data volume.

    graylog.org/post/how-to-use-da #CyberSecurity #SEIM #DataLake #TDIR

  14. Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними

    Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

    habr.com/ru/companies/datasapi

    #s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh

  15. Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними

    Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

    habr.com/ru/companies/datasapi

    #s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh

  16. Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними

    Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

    habr.com/ru/companies/datasapi

    #s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh

  17. Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними

    Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

    habr.com/ru/companies/datasapi

    #s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh

  18. Most ML issues are not model problems. They are data problems.

    I retrained the same churn model twice.
    Same code. Same path to the data.
    Different result.

    Why? Because of mutable data references.

    :blobcoffee: I wrote a small Data Lake vs Data Lakehouse demo showing why versioned data makes ML debugging reproducible: tinyurl.com/lake-vs-lakehouse-

    :blobcoffee: Friend-Link: medium.com/towards-artificial-

    #ai #machinelearning #data #lakehouse #warehouse #python #datalake #technology #regression

  19. "Artificial intelligence is an extractive technology that relies on the brutal labor of underpaid workers around the world. For years, the work of African data labelers has been more or less “ghost work,” the unseen, hidden labor that lets American tech companies build their products."

    'AI Is African Intelligence': The Workers Who Train AI Are Fighting Back
    blackagendareport.com/ai-afric
    By @jasonkoebler
    #AI #DataLabelers #extractivism #colonialism @DigitalCoup

  20. StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

    Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

    habr.com/ru/companies/datasapi

    #dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

  21. Терабайты данных из Teradata в Trino — эффективный способ передачи

    Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по каким-либо причинам нет в Lakehouse-платформе . В этом случае на помощь приходит федеративный доступ. Стандартом для такой задачи является движок Trino. Он умеет извлекать данные из внешних СУБД и даже в некоторых случаях может делать push-down определенных вычислений на сторону системы-источника. Главное, чтобы под рукой был подходящий connector для нужной СУБД, который умеет эффективно с ней работать. Недавно в состав Data Ocean Nova был добавлен новый Trino Teradata Connector . Он позволяет пользователям «подтягивать» необходимые срезы данных из Teradata в рамках ad hoc запросов и решает задачу эффективной передачи данных: можно передавать терабайты в несколько потоков без существенного увеличения нагрузки на источник. В данной статье разберем: - Как организовать эффективную многопоточную работу с Teradata : где часто допускают ошибки, как должно выглядеть правильное решение; - Какие возможности дает Nova Trino Teradata Connector : многопоточная передача, push-down оптимизации.

    habr.com/ru/companies/datasapi

    #trino #teradata #mpp #lakehouse #datalakehouse #dwh #bigdata

  22. Spark SQL Scripting. Новые возможности для инженеров данных

    До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

    habr.com/ru/companies/datasapi

    #spark #datalake #datalakehouse #lakehouse #dwh #script

  23. Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

    Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

    habr.com/ru/companies/datasapi

    #lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

  24. #throwback From data swamp to data lakehouse 🏗️ Josef Machytka shares real-world lessons on building a lakehouse with PostgreSQL, BigQuery, and GCS—covering formats, scaling, governance, and data quality. Keep your data clean and useful. ▶️ Watch now! youtube.com/watch?v=AUdEjYnXGb

    #PostgreSQL #PGDay #PPDD #DataLakehouse #DataEngineering