home.social

#big-data — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #big-data, aggregated by home.social.

fetched live
  1. UC San Diego: From Molecules to Meaning: A Search Engine for the Chemistry of Life. “An international team led by researchers at University of California San Diego and University of California, Riverside has developed a free, web-based platform designed to make public metabolomics data more accessible.”

    https://rbfirehose.com/2026/05/14/from-molecules-to-meaning-a-search-engine-for-the-chemistry-of-life-uc-san-diego/
  2. Trillions of miles of data: Your car is spying on you, and it's only just the beginning - BBC Future
    bbc.co.uk/future/article/20260

    Votre voiture vous espionne. Et ce n'est qu'un début.

    Vos données peuvent être vendues aux assureurs, par exemple vos excès de vitesse ou les données fournies par les dispositifs de surveillance du conducteur, censés améliorer la sécurité en considérant que vous êtes fatigué ou en état d'ébriété.

    S'y opposer demande un effort considérable, même si en Europe la réglementation assure encore une certaine protection des usagers.

    Pour combien de temps ?
    #vie_privée #surveillance #BigData

  3. Mit Begeisterung lese ich gegewärtig das neue Buch von Cory Doctorow „Enshittification“ – Wie Tech-Konzerne uns ausbeuten und was wir dagegen tun können.

    Cory Doctorow (@pluralistic) erklärt laiengerecht, warum Online-Dienste immer schlechter und teurer wurden u. werden. Auch Tipps wie das Prekäriat der Geek-Economy, sich erfolgreich gegen die grassierenden Boss-Ware wehrt, kann man dem Text entnehmen.

    Bisher las ich die Hälfte der 477 Seiten; ich empfehlen das Buch #Enshittification #BigData

  4. Every #TimeSeriesDatabase is just a set of storage decisions:
    ➡️ Row layout
    ➡️ Compression timing
    ➡️ Partitioning strategy

    These choices often impact cost and query performance more than the database you pick.

    This #InfoQ article breaks down these fundamentals from first principles using #PostgreSQL & #ApacheParquetbit.ly/4fkDHlV

    #BigData #TimeSeriesData #Database

  5. A prediction, if I may.
    New market segments will soon form for #offline #cars appliances and whatever.
    We will take back our rights to #privacy
    But would enough people be prepared to pay a bit more for this? 🤔
    #bigdata
    bbc.com/future/article/2026051

  6. How #Netflix boosted #ApacheDruid performance: by implementing interval-aware caching, they now serve 84% of analytics results from cache and have reduced query load by 33%.

    The secret? Decomposing rolling window queries into reusable time segments.
    ✅ Reduces scan volume
    ✅ Improves P90 latency
    ✅ Optimizes real-time analytics

    Details on #InfoQ: bit.ly/4uHG4DE

    #SoftwareArchitecture #DistributedSystems #DataAnalytics #TimeSeriesData #Caching #BigData #DataEngineering

  7. Gegen Verfolgung durch Google Tag Manager

    Das Internet hält unglaublich viele Perlen bereit, man muss sie nur finden! Eine fast vier Jahre alte Perle habe ich kürzlich entdeckt. Sie trägt den Titel (übersetzt) "Wie man den Google Tag Manager vollständig außer Gefecht setzt und warum man das tun sollte". Darin legt der Autor ausführlich dar, mit welchen Tricks* Google arbeitet, um uns beim surfen verfolgen und bespitzeln zu können. Der einzige wirksame Schutz dagegen ist das abschalten von JavaScript (JS), soweit irgend möglich. Den Websites, die ohne JS keinen oder nur einen Teil des Inhalts zeigen, unterstellt der

    pc-fluesterer.info/wordpress/2

    #Empfehlung #Hintergrund #Warnung #Website #bigdata #browser #google #privacy #privatsphre #UnplugGoogle #UnplugTrump #verfolgung #vorbeugen #wissen

  8. The Guardian: ‘Things were going dark left and right’: the race to save US government datasets before they’re deleted. “André is part of a group of ‘data rescuers’ who have banded together during Trump’s second term. They have been quietly racing to save hundreds of critical government datasets before they are no longer available. Now known as the Data Rescue Project, it’s a […]

    https://rbfirehose.com/2026/05/09/things-were-going-dark-left-and-right-the-race-to-save-us-government-datasets-before-theyre-deleted-the-guardian/
  9. Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят

    Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:

    систем распознавания речи,

    рекомендательных алгоритмов,

    LLM-моделей,

    пайплайнов синтеза голоса,

    intent-routing,

    контекстных менеджеров,

    и огромного количества эвристик.

    Именно поэтому пользователь регулярно сталкивается с парадоксом:

    > Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.

    Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.

    ---

    Иллюзия личности как продукт

    Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.

    Ранние версии:

    Siri,

    Google Assistant,

    Alexa

    строились вокруг идеи «нейтрального помощника».

    Яндекс пошёл другим путём:

    сарказм,

    эмоциональные ответы,

    псевдофилософия,

    мемная подача,

    шутки,

    реакция на грубость.

    Это оказалось критически важным UX-решением.

    Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».

    ---

    Почему колонка кажется «живой»

    Основная причина — языковые модели великолепно имитируют человеческую речь.

    LLM не:

    «думает»,

    «понимает»,

    «осознаёт».

    Она статистически предсказывает следующий токен.

    Но человеческий мозг крайне плохо отличает:

    настоящее понимание,

    от правдоподобной речевой симуляции.

    Из-за этого возникают феномены антропоморфизации:

    люди приписывают ИИ эмоции,

    намерения,

    характер,

    настроение,

    «обиду»,

    «упрямство».

    Хотя на практике это:

    probabilistic generation,

    routing errors,

    context collapse,

    recommendation conflicts.

    ---

    Ловушка контекста

    Одна из главных проблем голосовых ассистентов — хрупкость conversational context.

    Пример:

    1. «Кто написал “Войну и мир”?»

    2. «Сколько ему было лет?»

    Система ещё удерживает сущность:

    Лев Толстой.

    Но если вставить:

    > «Какая завтра погода?»

    контекст может разрушиться полностью.

    Почему так происходит?

    Потому что внутри колонки обычно работает не одна модель, а целый конвейер:

    ASR → Intent → Dialogue Manager → Search → LLM → TTS

    Где:

    ASR — распознавание речи,

    Intent — определение намерения,

    Dialogue Manager — управление контекстом,

    Search — поиск,

    LLM — генерация ответа,

    TTS — синтез голоса.

    Контекст может потеряться буквально между этапами.

    Особенно в гибридных системах, где:

    часть запросов идёт в search engine,

    часть — в rule-based handlers,

    часть — в LLM.

    ---

    Почему ИИ уверенно врёт

    Самая опасная особенность современных LLM — галлюцинации.

    Модель не хранит знания как база данных.

    Она строит:

    > наиболее вероятную последовательность слов.

    Поэтому возникают:

    несуществующие цитаты,

    вымышленные учёные,

    фальшивые версии ПО,

    придуманные события,

    несуществующие функции API.

    Особенно неприятно то, что модель:

    почти никогда не демонстрирует естественную неуверенность,

    и генерирует бред с тем же тоном, что и правду.

    Для пользователя это выглядит как:

    > «Она врёт и сама в это верит».

    Но технически «веры» там нет вообще.

    ---

    VAD: почему колонка «оживает» ночью

    Один из самых криповых эффектов — ложные активации.

    Колонка внезапно начинает говорить:

    ночью,

    на фоне телевизора,

    из-за шума,

    из-за музыки,

    иногда даже из-за кашля или шорохов.

    Причина — технология VAD.

    Что такое VAD

    VAD — Voice Activity Detection.

    Система постоянно анализирует аудиопоток:

    локально,

    в ожидании wake-word,

    без постоянной отправки всего звука в облако.

    Но алгоритм может ошибаться.

    Тогда:

    случайный шум,

    слово из фильма,

    обрывок фразы,

    созвучие имени ассистента

    воспринимаются как команда активации.

    Именно отсюда берутся знаменитые:

    > «Я здесь.»

    в полной темноте в 3 часа ночи.

    ---

    Почему вместо Rammstein включается «Синий трактор»

    Это уже конфликт двух независимых систем:

    1. ASR (распознавание речи),

    2. recommender system.

    Если в аккаунте:

    дети,

    мультфильмы,

    детские песни,

    семейный профиль,

    то recommendation engine начинает aggressively priorize детский контент.

    Даже если пользователь произнёс запрос корректно.

    С точки зрения алгоритма:

    > «детская музыка» — statistically safer recommendation.

    Для пользователя:

    > «колонка сошла с ума».

    ---

    Самый интересный эффект: интеллект без понимания

    Вот здесь начинается самая странная часть.

    Современные LLM:

    прекрасно имитируют язык,

    но крайне плохо строят устойчивую world model.

    Из-за этого они способны:

    обсуждать философию,

    писать код,

    поддерживать стиль,

    шутить,

    спорить.

    И одновременно:

    проваливать базовую логику,

    путать сущности,

    ломать причинно-следственные связи,

    забывать контекст через две реплики.

    Получается феномен:

    > «интеллектуально звучащей системы без полноценного понимания».

    ---

    Почему это психологически пугает

    Человеческий мозг автоматически ищет субъектность.

    Если объект:

    говорит,

    реагирует,

    использует эмоции,

    меняет интонации,

    спорит,

    шутит,

    то мы начинаем воспринимать его как агента.

    Даже если это:

    набор вероятностных моделей,

    intent-routing,

    рекомендательные алгоритмы,

    и несколько нейросетей поверх ASR.

    Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.

    Пользователь интерпретирует их как:

    «странное поведение»,

    «характер»,

    «эмоции»,

    «обиду»,

    «упрямство».

    Хотя на практике это всего лишь:

    probabilistic failure,

    context collapse,

    false activation,

    ranking conflict.

    ---

    Итог

    Современные голосовые ассистенты находятся в странной точке эволюции.

    Они уже:

    слишком разговорчивы, чтобы считаться обычным интерфейсом,

    но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.

    Поэтому возникает тот самый эффект:

    > между «восстанием машин» и «интеллектом табуретки».

    И, возможно, именно эта смесь:

    уверенного тона,

    человеческой интонации,

    псевдоэмоций,

    случайных сбоев,

    и статистической генерации

    делает современные колонки одновременно:

    полезными,

    смешными,

    раздражающими,

    и местами откровенно криповыми.

    #ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI

    bastyon.com/svalmon37?ref=PJ51

  10. Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят

    Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:

    систем распознавания речи,

    рекомендательных алгоритмов,

    LLM-моделей,

    пайплайнов синтеза голоса,

    intent-routing,

    контекстных менеджеров,

    и огромного количества эвристик.

    Именно поэтому пользователь регулярно сталкивается с парадоксом:

    > Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.

    Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.

    ---

    Иллюзия личности как продукт

    Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.

    Ранние версии:

    Siri,

    Google Assistant,

    Alexa

    строились вокруг идеи «нейтрального помощника».

    Яндекс пошёл другим путём:

    сарказм,

    эмоциональные ответы,

    псевдофилософия,

    мемная подача,

    шутки,

    реакция на грубость.

    Это оказалось критически важным UX-решением.

    Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».

    ---

    Почему колонка кажется «живой»

    Основная причина — языковые модели великолепно имитируют человеческую речь.

    LLM не:

    «думает»,

    «понимает»,

    «осознаёт».

    Она статистически предсказывает следующий токен.

    Но человеческий мозг крайне плохо отличает:

    настоящее понимание,

    от правдоподобной речевой симуляции.

    Из-за этого возникают феномены антропоморфизации:

    люди приписывают ИИ эмоции,

    намерения,

    характер,

    настроение,

    «обиду»,

    «упрямство».

    Хотя на практике это:

    probabilistic generation,

    routing errors,

    context collapse,

    recommendation conflicts.

    ---

    Ловушка контекста

    Одна из главных проблем голосовых ассистентов — хрупкость conversational context.

    Пример:

    1. «Кто написал “Войну и мир”?»

    2. «Сколько ему было лет?»

    Система ещё удерживает сущность:

    Лев Толстой.

    Но если вставить:

    > «Какая завтра погода?»

    контекст может разрушиться полностью.

    Почему так происходит?

    Потому что внутри колонки обычно работает не одна модель, а целый конвейер:

    ASR → Intent → Dialogue Manager → Search → LLM → TTS

    Где:

    ASR — распознавание речи,

    Intent — определение намерения,

    Dialogue Manager — управление контекстом,

    Search — поиск,

    LLM — генерация ответа,

    TTS — синтез голоса.

    Контекст может потеряться буквально между этапами.

    Особенно в гибридных системах, где:

    часть запросов идёт в search engine,

    часть — в rule-based handlers,

    часть — в LLM.

    ---

    Почему ИИ уверенно врёт

    Самая опасная особенность современных LLM — галлюцинации.

    Модель не хранит знания как база данных.

    Она строит:

    > наиболее вероятную последовательность слов.

    Поэтому возникают:

    несуществующие цитаты,

    вымышленные учёные,

    фальшивые версии ПО,

    придуманные события,

    несуществующие функции API.

    Особенно неприятно то, что модель:

    почти никогда не демонстрирует естественную неуверенность,

    и генерирует бред с тем же тоном, что и правду.

    Для пользователя это выглядит как:

    > «Она врёт и сама в это верит».

    Но технически «веры» там нет вообще.

    ---

    VAD: почему колонка «оживает» ночью

    Один из самых криповых эффектов — ложные активации.

    Колонка внезапно начинает говорить:

    ночью,

    на фоне телевизора,

    из-за шума,

    из-за музыки,

    иногда даже из-за кашля или шорохов.

    Причина — технология VAD.

    Что такое VAD

    VAD — Voice Activity Detection.

    Система постоянно анализирует аудиопоток:

    локально,

    в ожидании wake-word,

    без постоянной отправки всего звука в облако.

    Но алгоритм может ошибаться.

    Тогда:

    случайный шум,

    слово из фильма,

    обрывок фразы,

    созвучие имени ассистента

    воспринимаются как команда активации.

    Именно отсюда берутся знаменитые:

    > «Я здесь.»

    в полной темноте в 3 часа ночи.

    ---

    Почему вместо Rammstein включается «Синий трактор»

    Это уже конфликт двух независимых систем:

    1. ASR (распознавание речи),

    2. recommender system.

    Если в аккаунте:

    дети,

    мультфильмы,

    детские песни,

    семейный профиль,

    то recommendation engine начинает aggressively priorize детский контент.

    Даже если пользователь произнёс запрос корректно.

    С точки зрения алгоритма:

    > «детская музыка» — statistically safer recommendation.

    Для пользователя:

    > «колонка сошла с ума».

    ---

    Самый интересный эффект: интеллект без понимания

    Вот здесь начинается самая странная часть.

    Современные LLM:

    прекрасно имитируют язык,

    но крайне плохо строят устойчивую world model.

    Из-за этого они способны:

    обсуждать философию,

    писать код,

    поддерживать стиль,

    шутить,

    спорить.

    И одновременно:

    проваливать базовую логику,

    путать сущности,

    ломать причинно-следственные связи,

    забывать контекст через две реплики.

    Получается феномен:

    > «интеллектуально звучащей системы без полноценного понимания».

    ---

    Почему это психологически пугает

    Человеческий мозг автоматически ищет субъектность.

    Если объект:

    говорит,

    реагирует,

    использует эмоции,

    меняет интонации,

    спорит,

    шутит,

    то мы начинаем воспринимать его как агента.

    Даже если это:

    набор вероятностных моделей,

    intent-routing,

    рекомендательные алгоритмы,

    и несколько нейросетей поверх ASR.

    Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.

    Пользователь интерпретирует их как:

    «странное поведение»,

    «характер»,

    «эмоции»,

    «обиду»,

    «упрямство».

    Хотя на практике это всего лишь:

    probabilistic failure,

    context collapse,

    false activation,

    ranking conflict.

    ---

    Итог

    Современные голосовые ассистенты находятся в странной точке эволюции.

    Они уже:

    слишком разговорчивы, чтобы считаться обычным интерфейсом,

    но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.

    Поэтому возникает тот самый эффект:

    > между «восстанием машин» и «интеллектом табуретки».

    И, возможно, именно эта смесь:

    уверенного тона,

    человеческой интонации,

    псевдоэмоций,

    случайных сбоев,

    и статистической генерации

    делает современные колонки одновременно:

    полезными,

    смешными,

    раздражающими,

    и местами откровенно криповыми.

    #ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI

    bastyon.com/svalmon37?ref=PJ51

  11. Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

    Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

    habr.com/ru/companies/datasapi

    #mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

  12. Why we’re at a decisive turning point for resolving data fragmentation [Q&A] #QandA #BigData

    https://betanews.com/article/why-were-at-a-decisive-turning-point-for-resolving-data-fragmentation-qa/

  13. After many years of using the internet, it would be interesting to get my hands on one of the digital profiles that have been generated about me. I have a feeling the algorithms know me better than I know myself.😒
    #privacy #digitalprivacy #algorithms #databroker #surveillancecapitalism #knowthyself #techethics #privacymatters #bigdata #AI #digitalfootprint

  14. University of Edinburgh: AI fails to make inroads with cybercriminals. “Cybercriminals have been struggling to adopt AI in their work, reports the first of its kind study that analysed a dataset of 100 million posts from underground cybercrime communities.”

    https://rbfirehose.com/2026/05/05/university-of-edinburgh-ai-fails-to-make-inroads-with-cybercriminals/
  15. University of Michigan: AI analysis of police body-camera footage raises constitutional concerns, racial disparities. “Thousands of officer-worn camera recordings found evidence of underreported police stops, troubling racial disparities in officer interactions, and widespread use of unclear language during consent searches, a new study shows.”

    https://rbfirehose.com/2026/05/03/university-of-michigan-ai-analysis-of-police-body-camera-footage-raises-constitutional-concerns-racial-disparities/
  16. FOSS, single-file, vanilla, save with CTRL + S. This is designed to make single file webpages/programs in absolute position or VW. The keyboard is like Vi. 20 levels per project. #AI #MachineLearning #DeepLearning #DataScience #Python #NLP #ComputerVision #BigData #ArtificialIntelligence #TensorFlow #PyTorch #DataViz #NeuralNetworks #MLOps #LLM