home.social

#dedup — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #dedup, aggregated by home.social.

  1. [Перевод] Дедупликация в OpenZFS теперь хороша, но использовать её не стоит

    Вот-вот выйдет релиз OpenZFS 2.3.0 с новой функцией Fast Dedup . Это огромный шаг вперёд по сравнению со старой дедупликацией и отличный фундамент для будущих доработок. Контрибьютор OpenZFS @gmelikov и команда VK Cloud совместно перевели статью об этом релизе, в которой новая функция сравнивается со старой дедупликацией и описывается максимально подробно с практическими примерами. В 2023–2024 коллеги из Klara много работали над этой функцией, и мы согласны с ними, что она весьма хороша! После релиза Fast dedup на многих ресурсах в обсуждениях продолжили писать, что «новый дедуп всё так же плох, он требует столько же ОЗУ и также убивает производительность». Но эта информация лишь отчасти близка к правде и повторяет всё тот же мотив, который когда-то кто-то озвучивал на форумах. Винить в этом никого не хочется. И не стоит, так как дедупликация в OpenZFS и правда была очень требовательной к правильному применению. Найти качественные гайды тоже не просто, ответ по умолчанию — «не используйте её» — был и (в целом) остаётся правильным. Но, по прошествии почти 20 лет жизни дедупа в OpenZFS, настало время вернуться к этому вопросу. Посмотрим на свежую информацию об имплементации дедупа в OpenZFS, как он работал до улучшений, в чём была его проблема, что поменяли в fast dedup, и почему же это всё ещё не дефолт.

    habr.com/ru/companies/vk/artic

    #zfs #openzfs #reflink #dedup #storage #filesystem #deduplication

  2. [Перевод] Дедупликация в OpenZFS теперь хороша, но использовать её не стоит

    Вот-вот выйдет релиз OpenZFS 2.3.0 с новой функцией Fast Dedup . Это огромный шаг вперёд по сравнению со старой дедупликацией и отличный фундамент для будущих доработок. Контрибьютор OpenZFS @gmelikov и команда VK Cloud совместно перевели статью об этом релизе, в которой новая функция сравнивается со старой дедупликацией и описывается максимально подробно с практическими примерами. В 2023–2024 коллеги из Klara много работали над этой функцией, и мы согласны с ними, что она весьма хороша! После релиза Fast dedup на многих ресурсах в обсуждениях продолжили писать, что «новый дедуп всё так же плох, он требует столько же ОЗУ и также убивает производительность». Но эта информация лишь отчасти близка к правде и повторяет всё тот же мотив, который когда-то кто-то озвучивал на форумах. Винить в этом никого не хочется. И не стоит, так как дедупликация в OpenZFS и правда была очень требовательной к правильному применению. Найти качественные гайды тоже не просто, ответ по умолчанию — «не используйте её» — был и (в целом) остаётся правильным. Но, по прошествии почти 20 лет жизни дедупа в OpenZFS, настало время вернуться к этому вопросу. Посмотрим на свежую информацию об имплементации дедупа в OpenZFS, как он работал до улучшений, в чём была его проблема, что поменяли в fast dedup, и почему же это всё ещё не дефолт.

    habr.com/ru/companies/vk/artic

    #zfs #openzfs #reflink #dedup #storage #filesystem #deduplication

  3. [Перевод] Дедупликация в OpenZFS теперь хороша, но использовать её не стоит

    Вот-вот выйдет релиз OpenZFS 2.3.0 с новой функцией Fast Dedup . Это огромный шаг вперёд по сравнению со старой дедупликацией и отличный фундамент для будущих доработок. Контрибьютор OpenZFS @gmelikov и команда VK Cloud совместно перевели статью об этом релизе, в которой новая функция сравнивается со старой дедупликацией и описывается максимально подробно с практическими примерами. В 2023–2024 коллеги из Klara много работали над этой функцией, и мы согласны с ними, что она весьма хороша! После релиза Fast dedup на многих ресурсах в обсуждениях продолжили писать, что «новый дедуп всё так же плох, он требует столько же ОЗУ и также убивает производительность». Но эта информация лишь отчасти близка к правде и повторяет всё тот же мотив, который когда-то кто-то озвучивал на форумах. Винить в этом никого не хочется. И не стоит, так как дедупликация в OpenZFS и правда была очень требовательной к правильному применению. Найти качественные гайды тоже не просто, ответ по умолчанию — «не используйте её» — был и (в целом) остаётся правильным. Но, по прошествии почти 20 лет жизни дедупа в OpenZFS, настало время вернуться к этому вопросу. Посмотрим на свежую информацию об имплементации дедупа в OpenZFS, как он работал до улучшений, в чём была его проблема, что поменяли в fast dedup, и почему же это всё ещё не дефолт.

    habr.com/ru/companies/vk/artic

    #zfs #openzfs #reflink #dedup #storage #filesystem #deduplication

  4. [Перевод] Дедупликация в OpenZFS теперь хороша, но использовать её не стоит

    Вот-вот выйдет релиз OpenZFS 2.3.0 с новой функцией Fast Dedup . Это огромный шаг вперёд по сравнению со старой дедупликацией и отличный фундамент для будущих доработок. Контрибьютор OpenZFS @gmelikov и команда VK Cloud совместно перевели статью об этом релизе, в которой новая функция сравнивается со старой дедупликацией и описывается максимально подробно с практическими примерами. В 2023–2024 коллеги из Klara много работали над этой функцией, и мы согласны с ними, что она весьма хороша! После релиза Fast dedup на многих ресурсах в обсуждениях продолжили писать, что «новый дедуп всё так же плох, он требует столько же ОЗУ и также убивает производительность». Но эта информация лишь отчасти близка к правде и повторяет всё тот же мотив, который когда-то кто-то озвучивал на форумах. Винить в этом никого не хочется. И не стоит, так как дедупликация в OpenZFS и правда была очень требовательной к правильному применению. Найти качественные гайды тоже не просто, ответ по умолчанию — «не используйте её» — был и (в целом) остаётся правильным. Но, по прошествии почти 20 лет жизни дедупа в OpenZFS, настало время вернуться к этому вопросу. Посмотрим на свежую информацию об имплементации дедупа в OpenZFS, как он работал до улучшений, в чём была его проблема, что поменяли в fast dedup, и почему же это всё ещё не дефолт.

    habr.com/ru/companies/vk/artic

    #zfs #openzfs #reflink #dedup #storage #filesystem #deduplication

  5. Дедупликация данных в Windows 10 и Windows 11 средствами Microsoft

    Сегодня я кратко расскажу вам как включить дедупликацию данных в клиентских ОС - Windows 10 и Windows 11, добавив функционал из Windows Server, причем не какие-то сторонние бинарники, а оригинальные, подписанные файлы Microsoft, которые к тому же будут обновляться через Windows Update. В этой статье не будет описания дедупликации данных, - разве что совсем кратко что это такое, и не будет сравнения решений разных вендоров. Я дам ниже ссылки на достойные, на мой взгляд, статьи других авторов и готов буду отвечать на вопросы, если их зададут ниже в виде комментария или в ПМ. Начать знакомство рекомендую с базовой теории Введение в дедупликацию данных / Хабр (habr.com) от компании Veeam, затем почитать о том, что такое дедупликация Microsoft - Обзор и настройка средств дедупликации в Windows Server 2012 / Хабр (habr.com) - статья моего бывшего коллеги по Microsoft Георгия говорит о том, как настраивается дедупликация NTFS в Windows Server 2012. В последующих изданиях Windows Server 2012R2, 2016, 2019, 2022 и 2025 функционал развивался, появилась поддержка ReFS, стало возможно (неочевидным способом) дедуплицировать системный том, расширились компоненты управления, - но для конечного пользователя все остается там же. Установили одним кликом, включили для диска, забыли. В заключение подготовительной информации - тем кого действительно интересует кроссплатформенные решения и их сравнения, предложу ознакомиться со статьей Илии Карина - Dedup Windows vs Linux, MS снова “удивит”? / Хабр (habr.com) - его не должны заподозрить в рекламе Microsoft, его сравнение подходов, и результат меня самого удивил. У меня на такую большую исследовательскую работу сил и возможностей нет, - почитайте. И имейте в виду, что если вы используете последний Windows 11, то и компоненты дедупликации в нем будут последние, от Windows Server 2025, то есть с еще более впечатляющим результатом.

    habr.com/ru/articles/822117/

    #дедупликация #deduplication #dedup #tweak

  6. A new benchmark for data 📚
    Rather than test if a model is good
    This tests whether you can filter data
    360 languages

    They also share metrics for data redundancy if you want just those
    arxiv.org/abs/2311.06440
    github.com/toizzy/
    #data #preprocessing #dedup #enough2skim #NLP #NLProc

  7. I needed to remove all duplicates from ~/.bash_history, and since it contains the date and time for each command, I ended up with lots of dates and times with no commands (since they were duplicates and got removed).

    And I didn't want to check 34k+ of lines manually. So, I wrote a Python script to solve that.

    in case you're interested, here is the code: gitlab.com/ds.python/useful-sc

  8. CW: Degoogling

    Forwarder in place. Now migrating my email folders to the new IMAP.

    I was never an intricate labels user, but there will still be enough dups to make github.com/quentinsf/IMAPdedup worthwhile, probably

    #DeGoogle #IMAP #dedup

  9. @pyrox dedup happens at the pool level. The same blocks in different datasets will dedup.

    Please keep in mind that has a reputation for being more of a resource hog than people expect. I believe there has been some work to improve this but haven’t kept close tabs on it.

  10. coming soon, un article a propos d' #archivage de sa vie numérique répartie sur des supports éparses, en confettis comme le soldat Moralez. et comment repartir dans le temps la gestion du bordel.
    c'est comme ranger sa chambre. bientôt sur cipherbliss.com avec des formiDAB illustrations. #backup #data #données #dedup #chiffrement #restauration #sauvegarde #archivage

  11. Backing up my old NTFS disk to my NAS. There's about 10 years of data on here, and I'm certain there's duplicates due to the way I've changed my organizational habits over the years.

    What are some good network based (or FreeNAS-based) de-duplication applications?

  12. I needed to remove all duplicates from ~/.bash_history, and since it contains the date and time for each command, I ended up with lots of dates and times with no commands (since they were duplicates and got removed).

    And I didn't want to check 34k+ of lines manually. So, I wrote a Python script to solve that.

    in case you're interested, here is the code: gitlab.com/ds.python/useful-sc

    #BASH #history #bashhistory #python #duplicates #duplicate #dedup #code #python3 #linux #gnulinux

  13. I needed to remove all duplicates from ~/.bash_history, and since it contains the date and time for each command, I ended up with lots of dates and times with no commands (since they were duplicates and got removed).

    And I didn't want to check 34k+ of lines manually. So, I wrote a Python script to solve that.

    in case you're interested, here is the code: gitlab.com/ds.python/useful-sc

    #BASH #history #bashhistory #python #duplicates #duplicate #dedup #code #python3 #linux #gnulinux

  14. I needed to remove all duplicates from ~/.bash_history, and since it contains the date and time for each command, I ended up with lots of dates and times with no commands (since they were duplicates and got removed).

    And I didn't want to check 34k+ of lines manually. So, I wrote a Python script to solve that.

    in case you're interested, here is the code: gitlab.com/ds.python/useful-sc

    #BASH #history #bashhistory #python #duplicates #duplicate #dedup #code #python3 #linux #gnulinux

  15. I needed to remove all duplicates from ~/.bash_history, and since it contains the date and time for each command, I ended up with lots of dates and times with no commands (since they were duplicates and got removed).

    And I didn't want to check 34k+ of lines manually. So, I wrote a Python script to solve that.

    in case you're interested, here is the code: gitlab.com/ds.python/useful-sc

    #BASH #history #bashhistory #python #duplicates #duplicate #dedup #code #python3 #linux #gnulinux