home.social

#kmeans — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #kmeans, aggregated by home.social.

  1. 🤖: Spoiler Alert! Flash-KMeans promises to be a "memory-efficient" magic trick, unless you count the mental gymnastics required to understand it. 🤯 Just what the world needs, another K-Means #variant to make your brain cells do a triple axel! 🧠💥
    arxiv.org/abs/2603.09229 #FlashKMeans #MemoryEfficient #KMeans #DataScience #MachineLearning #AI #HackerNews #ngated

  2. @zefu I find the tool works best for images with a decent contrast and/or color hue range. I also recommend not choosing more than 5-8 colors to avoid too many similar ones. Also bear in mind that k-means clustering relies on random initializations and so running the process multiple times for the same image can lead to slightly different results (just press "update" a few times and see if there're any decent changes)...

    Another tip: I personally like having palettes which also include some desaturated colors, so try reducing the "min chroma" slider value (a change will recompute automatically). If you only want more rich colors, then bump up the value, but it all really very much depends on the image... The two variations attached here use min chroma 5 and 0...

    demo.thi.ng/umbrella/dominant-

    #ThingUmbrella #DominantColors #KMeans

  3. @zefu I should update the readme to explain how these palettes were created. They're a manually curated selection of running hundreds of images through this tool (doesn't look like much, but it's been super helpful over the years) and then handpicking my favorites:

    demo.thi.ng/umbrella/dominant-

    This uses k-means clustering for segmentation, also available as library:

    thi.ng/pixel-dominant-colors

    #ThingUmbrella #Color #KMeans #Tool

  4. Recently I've combined various functions which I've been using in other projects (e.g. my personal PKM toolchain) and published them as new library thi.ng/text-analysis for better re-use:

    - customizable, composable & extensible tokenization (transducer based)
    - ngram generation
    - Porter-stemming & stopword removal
    - vocabulary (bi-directional index) creation
    - dense & sparse multi-hot vector encoding/decoding
    - histograms (incl. sorted versions)
    - tf-idf (term frequency & inverse document frequency), multiple strategies
    - k-means clustering (with k-means++ initialization & customizable distance metrics)
    - similarity/distance functions (dense & sparse versions)
    - central terms extraction

    The attached code example (also in the project readme) uses this package to creeate a clustering of all ~210 #ThingUmbrella packages, based on their assigned tags/keywords...

    The library is not intended to be a full-blown NLP solution, but I keep on finding myself running into these functions/concepts quite often, and maybe you'll find them useful too...

    #Text #Analysis #Cluster #KMeans #TFIDF #Ngram #Vector #TypeScript #JavaScript

  5. Как анализировать тысячи отзывов с ChatGPT? Частые ошибки и пример на реальных данных

    В этой статье я расскажу про свой опыт решения рабочей задачи — анализ отзывов о компании от пользователей. Мы разберем возможные ошибки и посмотрим на пример кода и реальных данных. Гайд будет полезен всем, у кого нет большого опыта в анализе данных или работе с LLM через API.

    habr.com/ru/articles/821287/

    #llm #gpt #chatgpt #python #clustering #kmeans #tsne #visualization #summarization #data_analysis

  6. Как анализировать тысячи отзывов с ChatGPT? Частые ошибки и пример на реальных данных

    В этой статье я расскажу про свой опыт решения рабочей задачи — анализ отзывов о компании от пользователей. Мы разберем возможные ошибки и посмотрим на пример кода и реальных данных. Гайд будет полезен всем, у кого нет большого опыта в анализе данных или работе с LLM через API.

    habr.com/ru/articles/821287/

    #llm #gpt #chatgpt #python #clustering #kmeans #tsne #visualization #summarization #data_analysis

  7. Как анализировать тысячи отзывов с ChatGPT? Частые ошибки и пример на реальных данных

    В этой статье я расскажу про свой опыт решения рабочей задачи — анализ отзывов о компании от пользователей. Мы разберем возможные ошибки и посмотрим на пример кода и реальных данных. Гайд будет полезен всем, у кого нет большого опыта в анализе данных или работе с LLM через API.

    habr.com/ru/articles/821287/

    #llm #gpt #chatgpt #python #clustering #kmeans #tsne #visualization #summarization #data_analysis