home.social

#bertopic — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #bertopic, aggregated by home.social.

  1. Кастомный пайплайн BERTopic: как кластеризовать тексты и получить интерпретируемые темы с помощью LLM

    Привет, Хабр! Меня зовут Антон и я занимаюсь задачами NLP в компании Ростелеком Информационные технологии. Если вам приходилось разбирать большие массивы текстов: отзывов, обращений в поддержку или комментариев, то вы знаете, насколько это трудоемкий процесс. В статье я покажу, как автоматизировать этот процесс с помощью пайплайна BERTopic: от эмбеддингов и кластеризации до интерпретации тем. Особое внимание уделим тому, как встроить локальную LLM в пайплайн и получить человекочитаемые названия тем.

    habr.com/ru/companies/rostelec

    #кластеризация #bertopic #llm #hdbscan #nlp #umap

  2. Кастомный пайплайн BERTopic: как кластеризовать тексты и получить интерпретируемые темы с помощью LLM

    Привет, Хабр! Меня зовут Антон и я занимаюсь задачами NLP в компании Ростелеком Информационные технологии. Если вам приходилось разбирать большие массивы текстов: отзывов, обращений в поддержку или комментариев, то вы знаете, насколько это трудоемкий процесс. В статье я покажу, как автоматизировать этот процесс с помощью пайплайна BERTopic: от эмбеддингов и кластеризации до интерпретации тем. Особое внимание уделим тому, как встроить локальную LLM в пайплайн и получить человекочитаемые названия тем.

    habr.com/ru/companies/rostelec

    #кластеризация #bertopic #llm #hdbscan #nlp #umap

  3. Кастомный пайплайн BERTopic: как кластеризовать тексты и получить интерпретируемые темы с помощью LLM

    Привет, Хабр! Меня зовут Антон и я занимаюсь задачами NLP в компании Ростелеком Информационные технологии. Если вам приходилось разбирать большие массивы текстов: отзывов, обращений в поддержку или комментариев, то вы знаете, насколько это трудоемкий процесс. В статье я покажу, как автоматизировать этот процесс с помощью пайплайна BERTopic: от эмбеддингов и кластеризации до интерпретации тем. Особое внимание уделим тому, как встроить локальную LLM в пайплайн и получить человекочитаемые названия тем.

    habr.com/ru/companies/rostelec

    #кластеризация #bertopic #llm #hdbscan #nlp #umap

  4. Кастомный пайплайн BERTopic: как кластеризовать тексты и получить интерпретируемые темы с помощью LLM

    Привет, Хабр! Меня зовут Антон и я занимаюсь задачами NLP в компании Ростелеком Информационные технологии. Если вам приходилось разбирать большие массивы текстов: отзывов, обращений в поддержку или комментариев, то вы знаете, насколько это трудоемкий процесс. В статье я покажу, как автоматизировать этот процесс с помощью пайплайна BERTopic: от эмбеддингов и кластеризации до интерпретации тем. Особое внимание уделим тому, как встроить локальную LLM в пайплайн и получить человекочитаемые названия тем.

    habr.com/ru/companies/rostelec

    #кластеризация #bertopic #llm #hdbscan #nlp #umap

  5. 🚀 TopicWatchdog – Week 3: Stable Topics with BERTopic

    KMeans worked, but cluster IDs kept jumping across retrains. This week I added a Python BERTopic stage with a BigQuery registry → stable topic IDs!

    🟢 UMAP + HDBSCAN
    🟢 Stable IDs via registry
    🟢 Auto-labels with Gemini
    🟢 Looker Studio dashboards

    📊 3,802 topics → 2,472 mapped, top clusters: migration, economy, climate, politics.

    👉 Blog: dracoblue.net/dev/topicwatchdo

    #TopicWatchdog #BERTopic #BigQuery
    #Clustering
    #MachineLearning
    #FediScience

  6. 🚀 TopicWatchdog – Week 3: Stable Topics with BERTopic

    KMeans worked, but cluster IDs kept jumping across retrains. This week I added a Python BERTopic stage with a BigQuery registry → stable topic IDs!

    🟢 UMAP + HDBSCAN
    🟢 Stable IDs via registry
    🟢 Auto-labels with Gemini
    🟢 Looker Studio dashboards

    📊 3,802 topics → 2,472 mapped, top clusters: migration, economy, climate, politics.

    👉 Blog: dracoblue.net/dev/topicwatchdo

    #TopicWatchdog #BERTopic #BigQuery
    #Clustering
    #MachineLearning
    #FediScience