home.social

#skipgram — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #skipgram, aggregated by home.social.

  1. [Перевод] Краткий обзор техник векторизации в NLP

    Как переводчик-редактор, я интересуюсь темой NLP и автоматизации рутины бюро переводов. Изучая вопрос того, как смысл слов превращается в векторы, наткнулся на эту обзорную статью. Статья мне показалась изложенной доступно, поэтому я перевел ее для удобства других коллег. Работоспособность большей части кода проверял, вроде работает (см. Jupiter Notebook). Надеюсь, будет полезно. === Технологии NLP — Natural Language Processing, обработки естественного языка — позволяют компьютерам обрабатывать человеческий язык, понимать его значение и контекст, а также связанные с ним эмоциональную окраску и намерения, и далее, использовать эти данные для создания чего-то нового. Как сделать слова понятными для компьютеров? Используется векторизация. Рассмотрим несколько техник такой векторизации.

    habr.com/ru/articles/778048/

    #токен #векторизация #fasttext #word2vec #glove #CBOW #skipgram #tfidf #nlp_(natural_language_processing)

  2. @ZfdG

    Even though this post is in German, the research article "Classification of Tragedies and Comedies in Calderón de la Barca’s Comedias Nuevas" has been published in English at zfdg.de/2022_012

    We analyze 112 comedies of the Spanish Golden Age dramatist, explore 4 methods to classify them using #word #embeddings, compute #log #likelihood #probability, use #skipgram & #fasttext to characterize the corpus, and contrastive vocabulary analysis to characterize both genres

  3. The research article "#Classification of Tragedies and Comedies in Calderón de la Barca’s Comedias Nuevas", written by @sebastianpado and me, has just been published:
    revistas.uned.es/index.php/RHD
    We analyze 112 comedies of the Spanish Golden Age dramatist and explore 4 methods to classify them into tragedies and comedies using #word #embeddings. We also employ the calculation of #log #likelihood #probability, #skipgram and #fasttext to characterize the corpus as well as ...