home.social

#tfidf — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #tfidf, aggregated by home.social.

  1. AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику

    Когда мы говорим, что нейросети "понимают текст", легко забыть: компьютер изначально вообще не понимает слова. Для него текст – это набор чисел, статистики и векторов. В этой статье разберём Bag of Words и TF–IDF – фундаментальные подходы, с которых начинались NLP, поисковые системы и анализ текста. А заодно реализуем поиск похожих документов на чистом PHP без библиотек.

    habr.com/ru/articles/1034874/

    #php #machinelearning #bagofwords #tfidf #BoW #NLP #обработка_естественного_языка #cosine_similarity #векторизация_текста #машинное_обучение

  2. FYI: New Search Engine: Relevance Factors & Ranking Explained! #shorts: A new search engine must prioritize factors beyond simple text matches. Considerations include article freshness, popularity, and source to ensure the most relevant results. Location matters for restaurant searches, ensuring nearby options appear first. #searchengine #relevance #TFIDF #location #proximity youtube.com/shorts/nmWQGIm_hmc

  3. Почему Andrej Karpathy использует SVM в 2026 году (и вам тоже стоит)

    На arXiv каждый день публикуются сотни статей по машинному обучению. Читать всё — нереально, а пропустить что-то важное — обидно. Andrej Karpathy, бывший Director of AI в Tesla и соавтор курса Stanford CS231n, решил эту проблему неожиданным способом. Он выбрал не BERT, не GPT и не какой-нибудь модный трансформер. Он остановился на добром старом SVM — алгоритме, которому уже несколько десятков лет. И знаете что? Это работает настолько хорошо, что используется даже в академических системах. В этой статье мы разберём, как устроено его решение, почему «примитивный» подход работает лучше сложных нейросетей, и когда вам тоже стоит выбрать SVM вместо трансформера. Давайте разбираться!

    habr.com/ru/articles/990386/

    #SVM #Andrej_Karpathy #TFIDF #машинное_обучение #Support_Vector_Machine #нейросети #алгоритмы_классификации

  4. Почему Andrej Karpathy использует SVM в 2026 году (и вам тоже стоит)

    На arXiv каждый день публикуются сотни статей по машинному обучению. Читать всё — нереально, а пропустить что-то важное — обидно. Andrej Karpathy, бывший Director of AI в Tesla и соавтор курса Stanford CS231n, решил эту проблему неожиданным способом. Он выбрал не BERT, не GPT и не какой-нибудь модный трансформер. Он остановился на добром старом SVM — алгоритме, которому уже несколько десятков лет. И знаете что? Это работает настолько хорошо, что используется даже в академических системах. В этой статье мы разберём, как устроено его решение, почему «примитивный» подход работает лучше сложных нейросетей, и когда вам тоже стоит выбрать SVM вместо трансформера. Давайте разбираться!

    habr.com/ru/articles/990386/

    #SVM #Andrej_Karpathy #TFIDF #машинное_обучение #Support_Vector_Machine #нейросети #алгоритмы_классификации

  5. Почему Andrej Karpathy использует SVM в 2026 году (и вам тоже стоит)

    На arXiv каждый день публикуются сотни статей по машинному обучению. Читать всё — нереально, а пропустить что-то важное — обидно. Andrej Karpathy, бывший Director of AI в Tesla и соавтор курса Stanford CS231n, решил эту проблему неожиданным способом. Он выбрал не BERT, не GPT и не какой-нибудь модный трансформер. Он остановился на добром старом SVM — алгоритме, которому уже несколько десятков лет. И знаете что? Это работает настолько хорошо, что используется даже в академических системах. В этой статье мы разберём, как устроено его решение, почему «примитивный» подход работает лучше сложных нейросетей, и когда вам тоже стоит выбрать SVM вместо трансформера. Давайте разбираться!

    habr.com/ru/articles/990386/

    #SVM #Andrej_Karpathy #TFIDF #машинное_обучение #Support_Vector_Machine #нейросети #алгоритмы_классификации

  6. Почему Andrej Karpathy использует SVM в 2026 году (и вам тоже стоит)

    На arXiv каждый день публикуются сотни статей по машинному обучению. Читать всё — нереально, а пропустить что-то важное — обидно. Andrej Karpathy, бывший Director of AI в Tesla и соавтор курса Stanford CS231n, решил эту проблему неожиданным способом. Он выбрал не BERT, не GPT и не какой-нибудь модный трансформер. Он остановился на добром старом SVM — алгоритме, которому уже несколько десятков лет. И знаете что? Это работает настолько хорошо, что используется даже в академических системах. В этой статье мы разберём, как устроено его решение, почему «примитивный» подход работает лучше сложных нейросетей, и когда вам тоже стоит выбрать SVM вместо трансформера. Давайте разбираться!

    habr.com/ru/articles/990386/

    #SVM #Andrej_Karpathy #TFIDF #машинное_обучение #Support_Vector_Machine #нейросети #алгоритмы_классификации

  7. ICYMI: New Search Engine: Relevance Factors & Ranking Explained! #shorts: A new search engine must prioritize factors beyond simple text matches. Considerations include article freshness, popularity, and source to ensure the most relevant results. Location matters for restaurant searches, ensuring nearby options appear first. #searchengine #relevance #TFIDF #location #proximity youtube.com/shorts/nmWQGIm_hmc

  8. New Search Engine: Relevance Factors & Ranking Explained! #shorts: A new search engine must prioritize factors beyond simple text matches. Considerations include article freshness, popularity, and source to ensure the most relevant results. Location matters for restaurant searches, ensuring nearby options appear first. #searchengine #relevance #TFIDF #location #proximity youtube.com/shorts/nmWQGIm_hmc

  9. 🚀 Tôi đã hoàn thànhстер structure một moteur tìm kiếm độc lập bằng Java! Sử dụng算法 TF-IDF và BM25, hỗ trợ token hóa, xóa từ trống, và ranking văn bản. Hoàn hảo bằng Java 21, không dùng thư viện bên outsourcing. versione opensourcerecipes trong GitHub. Learn rao về thông tin trích xuất và cơ sở dữ liệu!
    #SearchEngine #Java #TFIDF #BM25 #OpenSource #LearningProject #TiemKiem #JavaCor #LapTrinh #NgoQuyet

    reddit.com/r/opensource/commen

  10. Lazy-fedi-question... I have a "working"(?) code example of TF-IDF #tfidf using #scikitlearn and I know the main concepts, but all the tutorials I find are a bit — I don't want to be harsh but —crappy... Can someone point me to some nice open resource on it?

  11. Recently I've combined various functions which I've been using in other projects (e.g. my personal PKM toolchain) and published them as new library thi.ng/text-analysis for better re-use:

    - customizable, composable & extensible tokenization (transducer based)
    - ngram generation
    - Porter-stemming & stopword removal
    - vocabulary (bi-directional index) creation
    - dense & sparse multi-hot vector encoding/decoding
    - histograms (incl. sorted versions)
    - tf-idf (term frequency & inverse document frequency), multiple strategies
    - k-means clustering (with k-means++ initialization & customizable distance metrics)
    - similarity/distance functions (dense & sparse versions)
    - central terms extraction

    The attached code example (also in the project readme) uses this package to creeate a clustering of all ~210 #ThingUmbrella packages, based on their assigned tags/keywords...

    The library is not intended to be a full-blown NLP solution, but I keep on finding myself running into these functions/concepts quite often, and maybe you'll find them useful too...

    #Text #Analysis #Cluster #KMeans #TFIDF #Ngram #Vector #TypeScript #JavaScript

  12. Okay, Back of the napkin math:
    - There are probably 100 million sites and 1.5 billion pages worth indexing in a #search engine
    - It takes about 1TB to #index 30 million pages.
    - We only care about text on a page.

    I define a page as worth indexing if:
    - It is not a FAANG site
    - It has at least one referrer (no DD Web)
    - It's active

    So, this means we need 40TB of fast data to make a good index for the internet. That's not "runs locally" sized, but it is nonprofit sized.

    My size assumptions are basically as follows:
    - #URL
    - #TFIDF information
    - Text #Embeddings
    - Snippet

    We can store an index for 30kb. So, for 40TB we can store an full internet index. That's about $500 in storage.

    Access time becomes a problem. TFIDF for the whole internet can easily fit in ram. Even with #quantized embeddings, you can only fit 2 million per GB in ram.

    Assuming you had enough RAM it could be fast: TF-IDF to get 100 million candidated, #FAISS to sort those, load snippets dynamically, potentially modify rank by referers etc.

    6 128 MG #Framework #desktops each with 5tb HDs (plus one raspberry pi to sort the final condidates from the six machines) is enough to replace #Google. That's about $15k.

    In two to three years this will be doable on a single machine for around $3k.

    By the end of the decade it should be able to be run as an app on a powerful desktop

    Three years after that it can run on a #laptop.

    Three years after that it can run on a #cellphone.

    By #2040 it's a background process on your cellphone.

  13. Сортировка книг по тематикам скриптами Python

    На момент написания этой заметки около половины из 16 тысяч книг в моей библиотеке — ИТшные, другая половина — медицинские. Две трети этих книг на английском, одна треть — на русском. Примерно раз в месяц я с телеграм-каналов докачиваю еще 1–2 тысячи книг, из которых реально новых — не более 100–200, остальное у меня уже есть. Кроме того, попадаются сканированные книги с околонулевой пользой, если их не распознавать. Всё это добро мне нужно регулярно дедуплицировать, раскладывать по тематическим папочкам, выкладывать в облако для коллег и при этом не тратить на это много времени. Готовых программ для таких задач я не нашел, поэтому, как мог, справлялся сам — писал скрипты на Python.

    habr.com/ru/articles/867412/

    #petproject #python #spacy #tfidf #обработка_данных #text_mining

  14. Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях

    Привет, меня зовут Коновалов Андрей, я Data Scientist персональных рекомендаций Wildberries. В этой статье разберем, как можно тюнингом TF-IDF побить BERT4Rec в ретро-тесте рекомендательной системы .

    habr.com/ru/companies/wildberr

    #ml #recsys #data_science #bert4rec #tfidf #рекомендательные_системы #рекомендации #wildberries

  15. Как найти иголку в стоге сена? Или обозор Retrieval Algorithms

    Появление трансформеров, а впоследствии LLM (Large Language Models) привело к активному распространению чат-ботов и различных ассистентов помогающих в получении информации или генерации контента. Но несмотря на то что LLM способны по запросу генерировать человекоподобные тексты, они подвержены галлюцинациям . Естественным кажется желание уменьшить количество не достоверных ответов. Для этого мы можем либо дообучить LLM на наших данных, либо использовать Retrieval Augmented Generation (RAG) . RAG - это способ генерации текстов на новых данных без дообучения модели, с помощью добавления релевантных документов в промпт модели. Документы для генерации ищутся с помощью retrieval системы, после чего объединяются в один промпт и подаются в LLM для последующей обработки. В этой статье я решил собрать информацию о всех наиболее известных и применяемых алгоритмах поиска, с описаниями и материалами для более глубокого изучения.

    habr.com/ru/articles/840268/

    #bm25 #tfidf #hnsw #hnswlib #kd_tree #ann #product_quantization #LSH

  16. Как найти иголку в стоге сена? Или обозор Retrieval Algorithms

    Появление трансформеров, а впоследствии LLM (Large Language Models) привело к активному распространению чат-ботов и различных ассистентов помогающих в получении информации или генерации контента. Но несмотря на то что LLM способны по запросу генерировать человекоподобные тексты, они подвержены галлюцинациям . Естественным кажется желание уменьшить количество не достоверных ответов. Для этого мы можем либо дообучить LLM на наших данных, либо использовать Retrieval Augmented Generation (RAG) . RAG - это способ генерации текстов на новых данных без дообучения модели, с помощью добавления релевантных документов в промпт модели. Документы для генерации ищутся с помощью retrieval системы, после чего объединяются в один промпт и подаются в LLM для последующей обработки. В этой статье я решил собрать информацию о всех наиболее известных и применяемых алгоритмах поиска, с описаниями и материалами для более глубокого изучения.

    habr.com/ru/articles/840268/

    #bm25 #tfidf #hnsw #hnswlib #kd_tree #ann #product_quantization #LSH

  17. Как найти иголку в стоге сена? Или обозор Retrieval Algorithms

    Появление трансформеров, а впоследствии LLM (Large Language Models) привело к активному распространению чат-ботов и различных ассистентов помогающих в получении информации или генерации контента. Но несмотря на то что LLM способны по запросу генерировать человекоподобные тексты, они подвержены галлюцинациям . Естественным кажется желание уменьшить количество не достоверных ответов. Для этого мы можем либо дообучить LLM на наших данных, либо использовать Retrieval Augmented Generation (RAG) . RAG - это способ генерации текстов на новых данных без дообучения модели, с помощью добавления релевантных документов в промпт модели. Документы для генерации ищутся с помощью retrieval системы, после чего объединяются в один промпт и подаются в LLM для последующей обработки. В этой статье я решил собрать информацию о всех наиболее известных и применяемых алгоритмах поиска, с описаниями и материалами для более глубокого изучения.

    habr.com/ru/articles/840268/

    #bm25 #tfidf #hnsw #hnswlib #kd_tree #ann #product_quantization #LSH

  18. Что такое векторизация текста в NLP и какая она бывает: One-hot encoding, Bag of words, TF-IDF, Word2Vec, BERT и другие

    Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников , и в этой статье я расскажу про разные способы векторизации текстов. Всем привет! Вдохновившись прикольной и понятной статьей на английском языке, и не найдя сходу чего-то похожего в русскоязычном сегменте интернета, решил написать о том, как обрабатывается текст перед тем, как на нем начинают применять разные модели ИИ. Эту статью я напишу нетехническим языком, потому что сам не технарь и не математик. Надеюсь, что она поможет узнать о NLP тем, кто не сталкивается с AI в продуктах на ежедневной основе. О чем эта статья:

    habr.com/ru/articles/820159/

    #Onehot_encoding #Bag_of_words #TFIDF #Word2Vec #BERT #NLP #nlp_(natural_language_processing) #nlpмодели

  19. How would you go about creating a filter that blocks posts about things that people hate?

    I've thought I could build a text classifier, but it could be hard to train since I'd need to guess whether or not the author hates the thing they are posting about.

    I wouldn't want it to become a filter for all current events news, but I suspect that's what it would become.

    #fediverse #mastodon #machineLearning #tfidf #classification #socialMedia #classifier #textAnalysis #programming #tech #technology

  20. [Перевод] Краткий обзор техник векторизации в NLP

    Как переводчик-редактор, я интересуюсь темой NLP и автоматизации рутины бюро переводов. Изучая вопрос того, как смысл слов превращается в векторы, наткнулся на эту обзорную статью. Статья мне показалась изложенной доступно, поэтому я перевел ее для удобства других коллег. Работоспособность большей части кода проверял, вроде работает (см. Jupiter Notebook). Надеюсь, будет полезно. === Технологии NLP — Natural Language Processing, обработки естественного языка — позволяют компьютерам обрабатывать человеческий язык, понимать его значение и контекст, а также связанные с ним эмоциональную окраску и намерения, и далее, использовать эти данные для создания чего-то нового. Как сделать слова понятными для компьютеров? Используется векторизация. Рассмотрим несколько техник такой векторизации.

    habr.com/ru/articles/778048/

    #токен #векторизация #fasttext #word2vec #glove #CBOW #skipgram #tfidf #nlp_(natural_language_processing)

  21. I have plenty more achievable goals for schizo.social (like multi-account, or #Calckey support) but something I'd love to try is #classifying posts with #machineLearning #tfidf

    I'd like to be able to define "labels" and then train it to identify those on the fly. Then either mute or highlight posts that #classify highly.

    Not so much an #algorithm, as a #filter.

    #ai #ml #webDev #classifier