#word2vec — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #word2vec, aggregated by home.social.
-
[Перевод] Чему именно учится word2vec?
Чему именно учится модель word2vec? Как она это делает? Ответы на эти вопросы мы поищем, анализируя то, как модель изучает представления данных при рассмотрении минималистичной, но достаточно актуальной задачи языкового моделирования. Модель word2vec — это широко известная предшественница современных языковых моделей. Но, несмотря на это, на протяжении долгих лет в распоряжении исследователей не было количественной прогностической теории, описывающей процесс обучения модели. В нашей новой публикации мы, наконец, представили общественности такую теорию. Мы доказали то, что существуют реалистичные, применимые на практике режимы, в которых задача обучения модели сводится к невзвешенной факторизации матриц с использованием метода наименьших квадратов. Мы занимаемся аналитическим моделированием градиентного потока. Представления данных, которые в итоге изучает модель, выводятся с помощью обычного метода главных компонент.
-
[Перевод] Чему именно учится word2vec?
Чему именно учится модель word2vec? Как она это делает? Ответы на эти вопросы мы поищем, анализируя то, как модель изучает представления данных при рассмотрении минималистичной, но достаточно актуальной задачи языкового моделирования. Модель word2vec — это широко известная предшественница современных языковых моделей. Но, несмотря на это, на протяжении долгих лет в распоряжении исследователей не было количественной прогностической теории, описывающей процесс обучения модели. В нашей новой публикации мы, наконец, представили общественности такую теорию. Мы доказали то, что существуют реалистичные, применимые на практике режимы, в которых задача обучения модели сводится к невзвешенной факторизации матриц с использованием метода наименьших квадратов. Мы занимаемся аналитическим моделированием градиентного потока. Представления данных, которые в итоге изучает модель, выводятся с помощью обычного метода главных компонент.
-
[Перевод] Чему именно учится word2vec?
Чему именно учится модель word2vec? Как она это делает? Ответы на эти вопросы мы поищем, анализируя то, как модель изучает представления данных при рассмотрении минималистичной, но достаточно актуальной задачи языкового моделирования. Модель word2vec — это широко известная предшественница современных языковых моделей. Но, несмотря на это, на протяжении долгих лет в распоряжении исследователей не было количественной прогностической теории, описывающей процесс обучения модели. В нашей новой публикации мы, наконец, представили общественности такую теорию. Мы доказали то, что существуют реалистичные, применимые на практике режимы, в которых задача обучения модели сводится к невзвешенной факторизации матриц с использованием метода наименьших квадратов. Мы занимаемся аналитическим моделированием градиентного потока. Представления данных, которые в итоге изучает модель, выводятся с помощью обычного метода главных компонент.
-
[Перевод] Чему именно учится word2vec?
Чему именно учится модель word2vec? Как она это делает? Ответы на эти вопросы мы поищем, анализируя то, как модель изучает представления данных при рассмотрении минималистичной, но достаточно актуальной задачи языкового моделирования. Модель word2vec — это широко известная предшественница современных языковых моделей. Но, несмотря на это, на протяжении долгих лет в распоряжении исследователей не было количественной прогностической теории, описывающей процесс обучения модели. В нашей новой публикации мы, наконец, представили общественности такую теорию. Мы доказали то, что существуют реалистичные, применимые на практике режимы, в которых задача обучения модели сводится к невзвешенной факторизации матриц с использованием метода наименьших квадратов. Мы занимаемся аналитическим моделированием градиентного потока. Представления данных, которые в итоге изучает модель, выводятся с помощью обычного метода главных компонент.
-
От «яблока» до «королевы»: как нейросети учатся понимать смысл слов через эмбеддинги
Представьте, что вы объясняете ребёнку, что такое «яблоко». Вы покажете картинку, дадите попробовать, расскажете, что оно круглое, сладкое, растёт на дереве, а теперь попробуйте объяснить это нейросети. Она не видит, не пробует, но она понимает только числа. Как же тогда заставить машину понять, что «яблоко» ближе к «груше», чем к «трактору»? Ответ на самом деле кроется в элегантном приёме, который произвёл революцию в NLP- векторных представлениях слов , или эмбеддингах . Проблема «слепого» кодирования: почему one-hot не работает Самый наивный подход- это пронумеровать все слова в словаре и закодировать каждое вектором из нулей и одной единицы:
https://habr.com/ru/articles/992928/
#эмбеддинги #word2vec #nlp #машинное_обучение #векторные_представления #косинусное_сходство #обработка_естественного_языка #нейросети #нейросеть #нейросети_python
-
От «яблока» до «королевы»: как нейросети учатся понимать смысл слов через эмбеддинги
Представьте, что вы объясняете ребёнку, что такое «яблоко». Вы покажете картинку, дадите попробовать, расскажете, что оно круглое, сладкое, растёт на дереве, а теперь попробуйте объяснить это нейросети. Она не видит, не пробует, но она понимает только числа. Как же тогда заставить машину понять, что «яблоко» ближе к «груше», чем к «трактору»? Ответ на самом деле кроется в элегантном приёме, который произвёл революцию в NLP- векторных представлениях слов , или эмбеддингах . Проблема «слепого» кодирования: почему one-hot не работает Самый наивный подход- это пронумеровать все слова в словаре и закодировать каждое вектором из нулей и одной единицы:
https://habr.com/ru/articles/992928/
#эмбеддинги #word2vec #nlp #машинное_обучение #векторные_представления #косинусное_сходство #обработка_естественного_языка #нейросети #нейросеть #нейросети_python
-
От «яблока» до «королевы»: как нейросети учатся понимать смысл слов через эмбеддинги
Представьте, что вы объясняете ребёнку, что такое «яблоко». Вы покажете картинку, дадите попробовать, расскажете, что оно круглое, сладкое, растёт на дереве, а теперь попробуйте объяснить это нейросети. Она не видит, не пробует, но она понимает только числа. Как же тогда заставить машину понять, что «яблоко» ближе к «груше», чем к «трактору»? Ответ на самом деле кроется в элегантном приёме, который произвёл революцию в NLP- векторных представлениях слов , или эмбеддингах . Проблема «слепого» кодирования: почему one-hot не работает Самый наивный подход- это пронумеровать все слова в словаре и закодировать каждое вектором из нулей и одной единицы:
https://habr.com/ru/articles/992928/
#эмбеддинги #word2vec #nlp #машинное_обучение #векторные_представления #косинусное_сходство #обработка_естественного_языка #нейросети #нейросеть #нейросети_python
-
От «яблока» до «королевы»: как нейросети учатся понимать смысл слов через эмбеддинги
Представьте, что вы объясняете ребёнку, что такое «яблоко». Вы покажете картинку, дадите попробовать, расскажете, что оно круглое, сладкое, растёт на дереве, а теперь попробуйте объяснить это нейросети. Она не видит, не пробует, но она понимает только числа. Как же тогда заставить машину понять, что «яблоко» ближе к «груше», чем к «трактору»? Ответ на самом деле кроется в элегантном приёме, который произвёл революцию в NLP- векторных представлениях слов , или эмбеддингах . Проблема «слепого» кодирования: почему one-hot не работает Самый наивный подход- это пронумеровать все слова в словаре и закодировать каждое вектором из нулей и одной единицы:
https://habr.com/ru/articles/992928/
#эмбеддинги #word2vec #nlp #машинное_обучение #векторные_представления #косинусное_сходство #обработка_естественного_языка #нейросети #нейросеть #нейросети_python
-
Piotr Migda tries to explain vector math magic in 'king – man + woman = queen' using #word2vec 🤓, but it's basically just a linguistic Ouija board session. 🤔 Spoiler alert: it's still math, not #sorcery. 🧙♂️✨
https://p.migdal.pl/blog/2017/01/king-man-woman-queen-why/ #PiotrMigda #vectorMath #linguisticOuijaBoard #mathNotMagic #HackerNews #ngated -
Piotr Migda tries to explain vector math magic in 'king – man + woman = queen' using #word2vec 🤓, but it's basically just a linguistic Ouija board session. 🤔 Spoiler alert: it's still math, not #sorcery. 🧙♂️✨
https://p.migdal.pl/blog/2017/01/king-man-woman-queen-why/ #PiotrMigda #vectorMath #linguisticOuijaBoard #mathNotMagic #HackerNews #ngated -
Piotr Migda tries to explain vector math magic in 'king – man + woman = queen' using #word2vec 🤓, but it's basically just a linguistic Ouija board session. 🤔 Spoiler alert: it's still math, not #sorcery. 🧙♂️✨
https://p.migdal.pl/blog/2017/01/king-man-woman-queen-why/ #PiotrMigda #vectorMath #linguisticOuijaBoard #mathNotMagic #HackerNews #ngated -
Piotr Migda tries to explain vector math magic in 'king – man + woman = queen' using #word2vec 🤓, but it's basically just a linguistic Ouija board session. 🤔 Spoiler alert: it's still math, not #sorcery. 🧙♂️✨
https://p.migdal.pl/blog/2017/01/king-man-woman-queen-why/ #PiotrMigda #vectorMath #linguisticOuijaBoard #mathNotMagic #HackerNews #ngated -
Word2vec-style vector arithmetic on docs embeddings
https://technicalwriting.dev/embeddings/arithmetic/index.html
#HackerNews #Word2vec-style #vector #arithmetic #on #docs #embeddings #Word2vec #vectorarithmetic #docsembeddings #NLP #MachineLearning
-
Word2vec-style vector arithmetic on docs embeddings
https://technicalwriting.dev/embeddings/arithmetic/index.html
#HackerNews #Word2vec-style #vector #arithmetic #on #docs #embeddings #Word2vec #vectorarithmetic #docsembeddings #NLP #MachineLearning
-
Word2vec-style vector arithmetic on docs embeddings
https://technicalwriting.dev/embeddings/arithmetic/index.html
#HackerNews #Word2vec-style #vector #arithmetic #on #docs #embeddings #Word2vec #vectorarithmetic #docsembeddings #NLP #MachineLearning
-
Word2vec-style vector arithmetic on docs embeddings
https://technicalwriting.dev/embeddings/arithmetic/index.html
#HackerNews #Word2vec-style #vector #arithmetic #on #docs #embeddings #Word2vec #vectorarithmetic #docsembeddings #NLP #MachineLearning
-
Word2vec-style vector arithmetic on docs embeddings
https://technicalwriting.dev/embeddings/arithmetic/index.html
#HackerNews #Word2vec-style #vector #arithmetic #on #docs #embeddings #Word2vec #vectorarithmetic #docsembeddings #NLP #MachineLearning
-
Upgrading from word2vec to OpenAI #code #ml #openai #ithcwy #word2vec Using the Open AI embeddings API to find better related posts for a blog.
https://ithoughthecamewithyou.com/post/upgrading-from-word2vec-to-openai
-
Upgrading from word2vec to OpenAI #code #ml #openai #ithcwy #word2vec Using the Open AI embeddings API to find better related posts for a blog.
https://ithoughthecamewithyou.com/post/upgrading-from-word2vec-to-openai
-
Upgrading from word2vec to OpenAI #code #ml #openai #ithcwy #word2vec Using the Open AI embeddings API to find better related posts for a blog.
https://ithoughthecamewithyou.com/post/upgrading-from-word2vec-to-openai
-
Upgrading from word2vec to OpenAI #code #ml #openai #ithcwy #word2vec Using the Open AI embeddings API to find better related posts for a blog.
https://ithoughthecamewithyou.com/post/upgrading-from-word2vec-to-openai
-
Upgrading from word2vec to OpenAI #code #ml #openai #ithcwy #word2vec Using the Open AI embeddings API to find better related posts for a blog.
https://ithoughthecamewithyou.com/post/upgrading-from-word2vec-to-openai
-
Pre #2020: #Factorizing Tools
These #AI wre #DeepLearning breakthroughs. #Word2Vec, #DeepDream and #AlphaGo solved novel, previously unsolvable, problems.
If you weren't in the field, you might not think these were AI, and #GPT 2 might have surprised you.
-
Pre #2020: #Factorizing Tools
These #AI wre #DeepLearning breakthroughs. #Word2Vec, #DeepDream and #AlphaGo solved novel, previously unsolvable, problems.
If you weren't in the field, you might not think these were AI, and #GPT 2 might have surprised you.
-
Pre #2020: #Factorizing Tools
These #AI wre #DeepLearning breakthroughs. #Word2Vec, #DeepDream and #AlphaGo solved novel, previously unsolvable, problems.
If you weren't in the field, you might not think these were AI, and #GPT 2 might have surprised you.
-
Pre #2020: #Factorizing Tools
These #AI wre #DeepLearning breakthroughs. #Word2Vec, #DeepDream and #AlphaGo solved novel, previously unsolvable, problems.
If you weren't in the field, you might not think these were AI, and #GPT 2 might have surprised you.
-
Pre #2020: #Factorizing Tools
These #AI wre #DeepLearning breakthroughs. #Word2Vec, #DeepDream and #AlphaGo solved novel, previously unsolvable, problems.
If you weren't in the field, you might not think these were AI, and #GPT 2 might have surprised you.
-
[Перевод] Простой механизм поиска с нуля
Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо. Разработанный нами поисковик основывается на векторных представлениях (эмбеддингах) слов. Принцип здесь следующий. Функция получает слово и отображает его в N-мерное пространство (в данном случае N=300 ), где каждое измерение отражает определённый оттенок смысла. Вот хорошая статья (англ.) о том, как обучить собственную модель word2vec, и её внутреннем устройстве. Суть работы созданного нами поиска заключается в преобразовании моих статей, а точнее составляющих их слов, в эмбеддинги, сохраняемые в общем пространстве. Затем при выполнении конкретного поиска текст его запроса преобразуется аналогичным образом и сопоставляется с векторами статей. В результате этого сопоставления, используя метрику косинусного сходства , мы ранжируем статьи по их релевантности запросу. Уравнение ниже может показаться пугающим, но в нём говорится, что косинусное сходство, представляющее косинус угла между двух векторов cos(theta) , определяется в виде скалярного произведения, поделённого на произведение величин каждого вектора. Разберём всё это подробнее.
https://habr.com/ru/companies/ruvds/articles/920174/
#ruvds_перевод #поиск #word2vec #эмбеддинги #косинусное_сходство #векторизация
-
[Перевод] Простой механизм поиска с нуля
Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо. Разработанный нами поисковик основывается на векторных представлениях (эмбеддингах) слов. Принцип здесь следующий. Функция получает слово и отображает его в N-мерное пространство (в данном случае N=300 ), где каждое измерение отражает определённый оттенок смысла. Вот хорошая статья (англ.) о том, как обучить собственную модель word2vec, и её внутреннем устройстве. Суть работы созданного нами поиска заключается в преобразовании моих статей, а точнее составляющих их слов, в эмбеддинги, сохраняемые в общем пространстве. Затем при выполнении конкретного поиска текст его запроса преобразуется аналогичным образом и сопоставляется с векторами статей. В результате этого сопоставления, используя метрику косинусного сходства , мы ранжируем статьи по их релевантности запросу. Уравнение ниже может показаться пугающим, но в нём говорится, что косинусное сходство, представляющее косинус угла между двух векторов cos(theta) , определяется в виде скалярного произведения, поделённого на произведение величин каждого вектора. Разберём всё это подробнее.
https://habr.com/ru/companies/ruvds/articles/920174/
#ruvds_перевод #поиск #word2vec #эмбеддинги #косинусное_сходство #векторизация
-
[Перевод] Простой механизм поиска с нуля
Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо. Разработанный нами поисковик основывается на векторных представлениях (эмбеддингах) слов. Принцип здесь следующий. Функция получает слово и отображает его в N-мерное пространство (в данном случае N=300 ), где каждое измерение отражает определённый оттенок смысла. Вот хорошая статья (англ.) о том, как обучить собственную модель word2vec, и её внутреннем устройстве. Суть работы созданного нами поиска заключается в преобразовании моих статей, а точнее составляющих их слов, в эмбеддинги, сохраняемые в общем пространстве. Затем при выполнении конкретного поиска текст его запроса преобразуется аналогичным образом и сопоставляется с векторами статей. В результате этого сопоставления, используя метрику косинусного сходства , мы ранжируем статьи по их релевантности запросу. Уравнение ниже может показаться пугающим, но в нём говорится, что косинусное сходство, представляющее косинус угла между двух векторов cos(theta) , определяется в виде скалярного произведения, поделённого на произведение величин каждого вектора. Разберём всё это подробнее.
https://habr.com/ru/companies/ruvds/articles/920174/
#ruvds_перевод #поиск #word2vec #эмбеддинги #косинусное_сходство #векторизация
-
[Перевод] Простой механизм поиска с нуля
Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо. Разработанный нами поисковик основывается на векторных представлениях (эмбеддингах) слов. Принцип здесь следующий. Функция получает слово и отображает его в N-мерное пространство (в данном случае N=300 ), где каждое измерение отражает определённый оттенок смысла. Вот хорошая статья (англ.) о том, как обучить собственную модель word2vec, и её внутреннем устройстве. Суть работы созданного нами поиска заключается в преобразовании моих статей, а точнее составляющих их слов, в эмбеддинги, сохраняемые в общем пространстве. Затем при выполнении конкретного поиска текст его запроса преобразуется аналогичным образом и сопоставляется с векторами статей. В результате этого сопоставления, используя метрику косинусного сходства , мы ранжируем статьи по их релевантности запросу. Уравнение ниже может показаться пугающим, но в нём говорится, что косинусное сходство, представляющее косинус угла между двух векторов cos(theta) , определяется в виде скалярного произведения, поделённого на произведение величин каждого вектора. Разберём всё это подробнее.
https://habr.com/ru/companies/ruvds/articles/920174/
#ruvds_перевод #поиск #word2vec #эмбеддинги #косинусное_сходство #векторизация
-
9. TL;DR
Word2Vec was more than just a way to embed words.
It showed us that contrastive learning works — and it’s now everywhere in LLMs and beyond.#LLM #AI #Embeddings #NLP #MachineLearning #Word2Vec #ContrastiveLearning
-
This was shared by someone recently, but I can't find it now. Otherwise, I would have boosted or h/t the original post.
A simple search engine from scratch
#search #word2vec
https://bernsteinbear.com/blog/simple-search/ -
This was shared by someone recently, but I can't find it now. Otherwise, I would have boosted or h/t the original post.
A simple search engine from scratch
#search #word2vec
https://bernsteinbear.com/blog/simple-search/ -
This was shared by someone recently, but I can't find it now. Otherwise, I would have boosted or h/t the original post.
A simple search engine from scratch
#search #word2vec
https://bernsteinbear.com/blog/simple-search/ -
This was shared by someone recently, but I can't find it now. Otherwise, I would have boosted or h/t the original post.
A simple search engine from scratch
#search #word2vec
https://bernsteinbear.com/blog/simple-search/ -
This was shared by someone recently, but I can't find it now. Otherwise, I would have boosted or h/t the original post.
A simple search engine from scratch
#search #word2vec
https://bernsteinbear.com/blog/simple-search/ -
🚀 Wow, two tech wizards defy all odds and cobble together a "search engine" for a blog using word2vec—a tool they just heard about. 🤯 In a Herculean effort that took mere hours, they bravely ventured into the N-dimensional wilderness, emerging victorious with a masterpiece that finds... things. 🧐🔍
https://bernsteinbear.com/blog/simple-search/ #techinnovation #word2vec #searchengine #codingadventure #Ndimensionalvictory #blogtools #HackerNews #ngated -
🚀 Wow, two tech wizards defy all odds and cobble together a "search engine" for a blog using word2vec—a tool they just heard about. 🤯 In a Herculean effort that took mere hours, they bravely ventured into the N-dimensional wilderness, emerging victorious with a masterpiece that finds... things. 🧐🔍
https://bernsteinbear.com/blog/simple-search/ #techinnovation #word2vec #searchengine #codingadventure #Ndimensionalvictory #blogtools #HackerNews #ngated -
🚀 Wow, two tech wizards defy all odds and cobble together a "search engine" for a blog using word2vec—a tool they just heard about. 🤯 In a Herculean effort that took mere hours, they bravely ventured into the N-dimensional wilderness, emerging victorious with a masterpiece that finds... things. 🧐🔍
https://bernsteinbear.com/blog/simple-search/ #techinnovation #word2vec #searchengine #codingadventure #Ndimensionalvictory #blogtools #HackerNews #ngated -
🚀 Wow, two tech wizards defy all odds and cobble together a "search engine" for a blog using word2vec—a tool they just heard about. 🤯 In a Herculean effort that took mere hours, they bravely ventured into the N-dimensional wilderness, emerging victorious with a masterpiece that finds... things. 🧐🔍
https://bernsteinbear.com/blog/simple-search/ #techinnovation #word2vec #searchengine #codingadventure #Ndimensionalvictory #blogtools #HackerNews #ngated -
История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима
Доброго времени суток, «Хабр»! В предыдущей части мы рассмотрели историю языковых моделей от робких шагов Маркова до долгой краткосрочной памяти. Сегодня мы продолжим, пройдемся по ключевым архитектурам последних лет и разберём, как модели научились интерпретировать контекст, предсказывать и даже спорить логически. Пристегните токены — вход в зону трансформаций!
-
История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима
Доброго времени суток, «Хабр»! В предыдущей части мы рассмотрели историю языковых моделей от робких шагов Маркова до долгой краткосрочной памяти. Сегодня мы продолжим, пройдемся по ключевым архитектурам последних лет и разберём, как модели научились интерпретировать контекст, предсказывать и даже спорить логически. Пристегните токены — вход в зону трансформаций!
-
История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима
Доброго времени суток, «Хабр»! В предыдущей части мы рассмотрели историю языковых моделей от робких шагов Маркова до долгой краткосрочной памяти. Сегодня мы продолжим, пройдемся по ключевым архитектурам последних лет и разберём, как модели научились интерпретировать контекст, предсказывать и даже спорить логически. Пристегните токены — вход в зону трансформаций!
-
История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима
Доброго времени суток, «Хабр»! В предыдущей части мы рассмотрели историю языковых моделей от робких шагов Маркова до долгой краткосрочной памяти. Сегодня мы продолжим, пройдемся по ключевым архитектурам последних лет и разберём, как модели научились интерпретировать контекст, предсказывать и даже спорить логически. Пристегните токены — вход в зону трансформаций!
-
Next stop in our NLP timeline is 2013, the introduction of low dimensional dense word vectors - so-called "word embeddings" - based on distributed semantics, as e.g. word2vec by Mikolov et al. from Google, which enabled representation learning on text.
T. Mikolov et al. (2013). Efficient Estimation of Word Representations in Vector Space.
https://arxiv.org/abs/1301.3781#NLP #AI #wordembeddings #word2vec #ise2025 #historyofscience @fiz_karlsruhe @fizise @tabea @sourisnumerique @enorouzi
-
Next stop in our NLP timeline is 2013, the introduction of low dimensional dense word vectors - so-called "word embeddings" - based on distributed semantics, as e.g. word2vec by Mikolov et al. from Google, which enabled representation learning on text.
T. Mikolov et al. (2013). Efficient Estimation of Word Representations in Vector Space.
https://arxiv.org/abs/1301.3781#NLP #AI #wordembeddings #word2vec #ise2025 #historyofscience @fiz_karlsruhe @fizise @tabea @sourisnumerique @enorouzi
-
Next stop in our NLP timeline is 2013, the introduction of low dimensional dense word vectors - so-called "word embeddings" - based on distributed semantics, as e.g. word2vec by Mikolov et al. from Google, which enabled representation learning on text.
T. Mikolov et al. (2013). Efficient Estimation of Word Representations in Vector Space.
https://arxiv.org/abs/1301.3781#NLP #AI #wordembeddings #word2vec #ise2025 #historyofscience @fiz_karlsruhe @fizise @tabea @sourisnumerique @enorouzi