#neural_networks — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #neural_networks, aggregated by home.social.
-
The Hundred-Page Language Models Course by Andriy Burkov is the featured course 🎓 on Leanpub!
Master language models through mathematics, illustrations, and code―and build your own from scratch! This course includes nearly three hours of exclusive video interviews with the author, covering questions related to each of the six lessons included in the course.
Link: https://leanpub.com/courses/leanpub/theLMcourse
#ai #gpt #textbooks #data_science #computer_science #neural_networks #deep_learning #linguistics
-
Анимация персонажей в реальном времени с помощью машинного обучения: обзор PFNN, MANN и LMM
Еще совсем недавно в анимации персонажей за стандарт были приняты такие системы, как, например, анимация на основе ключевых кадров (keyframe) или процедурная анимация, подразумевающая под собой целое семейство совершенно различных подходов — на основе обратной кинематики, ragdoll, или более комплексных разработок (GTA IV — Euphoria). Однако, несмотря на широкое применение, они не лишены существенных недостатков — нереалистичность, дороговизна, ограниченная выразительность, потребность в ручном труде, сложность с выдерживанием единого художественного стиля. Затем пришел motion matching, обеспечивающий совершенно иной уровень качества анимации, но и позволить себе такие системы могут только разработчики проектов ААА уровня. К тому же такая система чрезвычайно требовательна к оперативной памяти ввиду необходимости хранить в ней всю библиотеку анимаций. Некоторые из перечисленных недостатков естественным образом решаются посредством применения машинного обучения благодаря низкому потреблению памяти, масштабируемости в контексте данных и способности к обобщению. Сегодня можно наблюдать новый сдвиг: все больше задач, связанных с движением, мимикой и поведением персонажей, передаётся моделям машинного обучения. Причина проста — игры, VR/AR‑системы, виртуальные актёры, интерактивные симуляции — требуют не просто красивой анимации, а реалистичного поведения в реальном времени, адаптирующегося к окружению и действиям пользователя, чего традиционные системы не могут обеспечить. Нейросети способны учиться на больших наборах данных захвата движения, предсказывать движение для следующих кадров, синтезировать переходы между позами, управлять походкой, балансом, реакциями на препятствия и даже мимикой, синхронизированной с голосом. В результате мы получаем анимацию, которая выглядит естественно, но при этом генерируется на лету — без заранее подготовленных клипов. Тем не менее вместе с новыми возможностями приходят и новые вызовы: производительность, стабильность, контроль над результатом, требования к качеству данных и интеграция в существующие пайплайны.
https://habr.com/ru/articles/1034842/
#motion_capture_for_animation #machine_leraning #neural_networks #gamedev
-
The Agentic AI book: From Language Models to Multi-Agent Systems by Dr. Ryan Rad is the featured book 📖 on Leanpub!
It's never been easier to build an AI agent—and never been harder to make one that actually works. This book takes you from language model foundations to production-ready multi-agent systems, with the depth to understand what you're building and why it fails.
Link: https://leanpub.com/TheAgenticAIbook
#ai #computer_science #deep_learning #data_science #gpt #neural_networks
-
Inside Large Language Models for absolute beginners: Volume I: Simple Arithmetic and beginning Python based approach by Ritesh Modi is a new release on Leanpub!
Link: https://leanpub.com/insidellmvol1
#books #ebooks #newreleases #leanpublishing #selfpublishing #computer_programming #ai #python #machine_learning #neural_networks #deep_learning #gpt
-
The Hundred-Page Language Models Course by Andriy Burkov is the featured course 🎓 on Leanpub!
Master language models through mathematics, illustrations, and code―and build your own from scratch! This course includes nearly three hours of exclusive video interviews with the author, covering questions related to each of the six lessons included in the course.
Link: https://leanpub.com/courses/leanpub/theLMcourse
#ai #gpt #textbooks #data_science #computer_science #neural_networks #deep_learning #linguistics
-
Inside Large Language Models for absolute beginners: Volume I: Simple Arithmetic and beginning Python based approach by Ritesh Modi is the featured book 📖 on Leanpub!
Link: https://leanpub.com/insidellmvol1
#computer_programming #ai #python #machine_learning #neural_networks #deep_learning #gpt
-
Generative AI for Science: A Hands-On Guide for Students and Researchers by J. Paul Liu is the featured book 📖 on Leanpub!
Link: https://leanpub.com/generativeaiforscience
#ai #machine_learning #data_science #neural_networks #deep_learning
-
My Adventures with Large Language Models: Build foundational LLMs from Transformers to DeepSeek, from scratch, in PyTorch. by Prathamesh S. is a new release on Leanpub!
Link: https://leanpub.com/adventures-with-llms
#books #ebooks #newreleases #leanpublishing #selfpublishing #machine_learning #deep_learning #ai #python #computer_science #computer_programming #data_science #neural_networks
-
The Hundred-Page Language Models Course by Andriy Burkov is the featured course 🎓 on Leanpub!
Master language models through mathematics, illustrations, and code―and build your own from scratch! This course includes nearly three hours of exclusive video interviews with the author, covering questions related to each of the six lessons included in the course.
Link: https://leanpub.com/courses/leanpub/theLMcourse
#ai #gpt #textbooks #data_science #computer_science #neural_networks #deep_learning #linguistics
-
Сколько VRAM нужно для нейросетей?
Этот пост будет полезен людям, кто хочет разобраться в локальных моделях, особенно использующим их, как инструмент в создании контента, арта и дизайна (контекст нейросетей - image и video). Так же поговорим о выборе видеокарты и параметрах влияющих на генеративные workflow. Telegram
https://habr.com/ru/articles/979092/
#нейросеть_локально #нейросеть_для_генерации_изображений #видеокарты #quantization #comfyui #memory_bandwidth #vram #neural_networks #генеративные_модели
-
Нейросеть, которая помнит всё: заморозка ядра вместо «костылей» (Frozen Core Decomposition)
Frozen Core Decomposition (FCD) — инновационный метод для решения проблемы катастрофического забывания в continual learning. Используя разложение Tucker, метод достигает 96.1% точности на Split MNIST с минимальным забыванием (0.2%) и поддерживает работу с CNN, ResNet, GPT-2 и другими архитектурами. В статье разбираем математику, результаты экспериментов и реализацию на PyTorch.
https://habr.com/ru/articles/979030/
#continual_learning #neural_networks #frozen_core_decomposition #tucker_decomposition #machine_learning #deep_learning #catastrophic_forgetting #incremental_learning #PyTorch #neural_network_training
-
Cryfish: Как научить большую языковую модель слышать и понимать звуки?
В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам. В этой статье мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.
https://habr.com/ru/articles/972898/
#machine_learning #large_language_model #neural_networks #speech_recognition #speaker_verification
-
Cryfish: Как научить большую языковую модель слышать и понимать звуки?
В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам. В этой статье мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.
https://habr.com/ru/articles/972898/
#machine_learning #large_language_model #neural_networks #speech_recognition #speaker_verification
-
Cryfish: Как научить большую языковую модель слышать и понимать звуки?
В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам. В этой статье мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.
https://habr.com/ru/articles/972898/
#machine_learning #large_language_model #neural_networks #speech_recognition #speaker_verification
-
Cryfish: Как научить большую языковую модель слышать и понимать звуки?
В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам. В этой статье мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.
https://habr.com/ru/articles/972898/
#machine_learning #large_language_model #neural_networks #speech_recognition #speaker_verification
-
Diffusion Beats Autoregressive in Data-Constrained Settings
https://blog.ml.cmu.edu/2025/09/22/diffusion-beats-autoregressive-in-data-constrained-settings/
#ycombinator #Machine_learning #artificial_intelligence #deep_learning #natural_language_processing #automated_machine_learning #big_data #data_science #neural_networks #ethics_and_ai #computer_science #research -
Правда ли KAN лучше MLP? Свойство разделения глубины между двумя архитектурами
Прошлым летом в свет вышла новая архитектура нейронных сетей под названием Kolmogorov-Arnold Networks (KAN). На момент выхода статьи про KAN эта новость произвела фурор в мире машинного обучение, так как KAN показывала существенный прирост в качестве аппроксимации различных сложных функций. Ошибка новых сетей падает значительно быстрее при увеличении числа параметров. Однако, за все приходится платить, и цена таких маленьких значений функции ошибки - медленное обучение: KAN обучается примерно в 10 раз медленнее, чем старый добрый MLP. Из всего этого возникает вопрос: насколько все же уместно использование новой архитектуры вместо привычных всем MLP? В данной статье будет найдена функция, которая может быть реализована с помощью двухслойного KAN полиномиальной ширины, но не может быть приближена никакой двухслойной ReLU MLP сетью с полиномиальной шириной
https://habr.com/ru/articles/929972/
#kan #mlp #approximation #math #machine_learning #deep_learning #science #neural_networks #research
-
Вычисление функции потерь и градиентов в AI переводчике
Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex , которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен переводчик на нейронных сетях изнутри. И сейчас хочу рассказать про работу функции потерь. Для тренировки модели используется opensource фреймворк OpenNMT-tf. Статья предоставляет всесторонний обзор вычисления функции потерь в машинном обучении, особенно в контексте моделей последовательностей. Она начинается с подробного описания того, как матрица логитов, генерируемая после преобразований в декодере, обрабатывается через функцию cross_entropy_sequence_loss. Эта функция играет ключевую роль в измерении расхождения между предсказанными выводами и фактическими метками. В статье описаны шаги, включая преобразование логитов в подходящий формат, применение сглаживания меток для создания сглаженных меток и вычисление кросс-энтропийных потерь с использованием softmax. Каждый этап подробно объясняется, чтобы было понятно, как каждый компонент вносит вклад в общую оценку потерь. Кроме вычисления потерь, статья рассматривает механизм выравнивания, используемый для улучшения работы модели. Описано, как значение потерь корректируется на основе направляемого выравнивания, что позволяет модели лучше учитывать взаимосвязи между исходными и целевыми последовательностями. Также подробно рассматривается процесс вычисления и применения градиентов, иллюстрируя, как оптимизатор обновляет веса модели для минимизации потерь.
https://habr.com/ru/articles/917708/
#машинное+обучение #machinelearning #переводчик #переводчики #машинный_перевод #ии #искусственный_интеллект #языковые_модели #transformers #neural_networks
-
Сделано с любовью и TensorFlow: моя первая нейронка с нуля (без GPU и с бюджетом $0)
Когда я впервые села за компьютер с мыслью: «А не обучить ли мне нейросеть?» у меня не было понимания как это сделать и с чего начать. Зато была любовь к собакам, интерес к машинному обучению и желание разобраться, как всё работает. Так родился проект HappyPuppy - моя первая нейронка, которая распознаёт сибирского хаски и французского бульдога на фотографии. Просто загрузите фото (jpg, jpeg, png до 1MB) с вашим питомцем и модель предскажет породу. Далее я расскажу, как на домашнем Маке появилась и выросла моя первая сверточная нейронная сеть (CNN): от идеи до работающей модели — её создание, обучение и тестирование. Эта история будет особенно полезна новичкам в мире ИИ без опыта в программировании . Ссылка на код на GitHub, архитектура модели и маленький ликбез по сверточным нейронным сетям будут в конце статьи. А сейчас — история создания по шагам.
https://habr.com/ru/articles/905718/
#machine_learning #ai #cnn #neural_networks #flask #python3 #tensorflow #keras
-
Мир будущего: управление устройствами с помощью жестов
Видели в кино, как устройствами управляют с помощью жестов? Сделать такую систему очень просто, а ещё очень дорого. Но всё-таки есть способ сделать её достаточно лёгкой и простой — настолько, чтобы можно было интегрировать в любое устройство с любым процессором, потратив минимальное количество денег. Привет, Хабр! Это Александр Нагаев, техлид из SberDevices команды R&D компьютерного зрения. Расскажу, как создавать и использовать оптимизированные модели для управления устройствами с помощью жестов.
https://habr.com/ru/companies/oleg-bunin/articles/891860/
#data_mining #computer_vision #detection #neural_networks #data_science #deep_learning #device_control #gesture_recognition #datasets #humancomputerinteraction
-
Исследуем эволюцию архитектур в Computer Vision: Mind Map всех ключевых моделей
Компьютерное зрение (Computer Vision) пережило невероятную эволюцию за последние десятилетия. От простых свёрточных сетей до сложных архитектур, которые сегодня задают стандарты в распознавании изображений, обработке видео и других задачах. Но как разобраться во всём этом многообразии? Чтобы помочь себе (и вам!) лучше понять основные направления развития, я создал Mind Map , которая объединяет ключевые архитектуры Computer Vision — от классических моделей до современных прорывов.
https://habr.com/ru/articles/890724/
#computer_vision #mind_maps #deep_learning #machine_learning #машинное_обучение #нейронные_сети #neural_networks #transformers #resnet
-
Исследуем эволюцию архитектур в Computer Vision: Mind Map всех ключевых моделей
Компьютерное зрение (Computer Vision) пережило невероятную эволюцию за последние десятилетия. От простых свёрточных сетей до сложных архитектур, которые сегодня задают стандарты в распознавании изображений, обработке видео и других задачах. Но как разобраться во всём этом многообразии? Чтобы помочь себе (и вам!) лучше понять основные направления развития, я создал Mind Map , которая объединяет ключевые архитектуры Computer Vision — от классических моделей до современных прорывов.
https://habr.com/ru/articles/890724/
#computer_vision #mind_maps #deep_learning #machine_learning #машинное_обучение #нейронные_сети #neural_networks #transformers #resnet
-
Исследуем эволюцию архитектур в Computer Vision: Mind Map всех ключевых моделей
Компьютерное зрение (Computer Vision) пережило невероятную эволюцию за последние десятилетия. От простых свёрточных сетей до сложных архитектур, которые сегодня задают стандарты в распознавании изображений, обработке видео и других задачах. Но как разобраться во всём этом многообразии? Чтобы помочь себе (и вам!) лучше понять основные направления развития, я создал Mind Map , которая объединяет ключевые архитектуры Computer Vision — от классических моделей до современных прорывов.
https://habr.com/ru/articles/890724/
#computer_vision #mind_maps #deep_learning #machine_learning #машинное_обучение #нейронные_сети #neural_networks #transformers #resnet
-
Исследуем эволюцию архитектур в Computer Vision: Mind Map всех ключевых моделей
Компьютерное зрение (Computer Vision) пережило невероятную эволюцию за последние десятилетия. От простых свёрточных сетей до сложных архитектур, которые сегодня задают стандарты в распознавании изображений, обработке видео и других задачах. Но как разобраться во всём этом многообразии? Чтобы помочь себе (и вам!) лучше понять основные направления развития, я создал Mind Map , которая объединяет ключевые архитектуры Computer Vision — от классических моделей до современных прорывов.
https://habr.com/ru/articles/890724/
#computer_vision #mind_maps #deep_learning #machine_learning #машинное_обучение #нейронные_сети #neural_networks #transformers #resnet
-
HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов
Датасет HaGRID , о котором мы писали в одном из постов , — это самый полный набор данных для построения системы распознавания жестов. Он стал очень популярным внутри комьюнити и нашел применение в таких задачах, как обучение и оценка нейронных сетей для распознавания жестов (о чем писали, например, тут и тут ), а также в таких неочевидных приложениях, как генерация анатомически корректных рук с помощью диффузионных моделей (об этом можно почитать тут , тут и тут ). Данная статья посвящена расширенной версии датасета — HaGRIDv2-1M . Тут мы подробно расскажем о её отличиях от первой версии, поделимся результатами экспериментов и обсудим новые возможности. Кроме того, мы представляем новый real-time алгоритм для детекции динамических жестов, полностью обученный на HaGRIDv2-1M . Данные, код и предобученные модели можно найти в репозиториях HaGRID , dynamic gestures , а более подробно ознакомиться с работой можно в статьях HaGRIDv2-1M , HaGRID .
https://habr.com/ru/companies/sberdevices/articles/888896/
#data_mining #computer_vision #humancomputerinteraction #gesture_recognition #device_control #datasets #data_science #deep_learning #neural_networks #detection
-
Marigold-DC
Построение 3D мира стало необходимым с появлением автопилотов для построения карт и планирования маршрутов. Данная статья про одно из решений задачи Depth Completion (получение 3D карты по лидарным точкам и изображениям с камер). Попыталась разобраться в архитектуре Marigold-DC. Надеюсь, будет интересно ❤️
https://habr.com/ru/articles/886204/
#диффузионные_модели #нейронные_сети #3d_реконструкция #depth_map #карта_глубины #diffusion_models #neural_networks #3d_reconstruction
-
Marigold-DC
Построение 3D мира стало необходимым с появлением автопилотов для построения карт и планирования маршрутов. Данная статья про одно из решений задачи Depth Completion (получение 3D карты по лидарным точкам и изображениям с камер). Попыталась разобраться в архитектуре Marigold-DC. Надеюсь, будет интересно ❤️
https://habr.com/ru/articles/886204/
#диффузионные_модели #нейронные_сети #3d_реконструкция #depth_map #карта_глубины #diffusion_models #neural_networks #3d_reconstruction
-
Marigold-DC
Построение 3D мира стало необходимым с появлением автопилотов для построения карт и планирования маршрутов. Данная статья про одно из решений задачи Depth Completion (получение 3D карты по лидарным точкам и изображениям с камер). Попыталась разобраться в архитектуре Marigold-DC. Надеюсь, будет интересно ❤️
https://habr.com/ru/articles/886204/
#диффузионные_модели #нейронные_сети #3d_реконструкция #depth_map #карта_глубины #diffusion_models #neural_networks #3d_reconstruction
-
Marigold-DC
Построение 3D мира стало необходимым с появлением автопилотов для построения карт и планирования маршрутов. Данная статья про одно из решений задачи Depth Completion (получение 3D карты по лидарным точкам и изображениям с камер). Попыталась разобраться в архитектуре Marigold-DC. Надеюсь, будет интересно ❤️
https://habr.com/ru/articles/886204/
#диффузионные_модели #нейронные_сети #3d_реконструкция #depth_map #карта_глубины #diffusion_models #neural_networks #3d_reconstruction
-
Пишем свой PyTorch на NumPy. ФИНАЛ. Запускаем GPT-2
PyTorch — это мощный и гибкий фреймворк для машинного обучения, широко используемый для создания нейронных сетей. Он особенно популярен благодаря простоте использования, динамическим вычислительным графам и богатой экосистеме инструментов для обучения моделей. Для использования этого фреймворка, часто достаточно поверхностно понимать работу алгоритмов машинного обучения. В этой части мы будем писать инференс код для GPT2 на собственной библиотеке!
-
Пишем свой PyTorch на NumPy. Часть 3. Строим граф вычислений
PyTorch — это мощный и гибкий фреймворк для машинного обучения, широко используемый для создания нейронных сетей. Он особенно популярен благодаря простоте использования, динамическим вычислительным графам и богатой экосистеме инструментов для обучения моделей. Для использования этого фреймворка, часто достаточно поверхностно понимать работу алгоритмов машинного обучения. В этой статье мы продолжим реализацию собственный библиотеки машинного обучения на NumPy!
-
Пишем свой PyTorch на NumPy. Часть 1
PyTorch — это мощный и гибкий фреймворк для машинного обучения, широко используемый для создания нейронных сетей. Он особенно популярен благодаря простоте использования, динамическим вычислительным графам и богатой экосистеме инструментов для обучения моделей. В этой статье мы реализуем собственную библиотеку машинного обучения на NumPy!
-
ChatGPT Learned to Reason [video]
https://www.youtube.com/watch?v=PvDaPeQjxOE
#ycombinator #AI_reasoning #ChatGPT_explained #artificial_intelligence #neural_networks #Monte_Carlo_Tree_Search #DeepMind #AlphaGo #chess_AI #language_models #machine_learning #reinforcement_learning #deep_learning #AI_history #GPT_training #chain_of_thought #AI_breakthrough #game_AI #TD_Gammon #MuZero #Claude_AI #O1_AI #AI_algorithms #AI_development #computer_reasoning #AI_evolution #future_AI -
Погружение в Sampling method: механизмы работы в моделях диффузии
Зачем нужен метод выборки в нейросети и как устроена его внутренняя математика и алгоритм работы — об этом в статье.
https://habr.com/ru/articles/846358/
#ai #ии #stable_diffusion #нейросети #sampler #cfg_scale #neural_networks
-
How to Read Deep Learning Paper as a Software Engineer
https://www.youtube.com/watch?v=nL7lAo95D-o
#ycombinator #programming #machine_learning #data_science #optimization #feature_engineering #deep_learning #neural_networks #artificial_intelligence #data_visualization #reading_research_paper #reading_deep_learning_paper #how_to_read_research -
ИИ как платформа
Новая предметная область ИИ - тема хайповая. Часто мы рассуждаем о том, сможет ли ИИ заменить мясных программистов и если сможет, то когда именно. Есть два базовых полярных мнения и множество комбинаций между ними: на одном полюсе считают, что скоро нам всем кирдык и интеллектуальный труд доживает последние дни. На другом полюсе - скептически ухмыляются, и говорят, что никакой особенной угрозы нет: у ИИ нет и никогда не будет того, что есть у человеческих мозгов. У многих из нас уже есть опыт общения с разными нейросетями, как позитивный так и не очень. И еще имеется, я бы сказал, некий "странный" опыт, отдельная категория, от которого больше вопросов чем ответов. Техно-гиганты анонсируют повсеместное внедрение и тотальную разумность будущих железяк. А мы, тем временем, удивляемся, каким-же, кхм... тупым и ленивым может быть этот всемогущий ИИ, если его попросить сделать что-то действительно полезное. В этой статье я предлагаю перейти от общих рассуждений в более прагматическую плоскость, и посмотреть на ИИ не как на возможную угрозу нашему будущему, а как на новую платформу для разработки, открывающую множество новых неизведанных и неожиданных возможностей, ну и, кучу новой работы для нас, программистов, естественно. Именно активное практическое применение современных возможностей ИИ я называю новой предметной областью, достойной пристального внимания и подробнейшего рассмотрения.
https://habr.com/ru/articles/839650/
#ai #neural_networks #chatgpt #llama3 #midjourney #stablediffusion #custom_elements #telegram #chatbot #webразработка
-
Gemlite: Towards Building Custom Low-Bit Fused CUDA Kernels
https://mobiusml.github.io/gemlite_blogpost/
#ycombinator #Model_Quantization #CUDA #Machine_Learning #Model_Compression #Transformer_Models #Neural_Networks #AI_Optimization -
A new type of neural network is more interpretable
https://spectrum.ieee.org/kan-neural-network
#ycombinator #neural_networks #machine_learning #ai_safety #artificial_intelligence -
A New Type of Neural Network Is More Interpretable
https://spectrum.ieee.org/kan-neural-network
#ycombinator #neural_networks #machine_learning #ai_safety #artificial_intelligence -
Meta Open-Sources Megalodon LLM for Efficient Long Sequence Modeling
https://www.infoq.com/news/2024/06/meta-llm-megalodon/
#ycombinator #meta_llm_megalodon #ML_Data_Engineering #Large_language_models #Generative_AI #Neural_Networks #Deep_Learning -
Meta Open-Sources Megalodon LLM for Efficient Long Sequence Modeling – InfoQ
https://www.infoq.com/news/2024/06/meta-llm-megalodon/
#ycombinator #meta_llm_megalodon #ML_Data_Engineering #Large_language_models #Deep_Learning #Generative_AI #Neural_Networks -
Kolmogorov-Arnold Networks: MLP vs. Kan, Math, Universal Approximation Theorem [video]
https://www.youtube.com/watch?v=-PFIkkwWdnM
#ycombinator #pytorch #python #tutorial #math #language_models #deep_learning #machine_learning #multi_layer_perceptron #mlp #kolmogorov_arnold_networks #kolmogorov_arnold_representation_theorem #universal_approximation_theorem #neural_networks #bezier_curves #splines #b_splines #linear_layers -
Как сделать pruning, чтобы потом не плакать
Обрезка нейросетей или же, если вникать в термины, pruning — то, что помогает уменьшить размер нашей модели без потери ее эффективности. Да, это далеко не новинка — в стэнфордских лекциях еще в 2017 году об этом говорили! Идея проста: мы просто убираем из модели все, что нам не нужно. Как в магазине, когда решил экономить: если в корзине лежат лишние товары, то почему бы их не убрать? Так и здесь — мы убираем избыточные нейроны и связи, которые только занимают место, но не приносят особой пользы. Принцип обрезки можно применять в разных ситуациях. Например, если у нас есть модель, которая обучена для распознавания ста классов объектов, а нам на самом деле нужно только десять, то почему бы не убрать те девяносто лишних? Это позволит нам сделать модель поменьше, но не менее эффективной. А если мы создаем модель с нуля, то обрезка может помочь нам сразу сделать ее компактнее и эффективнее. Короче, pruning — это для тех, кто хочет сделать свои модели легче и быстрее без потери качества.
https://habr.com/ru/articles/811221/
#нейросети #машинное_обучение #neural_networks #прунинг #оптимизация #ml #python #pruning
-
A bit late to the game but here’s my #introduction I am a cognitive neuroscientist with a computational twist. I like #RL, #replay, #fmri (sorry!), the #OFC (the rest of the brain isn’t bad either) and also #neural_networks Why? I want to understand how people turn experiences into their inner representation of the world that helps them decide, remember and navigate. Getting to work in this is amazing! I am a Prof at Uni Hamburg & Group Leader at MPI Berlin, but currently nappy changer in chief