#overfitting — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #overfitting, aggregated by home.social.
-
I was working this week on a UI to help users understand when they’re #overfitting their data. Coming up with ideas for the #UI/#UX was proving to be difficult.
My experience 2 months ago with #Claude was terrible. But this time the output from #ClaudeDesign, was pretty good: training vs prediction, noise and model complexity controls, and comparing fits across degrees.
Needs improvement, but its a good starting point. AI in design is going to be a thing.
-
Furthermore, we were discussing overfitting as another major problem with machine learning. SImply memorising the data doesn't help, when you have to make predictions over unknown data. When overfitting, the model looses the ability to generalise...
#AI #lecture #machine learning #KDAI2026 #overfitting #datascience #data @fiz_karlsruhe @fizise #knowledge
-
🔮 Behold, a revolutionary tome unveiling the mystical art of... splitting data sets! 🎩✨ Dive into a world where machine learning geniuses compete in a bizarre contest of who-can-overfit-the-best, and where #benchmarks are the sacred cow 🐄 that everyone loves to hate but won't stop worshipping. Spoiler: it's #groundbreaking, like discovering water is wet. 💧🤯
https://mlbenchmarks.org/00-preface.html #dataScience #machineLearning #overfitting #techHumor #HackerNews #ngated -
Warum Vergessen eine Superkraft ist
#Vergessen #Superkraft #Gedächtnis #Neurobiologie #Schlaf #SmartForgetting #InformationOverload #Demenz #Overfitting #KI
Lesen: https://www.matthiaszehnder.ch/wochenkommentar/warum-vergessen-eine-superkraft-ist
Hören: https://www.buzzsprout.com/1788913/episodes/18677778
Sehen: https://youtu.be/yJgcQVNO-y8 -
Warum Vergessen eine Superkraft ist
#Vergessen #Superkraft #Gedächtnis #Neurobiologie #Schlaf #SmartForgetting #InformationOverload #Demenz #Overfitting #KI
Lesen: https://www.matthiaszehnder.ch/wochenkommentar/warum-vergessen-eine-superkraft-ist
Hören: https://www.buzzsprout.com/1788913/episodes/18677778
Sehen: https://youtu.be/yJgcQVNO-y8 -
Растягиваем кошек, чтобы избежать переобучения. Аугментация данных в машинном обучении
Главной проблемой при обучении нейросетей остаётся нехватка качественной информации. Всем моделям глубокого обучения может потребоваться большой объём данных для достижения удовлетворительных результатов. Для успешного обучения модели данные должны быть разнообразными и соответствовать поставленной задаче. В противном случае пользы от такой сети будет мало. Хорошо известно, что нехватка данных легко приводит к переобучению. Но вот беда, трудно предусмотреть и собрать данные, которые покрывали бы все ситуации. Допустим, вы хотите научить систему находить на фото конкретную кошку. Вам потребуются снимки этого животного в самых разных позах — будь то сидя, стоя или обдирающей диван. А если требуется распознавать кошек в принципе, то вариантов становится в разы больше. Видов кошек в природе тысячи, они все разных цветов и размеров. Почему это важно? Представьте, что наш набор данных может содержать изображения кошек и собак. Кошки в наборе смотрят исключительно влево с точки зрения наблюдателя. Неудивительно, что обученная модель может неправильно классифицировать кошек, смотрящих вправо. Поэтому всегда нужно проверять свою выборку на разнообразие. Если данные не подходят под реальные условия, то и задачу решить не получится. Что делать, если у нас дефицит данных?
https://habr.com/ru/companies/ruvds/articles/985934/
#ml #машинное+обучение #машинное_обучение #аугментация #аугментация_данных #переобучение #overfitting #синтетические_данные #ruvds_статьи
-
Растягиваем кошек, чтобы избежать переобучения. Аугментация данных в машинном обучении
Главной проблемой при обучении нейросетей остаётся нехватка качественной информации. Всем моделям глубокого обучения может потребоваться большой объём данных для достижения удовлетворительных результатов. Для успешного обучения модели данные должны быть разнообразными и соответствовать поставленной задаче. В противном случае пользы от такой сети будет мало. Хорошо известно, что нехватка данных легко приводит к переобучению. Но вот беда, трудно предусмотреть и собрать данные, которые покрывали бы все ситуации. Допустим, вы хотите научить систему находить на фото конкретную кошку. Вам потребуются снимки этого животного в самых разных позах — будь то сидя, стоя или обдирающей диван. А если требуется распознавать кошек в принципе, то вариантов становится в разы больше. Видов кошек в природе тысячи, они все разных цветов и размеров. Почему это важно? Представьте, что наш набор данных может содержать изображения кошек и собак. Кошки в наборе смотрят исключительно влево с точки зрения наблюдателя. Неудивительно, что обученная модель может неправильно классифицировать кошек, смотрящих вправо. Поэтому всегда нужно проверять свою выборку на разнообразие. Если данные не подходят под реальные условия, то и задачу решить не получится. Что делать, если у нас дефицит данных?
https://habr.com/ru/companies/ruvds/articles/985934/
#ml #машинное+обучение #машинное_обучение #аугментация #аугментация_данных #переобучение #overfitting #синтетические_данные #ruvds_статьи
-
Растягиваем кошек, чтобы избежать переобучения. Аугментация данных в машинном обучении
Главной проблемой при обучении нейросетей остаётся нехватка качественной информации. Всем моделям глубокого обучения может потребоваться большой объём данных для достижения удовлетворительных результатов. Для успешного обучения модели данные должны быть разнообразными и соответствовать поставленной задаче. В противном случае пользы от такой сети будет мало. Хорошо известно, что нехватка данных легко приводит к переобучению. Но вот беда, трудно предусмотреть и собрать данные, которые покрывали бы все ситуации. Допустим, вы хотите научить систему находить на фото конкретную кошку. Вам потребуются снимки этого животного в самых разных позах — будь то сидя, стоя или обдирающей диван. А если требуется распознавать кошек в принципе, то вариантов становится в разы больше. Видов кошек в природе тысячи, они все разных цветов и размеров. Почему это важно? Представьте, что наш набор данных может содержать изображения кошек и собак. Кошки в наборе смотрят исключительно влево с точки зрения наблюдателя. Неудивительно, что обученная модель может неправильно классифицировать кошек, смотрящих вправо. Поэтому всегда нужно проверять свою выборку на разнообразие. Если данные не подходят под реальные условия, то и задачу решить не получится. Что делать, если у нас дефицит данных?
https://habr.com/ru/companies/ruvds/articles/985934/
#ml #машинное+обучение #машинное_обучение #аугментация #аугментация_данных #переобучение #overfitting #синтетические_данные #ruvds_статьи
-
Растягиваем кошек, чтобы избежать переобучения. Аугментация данных в машинном обучении
Главной проблемой при обучении нейросетей остаётся нехватка качественной информации. Всем моделям глубокого обучения может потребоваться большой объём данных для достижения удовлетворительных результатов. Для успешного обучения модели данные должны быть разнообразными и соответствовать поставленной задаче. В противном случае пользы от такой сети будет мало. Хорошо известно, что нехватка данных легко приводит к переобучению. Но вот беда, трудно предусмотреть и собрать данные, которые покрывали бы все ситуации. Допустим, вы хотите научить систему находить на фото конкретную кошку. Вам потребуются снимки этого животного в самых разных позах — будь то сидя, стоя или обдирающей диван. А если требуется распознавать кошек в принципе, то вариантов становится в разы больше. Видов кошек в природе тысячи, они все разных цветов и размеров. Почему это важно? Представьте, что наш набор данных может содержать изображения кошек и собак. Кошки в наборе смотрят исключительно влево с точки зрения наблюдателя. Неудивительно, что обученная модель может неправильно классифицировать кошек, смотрящих вправо. Поэтому всегда нужно проверять свою выборку на разнообразие. Если данные не подходят под реальные условия, то и задачу решить не получится. Что делать, если у нас дефицит данных?
https://habr.com/ru/companies/ruvds/articles/985934/
#ml #машинное+обучение #машинное_обучение #аугментация #аугментация_данных #переобучение #overfitting #синтетические_данные #ruvds_статьи
-
Why Does A.I. Write Like … That?
Sam Kriss for the New York Times:
"""
According to the data, post-ChatGPT papers lean more on words like “underscore,” “highlight” and “showcase” than pre-ChatGPT papers [..] And “delve” [..] shot up by 2,700 percent.
"""#EmDash #linguistics #overfitting #ElaraVoss #LLM #NYTimes #SamKriss
-
Eine große Fehleinschätzung ist, dass #KünstlicheNeuronaleNetzwerke umso besser werden, je komplexer sie sind und je größer der Datensatz ist, mit dem sie trainiert werden. Die aktuell völlig unterschätzte Problematik von #Overfitting & #Overtraining sind potentielle Treiber des nächsten KI-Winters. #justsaying
-
When Dimensionality Hurts: The Role of #LLM Embedding Compression for Noisy Regression Tasks https://d.repec.org/n?u=RePEc:arx:papers:2502.02199&r=&r=cmp
"… suggest that the optimal dimensionality is dependent on the signal-to-noise ratio, exposing the necessity of feature compression in high noise environments. The implication of the result is that researchers should consider the #noise of a task when making decisions about the dimensionality of text.… findings indicate that sentiment and emotion-based representations do not provide inherent advantages over learned latent features, implying that their previous success in similar tasks may be attributed to #regularisation effects rather than intrinsic informativeness."
#ML #autoencoders #Overfitting -
'On the Impact of Hard Adversarial Instances on Overfitting in Adversarial Training', by Chen Liu, Zhichao Huang, Mathieu Salzmann, Tong Zhang, Sabine Süsstrunk.
http://jmlr.org/papers/v25/22-0950.html
#adversarial #overfitting #robustness -
1/
Recent commentary [1]:
escalating concern over the use of the more powerful #chatbots when they are used to go beyond the #knowledge of the human expert who uses them, rather than for simply pre-processing in a controlled way within the domain of human-expert knowledge.1. What is often called "hallucination/confabulation” (i.e. severe #extrapolation #uncertainty and #overfitting by the chatbot model) is apparently becoming increasingly realistic with a declining human ability to detect it
-
'Benign Overfitting of Constant-Stepsize SGD for Linear Regression', by Difan Zou, Jingfeng Wu, Vladimir Braverman, Quanquan Gu, Sham M. Kakade.
http://jmlr.org/papers/v24/21-1297.html
#overfitting #overparameterized #sgd -
One question for the #MachineLearning people: what approach do you use to determine if a decision trees or a random forest approach should work better? Do you simply try both approaches and use whatever seems to work better?
According to what I read, decision trees are more prone to overfitting, while random forest is a more complex approach. Which means little to me 😅
-
Logistic-Normal Likelihoods for Heteroscedastic Label Noise
Erik Englesson, Amir Mehrpanah, Hossein Azizpour
Action editor: Bo Han.
-
Learning Augmentation Distributions using Transformed Risk Minimization
Evangelos Chatzipantazis, Stefanos Pertigkiozoglou, Kostas Daniilidis, Edgar Dobriban
Action editor: Andriy Mnih.
-
Catastrophic overfitting can be induced with discriminative non-robust features
Guillermo Ortiz-Jimenez, Pau de Jorge, Amartya Sanyal et al.
Action editor: Jakub Tomczak.
-
"#AI #art is leaking into the mainstream in the form of #stablediffusion and #Lensa, but there are serious #ethical concerns with this unregulated tech. I'm NOT anti AI, in fact, I believe AI can be of immense benefit to us in the future. But the ethics of AI in its current state MUST be talked about, in order to steer this tech in the right direction."
-
"#AI #art is leaking into the mainstream in the form of #stablediffusion and #Lensa, but there are serious #ethical concerns with this unregulated tech. I'm NOT anti AI, in fact, I believe AI can be of immense benefit to us in the future. But the ethics of AI in its current state MUST be talked about, in order to steer this tech in the right direction."
-
"#AI #art is leaking into the mainstream in the form of #stablediffusion and #Lensa, but there are serious #ethical concerns with this unregulated tech. I'm NOT anti AI, in fact, I believe AI can be of immense benefit to us in the future. But the ethics of AI in its current state MUST be talked about, in order to steer this tech in the right direction."
-
"#AI #art is leaking into the mainstream in the form of #stablediffusion and #Lensa, but there are serious #ethical concerns with this unregulated tech. I'm NOT anti AI, in fact, I believe AI can be of immense benefit to us in the future. But the ethics of AI in its current state MUST be talked about, in order to steer this tech in the right direction."
-
"#AI #art is leaking into the mainstream in the form of #stablediffusion and #Lensa, but there are serious #ethical concerns with this unregulated tech. I'm NOT anti AI, in fact, I believe AI can be of immense benefit to us in the future. But the ethics of AI in its current state MUST be talked about, in order to steer this tech in the right direction."
-
4/
A general issue concerns seductive #research black-box tools (or, equivalently, trending methods "inspired" by published works one doesn't really understand): easy to incur #overfitting, which implies modelling not only the "signal" being studied in too few data, but also (or mostly) their useless noise.Recursive: if we fall into the trap (no proper #validation), our readers may be led to believe that these shortcuts have a chance to work, perpetuating anti-culture.
-
'Benign overfitting in ridge regression', by Alexander Tsigler, Peter L. Bartlett.
http://jmlr.org/papers/v24/22-1398.html
#overparameterized #overfitting #ridge -
'The Implicit Bias of Benign Overfitting', by Ohad Shamir.
http://jmlr.org/papers/v24/22-0784.html
#overfitting #predictors #predictor -
from the standpoint of model selection, parsimony often boils down to dimensionality reduction
#modelSelection #parsimony #OccamsRazor #dimensionalityReduction #degreesOfFreedom #complexity #informationTheory #biasVarianceTradeoff #overfitting #underfitting #optimization #parameterTuning #crossValidation #inverseProblems #inference #statisticalLearning #machineLearning #ML #dataScience #modeling #decisionTheory #fitting #regression #classification #residualError #costFunction #performanceLoss
-
from the standpoint of model selection, parsimony often boils down to dimensionality reduction
#modelSelection #parsimony #OccamsRazor #dimensionalityReduction #degreesOfFreedom #complexity #informationTheory #biasVarianceTradeoff #overfitting #underfitting #optimization #parameterTuning #crossValidation #inverseProblems #inference #statisticalLearning #machineLearning #ML #dataScience #modeling #decisionTheory #fitting #regression #classification #residualError #costFunction #performanceLoss
-
from the standpoint of model selection, parsimony often boils down to dimensionality reduction
#modelSelection #parsimony #OccamsRazor #dimensionalityReduction #degreesOfFreedom #complexity #informationTheory #biasVarianceTradeoff #overfitting #underfitting #optimization #parameterTuning #crossValidation #inverseProblems #inference #statisticalLearning #machineLearning #ML #dataScience #modeling #decisionTheory #fitting #regression #classification #residualError #costFunction #performanceLoss
-
from the standpoint of model selection, parsimony often boils down to dimensionality reduction
#modelSelection #parsimony #OccamsRazor #dimensionalityReduction #degreesOfFreedom #complexity #informationTheory #biasVarianceTradeoff #overfitting #underfitting #optimization #parameterTuning #crossValidation #inverseProblems #inference #statisticalLearning #machineLearning #ML #dataScience #modeling #decisionTheory #fitting #regression #classification #residualError #costFunction #performanceLoss
-
from the standpoint of model selection, parsimony often boils down to dimensionality reduction
#modelSelection #parsimony #OccamsRazor #dimensionalityReduction #degreesOfFreedom #complexity #informationTheory #biasVarianceTradeoff #overfitting #underfitting #optimization #parameterTuning #crossValidation #inverseProblems #inference #statisticalLearning #machineLearning #ML #dataScience #modeling #decisionTheory #fitting #regression #classification #residualError #costFunction #performanceLoss
-
This study finds that badly trained ML models overfit. IMHO nothing new. https://twitter.com/Eric_Wallace_/status/1620449934863642624
Quote:
«
Models such as Stable Diffusion are trained on copyrighted, trademarked, private, and sensitive images.Yet, our new paper shows that diffusion models memorize images from their training data and emit them at generation time.
»For ref: #ai #machinelearning #ml #overfitting
-
Understand basic principles of underfitting and overfitting - by @dimid_ml
https://towardsdatascience.com/overfitting-and-underfitting-principles-ea8964d9c45c
#overfitting #underfitting #DataScience #MachineLearning #AI
-
'Foolish Crowds Support Benign Overfitting', by Niladri S. Chatterji, Philip M. Long.
http://jmlr.org/papers/v23/21-1199.html
#overparameterized #sparse #overfitting -
Most fields have only a few laws.
I've been diving into #StaffordBeer over the past few days, #cybernetics guru of the 1970s-90s. His concepts of #AshbysLaw of #RequisiteVariety, and of #ViableSystemsModel get toward this. Notably, a model should be as simple as possible, but no simpler (Einstein).
An overly complex model invites #overfitting
Breakthroughs in domains occur where an accumulation of many complex rules can be discarded for a small set of simpler ones. Physics: Newton on gravity, motion, and optics. Chemistry: Mendeleev on chemical elements (valance electrons and atomic masses), Biology: Darwin and evolution (and genetics and DNA). Geology: Wegener and plate tectonics. Information; Shannon. Computer science: Turing & Church.
The social sciences have been approached repeatedly by their core truth but to date have rejected it.
11/
-
Interpolation Can Provably Preclude Invariance https://arxiv.org/abs/2211.15724
#Overfitting to the point of #interpolation can hinder invariance-inducing objectives: One cannot assume a #DeepLearninig model with an invariance penalty will indeed achieve any form of #invariance… suggests that “benign overfitting,” in which models generalize well despite interpolating, might not favorably extend to settings in which #robustness or #fairness are desirable. -
Interpolation Can Provably Preclude Invariance https://arxiv.org/abs/2211.15724
#Overfitting to the point of #interpolation can hinder invariance-inducing objectives: One cannot assume a #DeepLearninig model with an invariance penalty will indeed achieve any form of #invariance… suggests that “benign overfitting,” in which models generalize well despite interpolating, might not favorably extend to settings in which #robustness or #fairness are desirable. -
Interpolation Can Provably Preclude Invariance https://arxiv.org/abs/2211.15724
#Overfitting to the point of #interpolation can hinder invariance-inducing objectives: One cannot assume a #DeepLearninig model with an invariance penalty will indeed achieve any form of #invariance… suggests that “benign overfitting,” in which models generalize well despite interpolating, might not favorably extend to settings in which #robustness or #fairness are desirable. -
Interpolation Can Provably Preclude Invariance https://arxiv.org/abs/2211.15724
#Overfitting to the point of #interpolation can hinder invariance-inducing objectives: One cannot assume a #DeepLearninig model with an invariance penalty will indeed achieve any form of #invariance… suggests that “benign overfitting,” in which models generalize well despite interpolating, might not favorably extend to settings in which #robustness or #fairness are desirable. -
Interpolation Can Provably Preclude Invariance https://arxiv.org/abs/2211.15724
#Overfitting to the point of #interpolation can hinder invariance-inducing objectives: One cannot assume a #DeepLearninig model with an invariance penalty will indeed achieve any form of #invariance… suggests that “benign overfitting,” in which models generalize well despite interpolating, might not favorably extend to settings in which #robustness or #fairness are desirable.