home.social

#codeswitching — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #codeswitching, aggregated by home.social.

  1. Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

    В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

    habr.com/ru/articles/1026778/

    #Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

  2. Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

    В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

    habr.com/ru/articles/1026778/

    #Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

  3. Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

    В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

    habr.com/ru/articles/1026778/

    #Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

  4. Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

    В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

    habr.com/ru/articles/1026778/

    #Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

  5. Also the code-switching between talking to Americans and talking to New Zealanders. But trying not to talk so Kiwi that I come across as putting on an act. When in fact I just pick up new words and new dialects fast and somewhat unconsciously.

    (As an immigrant whose been in Aotearoa for nearly two decades)

    Just a few things I think about when I try to communicate with other humans.

    #Linguistics #CodeSwitching

  6. Exzessives #CodeSwitching:

    👦Iiiiima! Kann ich mich mit [Freundesname] verabreden! Er hat seinen neuen GamingPC.

    👩Mashallah! hat er nicht letztes Jahr einen neuen bekommen? Wieviele PCs brauch man denn so mit 15?

    👦Now that you mention it, darüber wollte ich noch mit Euch reden. Er will seinen alten verkaufen. asking price is only 500 Euros. That‘s practically a steal.

    👨Verabreden, ken! Aber neuer PC: I don‘t think that’s in your near future!

    👩Yalla, Schatzis! Wir müssen! On-y va!

  7. Newsom's Statements to Black Audience Spark Scrutiny

    Governor Gavin Newsom's remarks about his SAT score to a Black audience in Georgia spark debate over "code-switching" and sincerity. See what happened.

    #GavinNewsom, #CodeSwitching, #PoliticalAuthenticity, #GeorgiaPolitics, #SATscores

    newsletter.tf/gavin-newsom-geo

  8. Newsom's Statements to Black Audience Spark Scrutiny

    Governor Gavin Newsom's remarks about his SAT score to a Black audience in Georgia spark debate over "code-switching" and sincerity. See what happened.

    #GavinNewsom, #CodeSwitching, #PoliticalAuthenticity, #GeorgiaPolitics, #SATscores

    newsletter.tf/gavin-newsom-geo

  9. Sharing because there's baso kelate but as a comment said, this is only half the story, wait till the borneans come in: youtu.be/Z0ci9EQgM4o

    #tootSEA #Malaysia #linguistics #codeswitching (not unique but this is our mix)

  10. I'm thinking about the sexiness of code switching. It's incredibly intimate when someone is safe and supportive of you speaking in a second language. It's even sexier when you can both switch freely between your shared languages.

    Yes, this can be mundane and banal in everyday multilingual environments. But trust me: in the right conditions, it can be incredibly sexy.

    #Sexiness #Language #CodeSwitching

  11. I [Finally!] Told my #Dad he needs to first presume that the restaurant staff (likely the owners or managers at small eateries) can speak English fluently, and to respectfully talk in full sentences.

    I did this disarmingly by acknowledging intentions, but learned he isn't aware of his oppressive #CodeSwitching
    He has a #TBI, but the presumptions are value based, and that's what needs to be disrupted.

    #Pride my dad attended the everyone is Gay and God loves us sermon at church 💖💖💖 Tell 'em!!

  12. Ever wondered how to tackle #multilinguality in #digitaleditions? In our @up_johd contribution (doi.org/10.5334/johd.174) we describe how we tackled #codeswitching, Early New High German #normalisation, #machinetranslation, and #HTR for #Bullinger's multilingual correspondence. The results are all on bullinger-digital.ch. And should be at the #openUpEditions conference @uzh_zde right now and have questions, feel free to ask. #digitalhumanities

  13. Ever wondered how to tackle #multilinguality in #digitaleditions? In our @up_johd contribution (doi.org/10.5334/johd.174) we describe how we tackled #codeswitching, Early New High German #normalisation, #machinetranslation, and #HTR for #Bullinger's multilingual correspondence. The results are all on bullinger-digital.ch. And should be at the #openUpEditions conference @uzh_zde right now and have questions, feel free to ask. #digitalhumanities

  14. Ever wondered how to tackle #multilinguality in #digitaleditions? In our @up_johd contribution (doi.org/10.5334/johd.174) we describe how we tackled #codeswitching, Early New High German #normalisation, #machinetranslation, and #HTR for #Bullinger's multilingual correspondence. The results are all on bullinger-digital.ch. And should be at the #openUpEditions conference @uzh_zde right now and have questions, feel free to ask. #digitalhumanities

  15. Ever wondered how to tackle #multilinguality in #digitaleditions? In our @up_johd contribution (doi.org/10.5334/johd.174) we describe how we tackled #codeswitching, Early New High German #normalisation, #machinetranslation, and #HTR for #Bullinger's multilingual correspondence. The results are all on bullinger-digital.ch. And should be at the #openUpEditions conference @uzh_zde right now and have questions, feel free to ask. #digitalhumanities

  16. Ever wondered how to tackle in ? In our @up_johd contribution (doi.org/10.5334/johd.174) we describe how we tackled , Early New High German , , and for 's multilingual correspondence. The results are all on bullinger-digital.ch. And should be at the conference @uzh_zde right now and have questions, feel free to ask.

  17. @drclareharris
    “I was a lower-middle-class mocha-hued kid who couldn’t pass, but I taught myself to code-switch and adapt to the rules of the class who ruled. I felt like I’d won that jackpot when eyes widened as people tried to reconcile my vocabulary”

    #CodeSwitching #DoubleConsciousness

  18. @drclareharris
    “I was a lower-middle-class mocha-hued kid who couldn’t pass, but I taught myself to code-switch and adapt to the rules of the class who ruled. I felt like I’d won that jackpot when eyes widened as people tried to reconcile my vocabulary”

    #CodeSwitching #DoubleConsciousness

  19. @drclareharris
    “I was a lower-middle-class mocha-hued kid who couldn’t pass, but I taught myself to code-switch and adapt to the rules of the class who ruled. I felt like I’d won that jackpot when eyes widened as people tried to reconcile my vocabulary”

    #CodeSwitching #DoubleConsciousness

  20. @drclareharris
    “I was a lower-middle-class mocha-hued kid who couldn’t pass, but I taught myself to code-switch and adapt to the rules of the class who ruled. I felt like I’d won that jackpot when eyes widened as people tried to reconcile my vocabulary”

    #CodeSwitching #DoubleConsciousness

  21. @drclareharris
    “I was a lower-middle-class mocha-hued kid who couldn’t pass, but I taught myself to code-switch and adapt to the rules of the class who ruled. I felt like I’d won that jackpot when eyes widened as people tried to reconcile my vocabulary”

    #CodeSwitching #DoubleConsciousness

  22. CW: re: Belonging, long

    @TonyaMarie @faithisleaping @imdat @ItzyG @Retr0mantic
    I should do some searching before jumping in here, but I'm curious if anyone can summarize "code-switching"? How does it relate to being a #PluralSystem ? Sounds like #CodeSwitching is triggered by irl personal contacts, but some systems do that. And the challenge of being aware of who is "fronting" seems to affect both...

  23. Der #BullingerBriefDerWoche stammt von Berchtold Haller an #Heinrich #Bullinger, geschrieben am 20. Februar 1532, also heute vor 491 Jahren: bullinger-digital.ch/letter/10. Mit der automatischen #Sprachidentifikation können wir Phänomene wie #CodeSwitching sichtbar machen. Inhaltsmässig erfahren wir aus dem Regest, dass es einen Konflikt zwischen #Zürich und #Bern gibt. Ausserdem sendet Haller über Bullinger Nachrichten an #Megander und Wilhelm #Zwingli. Das zeigt schön, wie im 16 Jh. Informationen von Person zu Person flossen. Mehr zum #BullingerBriefwechsel an unserem #500JahrJubiliäum diesen Freitag. Wir nehmen noch immer Anmeldungen entgegen: cl.uzh.ch/de/aboutus/events/bu #DigitalHumanities #digitalhistory

  24. Der #BullingerBriefDerWoche stammt von Berchtold Haller an #Heinrich #Bullinger, geschrieben am 20. Februar 1532, also heute vor 491 Jahren: bullinger-digital.ch/letter/10. Mit der automatischen #Sprachidentifikation können wir Phänomene wie #CodeSwitching sichtbar machen. Inhaltsmässig erfahren wir aus dem Regest, dass es einen Konflikt zwischen #Zürich und #Bern gibt. Ausserdem sendet Haller über Bullinger Nachrichten an #Megander und Wilhelm #Zwingli. Das zeigt schön, wie im 16 Jh. Informationen von Person zu Person flossen. Mehr zum #BullingerBriefwechsel an unserem #500JahrJubiliäum diesen Freitag. Wir nehmen noch immer Anmeldungen entgegen: cl.uzh.ch/de/aboutus/events/bu #DigitalHumanities #digitalhistory

  25. Der #BullingerBriefDerWoche stammt von Berchtold Haller an #Heinrich #Bullinger, geschrieben am 20. Februar 1532, also heute vor 491 Jahren: bullinger-digital.ch/letter/10. Mit der automatischen #Sprachidentifikation können wir Phänomene wie #CodeSwitching sichtbar machen. Inhaltsmässig erfahren wir aus dem Regest, dass es einen Konflikt zwischen #Zürich und #Bern gibt. Ausserdem sendet Haller über Bullinger Nachrichten an #Megander und Wilhelm #Zwingli. Das zeigt schön, wie im 16 Jh. Informationen von Person zu Person flossen. Mehr zum #BullingerBriefwechsel an unserem #500JahrJubiliäum diesen Freitag. Wir nehmen noch immer Anmeldungen entgegen: cl.uzh.ch/de/aboutus/events/bu #DigitalHumanities #digitalhistory

  26. Der #BullingerBriefDerWoche stammt von Berchtold Haller an #Heinrich #Bullinger, geschrieben am 20. Februar 1532, also heute vor 491 Jahren: bullinger-digital.ch/letter/10. Mit der automatischen #Sprachidentifikation können wir Phänomene wie #CodeSwitching sichtbar machen. Inhaltsmässig erfahren wir aus dem Regest, dass es einen Konflikt zwischen #Zürich und #Bern gibt. Ausserdem sendet Haller über Bullinger Nachrichten an #Megander und Wilhelm #Zwingli. Das zeigt schön, wie im 16 Jh. Informationen von Person zu Person flossen. Mehr zum #BullingerBriefwechsel an unserem #500JahrJubiliäum diesen Freitag. Wir nehmen noch immer Anmeldungen entgegen: cl.uzh.ch/de/aboutus/events/bu #DigitalHumanities #digitalhistory

  27. Der stammt von Berchtold Haller an , geschrieben am 20. Februar 1532, also heute vor 491 Jahren: bullinger-digital.ch/letter/10. Mit der automatischen können wir Phänomene wie sichtbar machen. Inhaltsmässig erfahren wir aus dem Regest, dass es einen Konflikt zwischen und gibt. Ausserdem sendet Haller über Bullinger Nachrichten an und Wilhelm . Das zeigt schön, wie im 16 Jh. Informationen von Person zu Person flossen. Mehr zum an unserem diesen Freitag. Wir nehmen noch immer Anmeldungen entgegen: cl.uzh.ch/de/aboutus/events/bu

  28. "Nei, Æ vil ikke be quiet"
    #BeardGrabber saying he doesn't want to be quiet, in a mix of standard Bokmål Norwegian, dialect Norwegian and English. xD

    (Before proceeding to drag an empty laundry basket around the rooms with my belt...)

    #codeSwitching #language #parentinf #kidPosting.

  29. "Nei, Æ vil ikke be quiet"
    #BeardGrabber saying he doesn't want to be quiet, in a mix of standard Bokmål Norwegian, dialect Norwegian and English. xD

    (Before proceeding to drag an empty laundry basket around the rooms with my belt...)

    #codeSwitching #language #parentinf #kidPosting.

  30. @clacke
    so far my #codeSwitching is mostly when I lack a certain word in my vocabulary, or at least can't remember it and want to carry on with the conversation.
    Our #1yo son, #BeardGrabber, does seem to already pick up words in #English and #Dutch, even though we primarily speak #Norwegian with him. It will be interesting to see how his language skills will develop, and how much code-switching he'll do, and hopefully realises quickly that most people around him only speak Norwegian.
    @darius