home.social

#speaker_diarization — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #speaker_diarization, aggregated by home.social.

  1. Спецификация формата RTTM: полное техническое описание

    RTTM — это формат, в котором каждое событие в аудио точно знает своё место. Он позволяет системам видеть не просто звук, а структуру разговора: кто говорит, когда, как долго — и что происходит в фоновом шуме. В этой статье вы найдёте всё, что нужно знать об этом стандарте: как устроены его 10 полей, какую роль он играет в задачах диаризации и распознавания речи, и почему его до сих пор активно используют лидеры индустрии — такие как pyannote.audio , NVIDIA NeMo , DScore и другие. Узнать больше про RTTM!

    habr.com/ru/articles/900988/

    #RTTM #RTTM_формат #аннотация_аудио #речевая_разметка #ASR_разметка #структура_RTTM_файла #речевые_технологии #формат_NIST_RTTM #speechtotext_разметка #speaker_diarization