VAD

Voice activity detector (VAD) – детектор активности речи – технология сжатия речевого сигнала, за счет кодирования пауз.

VAD (Voice Activity Detection) а также Silence Suppression (подавление тишины) - обнаружение голосовой активности во входном аккустическом сигнале для отделение активной речи от фонового шума или тишины. Голос интерпретированный как шум может порождать «вырезки» (chipping) из разговора. Фон интерпретируемый как голос приводит к снижению эффективности компрессии (например, в DTX).

Фрагменты сигнала, классифицируемые как активная речь, могут в дальнейшем кодироваться любым вокодеком (например, CELP) при использовании в ПО для различения в кодируемой речи человеческого голоса и фонового шума.

Проблема VAD в том, что в результате подавления тишины (на самом деле звука низкого уровня) слушающий не слышит вообще никаких опознавательных сигналов (дыхания, сопения и других мелких шумов, сопровождающих живую речь). Это создаёт некоторые проблемы, ведь в обычной разговорной речи слышно всё. Отсутствие привычного шума во время воспроизведения голоса вызывает неприятные ощущения и снижает уровень восприятия, понимания. Для решения данной проблемы на стороне второго абонента (или слушателя) может применяться эмуляция сопроводительных звуков, получившая название генерации комфортного шума CNG (обратный процесс для VAD).

VAD - детектор речевой активности. Применяется в кодеках, сжимающих речевой сигнал. Необходим для определения периодов времени, в течение которых абонент говорит. Наиболее простым классификатором речевого сигнала является VAD (Voice Activity Detector, детектор речевой активности), который выделяет во входном речевом сигнале активную речь и паузы.

Фрагменты сигнала, классифицируемые как активная речь, кодируются каким-либо из известных алгоритмов с базовой скоростью 4 — 8 кбит/с. Фрагменты, классифицированные как паузы, кодируются и передаются с низкой скоростью порядка 0.1 — 0.2 Кбит/с, либо не передаются вообще.

Когда срабатывает VAD, на приемной стороне автоматически генерируется так называемый «комфортный шум» чтобы у собеседника не возникало ощущение пропадания связи. При этом передача минимальной информации о фрагментах пауз предпочтительна.

Данная стратегия позволяет оптимизировать скорость кодирования до 2 — 4 кбит/с при достаточном качестве синтезируемой речи. При этом для особо критичных фрагментов речевого сигнала выделяется большая скорость передачи, для менее ответственных — меньшая.