ML Paper Challenge Day 15-распознавание речи с глубокой рекуррентной нейросетью

ML Paper Challenge Day 15-распознавание речи с глубокой рекуррентной нейросетью

День 15: 2020.04.26
Бумага: распознавание речи с глубиной рекурсивных нейросетей
Категория: Моделирование/Глубокое Обучение/Распознавание Речи

RNN:

LSTM

Сетевая подготовка:

Временная классификация соединительной системы (CTC) : Тип выходной информации нейросети и связанная с ней функция скоринга, которая позволяет обучать RNN для проблем с маркировкой последовательности, где неизвестен выравнивание ввода-вывода

Ввод: Последовательность наблюдений
Вывод: последовательность меток (может быть пустой)

Преобразователь RNN: объединяет CTC-подобно сети с отдельным RNN, которая предсказывает каждый фонеме, учитывая предыдущие, тем самым выдавая совместно подготовленным акустику и языковую модель.

CTC определяет выходное распределение при каждом входном времени-шаг, преобразователь RNN определяет отдельное распределение Pr (k|t, u) для каждого сочетания входного времени-шаг t и выходное время-шаг u.

Преобразователи RNN могут быть обучены случайным первоначальным весам. Однако они, как представляется, работают лучше, когда они парафируются с весами заранее подготовленными сетями CTC и заранее подготовленными прогнозными сетями следующего этапа

Декодирование: Поиск луча, чтобы получить n-лучший список кандидатов-транскрипций

Регуляризация:

  1. Ранняя остановка
  2. Шум, создающий вес: прибавил один раз на каждую последовательность движения, а не каждый раз-шаг