Как использовать распознавание речи Google Google без загрузки видео на YouTube?

У меня много лекционного видеоконтента, для которого я хотел бы иметь субтитры. YouTube автоматически создает субтитры для видео в определенных условиях (эти условия по-прежнему для меня несколько загадочны).

Я хотел бы иметь возможность использовать эту технологию распознавания речи вне YouTube. Я не хочу загружать каждое видео, чтобы получить транскрипт (слишком много времени), плюс, я не думаю, что YouTube сделает это для видео, которое длится более 30 минут (большинство из них), далее, я Не думайте, что это сделает это для непубличных видео (это проблема, потому что это премиальный контент, предназначенный для продажи).

Идеальный сценарий: есть программа, которую я могу запустить с моего рабочего стола, чтобы получить транскрипт из этих видеороликов, и он имеет равное или лучшее качество, чем YouTube, и имеет временные коды, похожие на SRT или XML, которые генерирует YouTube. [ Как Получить субтитры YouTube ].

Допустимый сценарий. Есть несколько трюков, которые я могу сделать, чтобы заставить YouTube транскрибировать видео, независимо от того, установлены ли они на личном или публичном уровне, и, несмотря на длину.

Сценарий сценария: есть библиотека или что-то, что я могу использовать для кодирования моей собственной программы. Я хорош с C # и хорошо с C ++ (но я действительно предпочитаю C #).

One Solution collect form web for “Как использовать распознавание речи Google Google без загрузки видео на YouTube?”

Google внедрил API веб-речи (как для распознавания речи, так и для синтеза) в Chrome, который вы можете использовать, если являетесь разработчиком. Это то, что YouTube использует для создания субтитров над некоторыми видео. Возможно, вы найдете код для взаимодействия с ним.

Поток данных, вероятно, будет:

Видеофайл => извлечь и преобразовать аудио => отправить его в Google API => получить текст => записать в SRT.

EDIT: похоже, нет официальной страницы API, отличной от спецификации W3C. Так вот больше ссылок:

Эти примеры касаются использования API из Chrome, но вы можете напрямую обратиться к онлайн-механизму распознавания речи Google. Например, Джаспер , личный помощник по распознаванию речи для Raspberrry Pi, позволяет вам выбрать Google в качестве механизма распознавания речи.

  • Только 360p на Youtube с HTML5
  • Как преобразовать анимированный GIF в формат видео в формате YouTube?
  • Почему я не могу смотреть видео на YouTube в Google Chrome?
  • Chrome / OSX: розовые пятна на изображении YouTube
  • Просмотр видео Youtube в Thunderbird
  • Видео Youtube воспроизводится только от 50 секунд до полутора минут
  • Красный и синий меняются на Youtube
  • YouTube нет звука, но VLC имеет звук
  • Как работают все эти услуги «Сохранить видео с YouTube»?
  • Как остановить людей от загрузки онлайн-видео для офлайн-воспроизведения?
  • Остановка видео на YouTube
  • Есть ли способ контролировать Youtube через мультимедийные клавиши на клавиатуре?
  • Interesting Posts

    Использование `shred` из командной строки

    Как переименовать файл в .htaccess в Windows 7?

    Ubuntu не запускает Xorg после обновления до 9.10

    Умный способ подключения нескольких изображений к макросу макроса – VAB Excel

    Windows 10 Использование диска 100%?

    Как изменить местоположение по умолчанию .vimrc в пределах ~ / .vim /?

    Невозможно выполнить ping между двумя гостевыми ОС в Virtualbox

    Экспорт Thunderbird из Win7 32bit в Win7 64bit

    Не удается удалить папку в качестве администратора, запрашивает у администратора пользователя, которого не существует, – «вам нужно предоставить разрешение администратора для удаления этой папки»

    Есть ли эквивалент xkill для Windows 7?

    Несколько карт Wi-Fi и подключения к Интернету в Windows 7

    Ссылка на текст из одной ячейки в уравнение в Excel

    Просмотр рабочего стола Xubuntu в полноэкранном режиме под Virtualbox в Windows 8

    Почему удаленный рабочий стол не работает для меня по имени компьютера и только по IP?

    Кажется, что Hyper-V работает поверх операционной системы хоста, так почему он считается родным (тип-1) гипервизором?

    Давайте будем гением компьютера.