Media ServicesとAIを利用した字幕付きライブ配信

Media ServicesとAIを利用した
広告および字幕付きライブ配信
TV TOKYO Communications Corporations
Tech Lead
Yuichiro Danno
段野　祐一郎 ( @ydanno )
JAWS-UG横浜 #15「Media-JAWS #0」

5G時代を前に、映像メディアが盛り上がってます。
画像引用（https://ameblo.jp/himebura/entry-12422161482.html）

個人がスマホで映像での情報発信できる時代

一般的な配信構成
各種HDMI
変換
登壇者
PC
プロジェク
ター
カメラ
１S／会場LS／
プロジェクターコミ
HDMI
USB変換
等
YouTube配信PC
RTMPＬＡＮ
WiFi
使用回線が、内→外（インターネッ
ト）で、TCP/1935が空いている必
要がある

2019/03/20 配信構成
各種HDMI
変換
登壇者
PC
HDMI
分岐
プロジェク
ター
カメラ
１S／会場LS／
プロジェクターコミ
SWer YouTube配信PC
↓こんなの
USB-typeC - HDMI変換
Thunderbold - HDMI変換
TX持参設備
RTMP
基本ワンオペ想定
HDMI
モニタ
LiveU

企業が映像配信するには色々考えないといけない

AWS Media Servicesは映像メディア界の救世主

テレ東、ライブ配信、頑張ってます。見てネ！

大半がモバイルデバイスでの視聴。字幕ニーズ ⤴
PC
スマホ
タブレット
世界卓球2019日本代表最終選考会
(2019/3/2-2019/3/3)
視聴デバイス割合
約70%がモバイル機器
学校や移動中は無音で再生させたいと回答したのは、
76％
文字表示（テロップ/字幕）ニーズが高い
配信で自動字幕を真面目に検討したい！
Z世代へのモバイル視聴調査結果（アメリカ）
https://www.movie-times.tv/topic/9077/

字幕の目的と種類
【目的】
・Accessibility（アクセシビリティ）
　- 耳が不自由な聴覚障害者やお年寄りでも内容を理解したり、楽しめる
　- 外国語翻訳
　- 音が出しづらい環境下（電車内やオフィス等）でのコンテンツ視聴
・SEO
　- 検索エンジンへの動画メタデータの提供。動画の内容を深く理解してもらい、検索ランク向上。
【種類】
・映像への焼き込み（OFFできない）　　・Closed Caption（ON/OFF可能）

字幕（Closed Caption）。放送と配信の違い。
放送字幕配信字幕
・ARIB字幕
　（日本独自規格。テレビでのみ表示可能）
・独自外字、色（文字・背景）、サイズ、ルビ、
　位置、等、定義された中で自由に表現可能
・配信では使えない（サポートされてない(※) ）
　※アメリカ放送規格はサポートされている
・WEB規格（W3C）
　WebVTT（Web Video Text Tracks Format）、
　TTML（Timed Text Markup Language）
　※以下、デファクトの WebVTTについて説明
・ルビ、位置
・多くの動画プレイヤーでサポート
　※プレイヤーごとにサポートされる機能はマチマチ
厳密にはYouTubeはライブ翻訳なので違うが

放送と配信で、字幕を共用(変換)するのは難しい。
放送字幕配信字幕
バイナリデータテキストデータ(.vtt)
or
or
映像と字幕ファイルを
納品
映像を見ながら
リアルタイム入力 AIがリアルタイム変換
収録番組生番組ビデオオンデマンドライブ配信
映像と字幕ファイルを
納品

リアルタイム字幕の表示方法
Closed Caption リアルタイム変換
【手法】
特定のインターバル（3秒や5秒etc）
ごとにまとめて字幕表示（※）
【表示】
WEB規格（W3C）に則る
ON/OFF可能
※字幕表示タイミングが常に
　１インターバル、ズレる
もしくは
　字幕表示タイミングに合わせると
　映像のみ遅延させる必要がある
【手法】
字幕生成されたタイミングで随時表示
（タイピング[Typing] UI）
【表示】
①映像への焼き込み
　ON/OFFできない
②独自手法
（APIでServer - Client通信etc）
　ON/OFFできるが、汎用性低い
（Pros/Consは後のスライドで深掘り）

そんな中…AbemaTVさん、AI利用リアルタイム字幕
Google Speech to Text 利用
AbemaTV AIポン
AbemaTIMES
https://abematimes.com/posts/538
7713
より引用
Googleが提供する音声認識テキスト変換サービス「Cloud Speech-To-Text API」をベー
スとして、株式会社LASSICが開発した「LASSIC Speech Recognition」を活用
AIポンの仕組み及びメリット・デメリットを考察してみる。
映像への
焼き込み

AbemaTV AIポンの仕組み考察（間違ってたらごめんな！）
Speech Recognition リアル
タイム
・不要語の削除
・放送禁止用語にマスク
・タイピングLikeな出力拡張モデルの反映
・固有名詞の習得
→音声認識精度向上
スタジオ
demux
（音声分離）
テロップ作成
映像に合成
音声
ストリーム
エンコード
配信変換
・CDN
映像
映像
映像
ストリーム
視聴デバイス
・文節を理解した読点
・タイピングLikeな出力
この差が
１秒！！
テキスト
リアルタイム

AbemaTV AIポンの仕組み考察（他にもあるが主要なものを掲載）
Pros Cons
低遅延（タイピング出力）
※字幕生成のために映像配信自体が
　遅延しない or 字幕がズレにくい
字幕が不要な人にも表示される
コンテンツ表示領域が狭くなる
（字幕エリアがある前提の制作に）
どのプラットフォームでの表示可能
（なんならYouTubeでも）
コストがかかる（テレ東は予算が...(略) ）
（リアルタイム >> バッチ処理）
字幕ストリームの監視不要字幕表示が間違っていたものを
アーカイブ化するときに、簡単に
修正できない
「放送ありきの配信」である、現状の”テレビ東京”のテレビ制作には不向きか。
AIポンの考察から得た知識で、似た仕組みを考えて、違う方向から検証してみる。

てれとポンが目指すカタチ
　　①映像が少し遅れてもいいから、Closed Caption
　　②クラウド上で処理を完結させる（専用ハードウェアが不要）
スタジオエンコード
　　③字幕変換はAI（リアルタイムではなく、文節ごと）

文節ごとの字幕変換イメージ
映像
（10秒）
映像
（10秒）
映像
（10秒）
字幕
（10秒）
字幕
（10秒）
字幕
（10秒）
AI
音声
↓
字幕
変換
映像
（10秒）
映像
（10秒）
音声
（4秒）
音声
（8秒）
発話
に
よる
映像
分割
↓
映像
合成
映像・字幕
（4秒）
AI
音声
↓
字幕
変換
映像（10秒）映像（10秒）
発話音声（8秒）発話音声（6秒）
音声が映像ファイル間でまたぐので、誤変換もしくは変換され
ない単語が発生する可能性が高くなる
2秒
6秒
4秒
映像・字幕
（8秒）
映像
（4秒）
映像
（8秒）
誤変換および変換さ
れない単語を減らすこ
とができる
（可能性がある）
※例外は存在
※リバッファリングが
発生しやすくなる

作ろう！と思ったらaws-sampleに良さげなものが！
https://github.com/aws-samples/aws-transcribe-captions-live
今回の要件では、
PollyやTranslateは不要
だから要カスタマイズ →

CloudFormationで、３分クッキング！
【注意点】
リージョンは、オレゴン（us-west-2）を利用する！
2019/3/13時点で、Amazon Transcribeが東京（ap-northeast-1）では利用できない
（Transcribeは、日本語対応もまだだが、いったん無視）
とりま、CDNなし、3分コース！

構成やソースコードから、やってることを把握する！
chunk #
transcribe
exec time
average total exec time average
1 11.847067 12.720454
2 7.373578
変換
遅延
7.21
秒
8.182028
総
遅延
8.02
秒
3 7.235689 8.166719
4 6.894183 7.954145
5 7.188919 7.989607
6 7.732012 8.598675
7 7.277228 8.145534
8 7.171953 8.036948
9 6.839487 7.718687
10 6.579717 7.347438
変換：主要遅延要因（約 7.2秒）
低解像度動画から字幕生成用音声を抽出するため
７秒遅延は許容。日本語化対応させる！
Transcribeのために、映像から
音声ファイルのみ抽出
映像と字幕の同期のために
タイムスタンプを取得

主要ベンダーの Speech to Text ソリューション
サービス名バッチ処理主要入力音声フォーマット日本語対応
Google Cloud Speech
API ○
FLAC
WAV(PCM), WAV(MULAW)
AMR, OGG(OPUS), Speex
○
Microsoft Azure
Speech to Text API ○
WAV(PCM)
OGG(OPUS) ○
IBM Watson Speech to
Text ○
FLAC
WAV(PCM), WAV(MULAW)
OGG(OPUS), mp3
○
Amazon Transcribe
○
FLAC
PCM, WAV(PCM), mp3 ×
・機能差はない。GCPアカウントあるのでGoogle Cloud Speechを使ってみる。
・音声ファイルは、AWSサンプルでやってるPCMでなくWAV(PCM)が汎用性高い。
・Amazon Transcribeの日本語化対応が待ち遠しい（再掲）

Google用に、PCMをWAV(PCM)に変換（ffmpegも）
CaptionGenerationLambda（python）の改修は軽微

Amazon Transcribe を Google Speech to Text に変換
TranscribeStreamingLambda（Java）の改修は、大きく下記
　・Google認証（サービスアカウントのクレデンシャル設定）
　・クライアントライブラリおよびAPIコールの変更

タイムアップなので
ここまでの内容を
DEMO

今回の構成
https://github.com/aws-samples/aws-transcribe-captions-live
今回の要件では、
PollyやTranslateは不要
だから要カスタマイズ →

わかったこと
・AWSサンプル（ベストプラクティス）はPoCやサービス
　立ち上げに最適
・とはいえ、完全にマッチしないこともあるので、
　カスタマイズ可能なポイントを把握することが大事
・発話分割しなくても、まぁまぁ理解できる。
　とはいえ、発話分割案も今度やってみる
・Amazon Transcribe 日本語対応を待つのみ…！！
　　2019/3/6時点は、5ヶ国語
　　英語 (米国)、スペイン語 (米国)、英語 (オーストラリア)、
　　英語 (英国)、フランス語 (カナダ)

ご静聴いただき、ありがとうございました

Media ServicesとAIを利用した字幕付きライブ配信

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Media ServicesとAIを利用した字幕付きライブ配信

Similar to Media ServicesとAIを利用した字幕付きライブ配信 (20)

Media ServicesとAIを利用した字幕付きライブ配信