SlideShare a Scribd company logo
1 of 30
Download to read offline
Media ServicesとAIを利用した
広告および字幕付きライブ配信
TV TOKYO Communications Corporations
Tech Lead
Yuichiro Danno
段野 祐一郎 ( @ydanno )
JAWS-UG横浜 #15「Media-JAWS #0」
5G時代を前に、映像メディアが盛り上がってます。
画像引用(https://ameblo.jp/himebura/entry-12422161482.html)
個人がスマホで映像での情報発信できる時代
一般的な配信構成
各種HDMI
変換
登壇者
PC
プロジェク
ター
カメラ
1S/会場LS/
プロジェクターコミ
HDMI
USB変換
等
YouTube配信PC
RTMPLAN
WiFi
使用回線が、内→外(インターネッ
ト)で、TCP/1935が空いている必
要がある
2019/03/20 配信構成
各種HDMI
変換
登壇者
PC
HDMI
分岐
プロジェク
ター
カメラ
1S/会場LS/
プロジェクターコミ
SWer YouTube配信PC
↓こんなの
USB-typeC - HDMI変換
Thunderbold - HDMI変換
TX持参設備
RTMP
基本ワンオペ想定
HDMI
モニタ
LiveU
企業が映像配信するには色々考えないといけない
AWS Media Servicesは映像メディア界の救世主
テレ東、ライブ配信、頑張ってます。見てネ!
大半がモバイルデバイスでの視聴。字幕ニーズ ⤴
PC
スマホ
タブレット
世界卓球2019日本代表最終選考会
(2019/3/2-2019/3/3)
視聴デバイス割合
約70%がモバイル機器
学校や移動中は無音で再生させたいと回答したのは、
76%
文字表示(テロップ/字幕)ニーズが高い
配信で自動字幕を真面目に検討したい!
Z世代へのモバイル視聴調査結果(アメリカ)
https://www.movie-times.tv/topic/9077/
字幕の目的と種類
【目的】
・Accessibility(アクセシビリティ)
 - 耳が不自由な聴覚障害者やお年寄りでも内容を理解したり、楽しめる
 - 外国語翻訳
 - 音が出しづらい環境下(電車内やオフィス等)でのコンテンツ視聴
・SEO
 - 検索エンジンへの動画メタデータの提供。動画の内容を深く理解してもらい、検索ランク向上。
【種類】
・映像への焼き込み(OFFできない)   ・Closed Caption(ON/OFF可能)
字幕(Closed Caption)。放送と配信の違い。
放送字幕 配信字幕
・ARIB字幕
 (日本独自規格。テレビでのみ表示可能 )
・独自外字、色(文字・背景)、サイズ、ルビ、
 位置、等、定義された中で自由に表現可能
・配信では使えない( サポートされてない(※) )
 ※アメリカ放送規格はサポートされている
・WEB規格(W3C)
 WebVTT(Web Video Text Tracks Format)、
 TTML(Timed Text Markup Language)
 ※以下、デファクトの WebVTTについて説明
・ルビ、位置
・多くの動画プレイヤーでサポート
 ※プレイヤーごとにサポートされる機能はマチマチ
厳密にはYouTubeはライブ翻訳なので違うが
放送と配信で、字幕を共用(変換)するのは難しい。
放送字幕 配信字幕
バイナリデータ テキストデータ(.vtt)
or
or
映像と字幕ファイルを
納品
映像を見ながら
リアルタイム入力 AIがリアルタイム変換
収録番組 生番組 ビデオオンデマンド ライブ配信
映像と字幕ファイルを
納品
リアルタイム字幕の表示方法
Closed Caption リアルタイム変換
【手法】
特定のインターバル(3秒や5秒etc)
ごとにまとめて字幕表示(※)
【表示】
WEB規格(W3C)に則る
ON/OFF可能
※字幕表示タイミングが常に
 1インターバル、ズレる
もしくは
 字幕表示タイミングに合わせると
 映像のみ遅延させる必要がある
【手法】
字幕生成されたタイミングで随時表示
(タイピング[Typing] UI)
【表示】
①映像への焼き込み
 ON/OFFできない
②独自手法
(APIでServer - Client通信etc)
 ON/OFFできるが、汎用性低い
(Pros/Consは後のスライドで深掘り)
そんな中…AbemaTVさん、AI利用リアルタイム字幕
Google Speech to Text 利用
AbemaTV AIポン
AbemaTIMES
https://abematimes.com/posts/538
7713
より引用
Googleが提供する音声認識テキスト変換サービス「Cloud Speech-To-Text API」をベー
スとして、株式会社LASSICが開発した「LASSIC Speech Recognition」を活用
AIポンの仕組み及びメリット・デメリットを考察してみる。
映像への
焼き込み
AbemaTV AIポンの仕組み考察(間違ってたらごめんな!)
Speech Recognition リアル
タイム
・不要語の削除
・放送禁止用語にマスク
・タイピングLikeな出力 拡張モデルの反映
・固有名詞の習得
→音声認識精度向上
スタジオ
demux
(音声分離)
テロップ作成
映像に合成
音声
ストリーム
エンコード
配信変換
・CDN
映像
映像
映像
ストリーム
視聴デバイス
・文節を理解した読点
・タイピングLikeな出力
この差が
1秒!!
テキスト
リアルタイム
AbemaTV AIポンの仕組み考察(他にもあるが主要なものを掲載)
Pros Cons
低遅延(タイピング出力)
※字幕生成のために映像配信自体が
 遅延しない or 字幕がズレにくい
字幕が不要な人にも表示される
コンテンツ表示領域が狭くなる
(字幕エリアがある前提の制作に)
どのプラットフォームでの表示可能
(なんならYouTubeでも)
コストがかかる( テレ東は予算が...(略) )
(リアルタイム >> バッチ処理)
字幕ストリームの監視不要 字幕表示が間違っていたものを
アーカイブ化するときに、簡単に
修正できない
「放送ありきの配信」である、現状の”テレビ東京”のテレビ制作には不向きか。
AIポンの考察から得た知識で、似た仕組みを考えて、違う方向から検証してみる。
てれとポン が目指すカタチ
  ①映像が少し遅れてもいいから、Closed Caption
  ②クラウド上で処理を完結させる(専用ハードウェアが不要)
スタジオ エンコード
  ③字幕変換はAI(リアルタイムではなく、文節ごと)
文節ごとの字幕変換イメージ
映像
(10秒)
映像
(10秒)
映像
(10秒)
字幕
(10秒)
字幕
(10秒)
字幕
(10秒)
AI
音声
↓
字幕
変換
映像
(10秒)
映像
(10秒)
音声
(4秒)
音声
(8秒)
発話
に
よる
映像
分割
↓
映像
合成
映像・字幕
(4秒)
AI
音声
↓
字幕
変換
映像(10秒) 映像(10秒)
発話音声(8秒) 発話音声(6秒)
音声が映像ファイル間でまたぐので、誤変換もしくは変換され
ない単語が発生する可能性が高くなる
2秒
6秒
4秒
映像・字幕
(8秒)
映像
(4秒)
映像
(8秒)
誤変換および変換さ
れない単語を減らすこ
とができる
(可能性がある)
※例外は存在
※リバッファリングが
発生しやすくなる
作ろう!と思ったらaws-sampleに良さげなものが!
https://github.com/aws-samples/aws-transcribe-captions-live
今回の要件では、
PollyやTranslateは不要
だから要カスタマイズ →
CloudFormationで、3分クッキング!
【注意点】
リージョンは、オレゴン(us-west-2)を利用する!
2019/3/13時点で、Amazon Transcribeが東京(ap-northeast-1)では利用できない
(Transcribeは、日本語対応もまだだが、いったん無視)
とりま、CDNなし、3分コース!
構成やソースコードから、やってることを把握する!
chunk #
transcribe
exec time
average total exec time average
1 11.847067 12.720454
2 7.373578
変換
遅延
7.21
秒
8.182028
総
遅延
8.02
秒
3 7.235689 8.166719
4 6.894183 7.954145
5 7.188919 7.989607
6 7.732012 8.598675
7 7.277228 8.145534
8 7.171953 8.036948
9 6.839487 7.718687
10 6.579717 7.347438
変換:主要遅延要因(約 7.2秒)
低解像度動画から字幕生成用音声を抽出するため
7秒遅延は許容。日本語化対応させる!
Transcribeのために、映像から
音声ファイルのみ抽出
映像と字幕の同期のために
タイムスタンプを取得
主要ベンダーの Speech to Text ソリューション
サービス名 バッチ処理 主要入力音声フォーマット 日本語対応
Google Cloud Speech
API ○
FLAC
WAV(PCM), WAV(MULAW)
AMR, OGG(OPUS), Speex
○
Microsoft Azure
Speech to Text API ○
WAV(PCM)
OGG(OPUS) ○
IBM Watson Speech to
Text ○
FLAC
WAV(PCM), WAV(MULAW)
OGG(OPUS), mp3
○
Amazon Transcribe
○
FLAC
PCM, WAV(PCM), mp3 ×
・機能差はない。GCPアカウントあるのでGoogle Cloud Speechを使ってみる。
・音声ファイルは、AWSサンプルでやってるPCMでなくWAV(PCM)が汎用性高い。
・Amazon Transcribeの日本語化対応が待ち遠しい(再掲)
Google用に、PCMをWAV(PCM)に変換(ffmpegも)
CaptionGenerationLambda(python)の改修は軽微
Amazon Transcribe を Google Speech to Text に変換
TranscribeStreamingLambda(Java)の改修は、大きく下記
 ・Google認証(サービスアカウントのクレデンシャル設定)
 ・クライアントライブラリおよびAPIコールの変更
タイムアップなので
ここまでの内容を
DEMO
今回の構成
https://github.com/aws-samples/aws-transcribe-captions-live
今回の要件では、
PollyやTranslateは不要
だから要カスタマイズ →
わかったこと
・AWSサンプル(ベストプラクティス)はPoCやサービス
 立ち上げに最適
・とはいえ、完全にマッチしないこともあるので、
 カスタマイズ可能なポイントを把握することが大事
・発話分割しなくても、まぁまぁ理解できる。
 とはいえ、発話分割案も今度やってみる
・Amazon Transcribe 日本語対応を待つのみ…!!
  2019/3/6時点は、5ヶ国語
  英語 (米国)、スペイン語 (米国)、英語 (オーストラリア)、
  英語 (英国)、フランス語 (カナダ)
ご静聴いただき、ありがとうございました

More Related Content

What's hot

[Fr] le Marketing des TIC
[Fr] le Marketing des TIC[Fr] le Marketing des TIC
[Fr] le Marketing des TICYann Gourvennec
 
Tp3 automate programmable siemens s7 200
Tp3 automate programmable siemens s7 200Tp3 automate programmable siemens s7 200
Tp3 automate programmable siemens s7 200FATIMAZAHRAELGHEMARY
 
Limpact du covid-19 sur les entreprises tunisiennes
Limpact du covid-19 sur les entreprises tunisiennesLimpact du covid-19 sur les entreprises tunisiennes
Limpact du covid-19 sur les entreprises tunisiennesJamaity
 
Automates Programmables Industriels (API).pdf
Automates Programmables Industriels (API).pdfAutomates Programmables Industriels (API).pdf
Automates Programmables Industriels (API).pdfMENNANIZinedine
 
TCER ET COMPETITIVITE, Kamgna
TCER ET COMPETITIVITE, KamgnaTCER ET COMPETITIVITE, Kamgna
TCER ET COMPETITIVITE, KamgnaBEAC
 
Rapport de projet commande par pid
Rapport de projet commande par pidRapport de projet commande par pid
Rapport de projet commande par pidMohammed Boujida
 
伝えたいことを一瞬で伝えるスライド作成講座プラス
伝えたいことを一瞬で伝えるスライド作成講座プラス伝えたいことを一瞬で伝えるスライド作成講座プラス
伝えたいことを一瞬で伝えるスライド作成講座プラスTakashi Fujimoto
 
64378311-Traitement-Du-Signal.ppt
64378311-Traitement-Du-Signal.ppt64378311-Traitement-Du-Signal.ppt
64378311-Traitement-Du-Signal.pptdocteurgyneco1
 
Elementos sonoros da linguagem radiofonica
Elementos sonoros da linguagem radiofonicaElementos sonoros da linguagem radiofonica
Elementos sonoros da linguagem radiofonicaAllex Medrado
 
採用と育成スキームの科学13(配布用資料)
採用と育成スキームの科学13(配布用資料)採用と育成スキームの科学13(配布用資料)
採用と育成スキームの科学13(配布用資料)Yohei SUZUKI
 
Contrôle non destructif par Courants de Foucault
Contrôle non destructif par Courants de FoucaultContrôle non destructif par Courants de Foucault
Contrôle non destructif par Courants de FoucaultRafael Nadal
 
Fonctionnement d’un récepteur radio superhétérodyne en MA et FM
 Fonctionnement  d’un récepteur radio  superhétérodyne en MA et FM  Fonctionnement  d’un récepteur radio  superhétérodyne en MA et FM
Fonctionnement d’un récepteur radio superhétérodyne en MA et FM Adad Med Chérif
 
4 representationprocessindustrielslastversion
4 representationprocessindustrielslastversion4 representationprocessindustrielslastversion
4 representationprocessindustrielslastversionRachid Lajouad
 

What's hot (20)

[Fr] le Marketing des TIC
[Fr] le Marketing des TIC[Fr] le Marketing des TIC
[Fr] le Marketing des TIC
 
C 80
C 80C 80
C 80
 
Tp3 automate programmable siemens s7 200
Tp3 automate programmable siemens s7 200Tp3 automate programmable siemens s7 200
Tp3 automate programmable siemens s7 200
 
Cours robotique
Cours robotiqueCours robotique
Cours robotique
 
Limpact du covid-19 sur les entreprises tunisiennes
Limpact du covid-19 sur les entreprises tunisiennesLimpact du covid-19 sur les entreprises tunisiennes
Limpact du covid-19 sur les entreprises tunisiennes
 
Automates Programmables Industriels (API).pdf
Automates Programmables Industriels (API).pdfAutomates Programmables Industriels (API).pdf
Automates Programmables Industriels (API).pdf
 
TCER ET COMPETITIVITE, Kamgna
TCER ET COMPETITIVITE, KamgnaTCER ET COMPETITIVITE, Kamgna
TCER ET COMPETITIVITE, Kamgna
 
Rapport de projet commande par pid
Rapport de projet commande par pidRapport de projet commande par pid
Rapport de projet commande par pid
 
伝えたいことを一瞬で伝えるスライド作成講座プラス
伝えたいことを一瞬で伝えるスライド作成講座プラス伝えたいことを一瞬で伝えるスライド作成講座プラス
伝えたいことを一瞬で伝えるスライド作成講座プラス
 
64378311-Traitement-Du-Signal.ppt
64378311-Traitement-Du-Signal.ppt64378311-Traitement-Du-Signal.ppt
64378311-Traitement-Du-Signal.ppt
 
Traitement du signal
Traitement du signalTraitement du signal
Traitement du signal
 
Elementos sonoros da linguagem radiofonica
Elementos sonoros da linguagem radiofonicaElementos sonoros da linguagem radiofonica
Elementos sonoros da linguagem radiofonica
 
採用と育成スキームの科学13(配布用資料)
採用と育成スキームの科学13(配布用資料)採用と育成スキームの科学13(配布用資料)
採用と育成スキームの科学13(配布用資料)
 
Contrôle non destructif par Courants de Foucault
Contrôle non destructif par Courants de FoucaultContrôle non destructif par Courants de Foucault
Contrôle non destructif par Courants de Foucault
 
Fonctionnement d’un récepteur radio superhétérodyne en MA et FM
 Fonctionnement  d’un récepteur radio  superhétérodyne en MA et FM  Fonctionnement  d’un récepteur radio  superhétérodyne en MA et FM
Fonctionnement d’un récepteur radio superhétérodyne en MA et FM
 
Entrevistas
EntrevistasEntrevistas
Entrevistas
 
CM4 - Transformée en z
CM4 - Transformée en zCM4 - Transformée en z
CM4 - Transformée en z
 
4 representationprocessindustrielslastversion
4 representationprocessindustrielslastversion4 representationprocessindustrielslastversion
4 representationprocessindustrielslastversion
 
Atc
AtcAtc
Atc
 
Etat des lieux et besoins des associations de solidarité
Etat des lieux et besoins des associations de solidaritéEtat des lieux et besoins des associations de solidarité
Etat des lieux et besoins des associations de solidarité
 

Similar to Media ServicesとAIを利用した字幕付きライブ配信

KES IoT Logicのご紹介(金沢エンジニアリングシステムズ)
KES IoT Logicのご紹介(金沢エンジニアリングシステムズ)KES IoT Logicのご紹介(金沢エンジニアリングシステムズ)
KES IoT Logicのご紹介(金沢エンジニアリングシステムズ)Yasuhiro Kobayashi
 
Software is eating the world
Software is eating the worldSoftware is eating the world
Software is eating the worldOsaka University
 
はじめてのWebRTC/ORTC
はじめてのWebRTC/ORTCはじめてのWebRTC/ORTC
はじめてのWebRTC/ORTCYusuke Naka
 
注目の最新技術「WebRTC」とは? -技術概要と事例紹介-
注目の最新技術「WebRTC」とは? -技術概要と事例紹介-注目の最新技術「WebRTC」とは? -技術概要と事例紹介-
注目の最新技術「WebRTC」とは? -技術概要と事例紹介-Yusuke Naka
 
WebRTC入門+最新動向
WebRTC入門+最新動向WebRTC入門+最新動向
WebRTC入門+最新動向Ryosuke Otsuya
 
WebRTC入門 ~沖縄編~
WebRTC入門 ~沖縄編~WebRTC入門 ~沖縄編~
WebRTC入門 ~沖縄編~Ryosuke Otsuya
 
クリエイティブクラスターフォーラムプレゼン資料20101009
クリエイティブクラスターフォーラムプレゼン資料20101009クリエイティブクラスターフォーラムプレゼン資料20101009
クリエイティブクラスターフォーラムプレゼン資料20101009himamura (暇村)
 
クラウドを取り巻くリニア配信技術
クラウドを取り巻くリニア配信技術クラウドを取り巻くリニア配信技術
クラウドを取り巻くリニア配信技術Masashi Ito
 
if-up 2019 | キーノート「テクノロジー x 情熱」が世界を変える
if-up 2019 | キーノート「テクノロジー x 情熱」が世界を変えるif-up 2019 | キーノート「テクノロジー x 情熱」が世界を変える
if-up 2019 | キーノート「テクノロジー x 情熱」が世界を変えるSORACOM,INC
 
ドコモオープンイノベーションの取り組みと提供APIのIoT展開について
ドコモオープンイノベーションの取り組みと提供APIのIoT展開についてドコモオープンイノベーションの取り組みと提供APIのIoT展開について
ドコモオープンイノベーションの取り組みと提供APIのIoT展開についてAPI Meetup
 
5分でわかるWebRTC
5分でわかるWebRTC5分でわかるWebRTC
5分でわかるWebRTCRyosuke Otsuya
 
Android連携ハードウェア
Android連携ハードウェアAndroid連携ハードウェア
Android連携ハードウェアAkira Sasaki
 
インターネット生放送を支える技術としくみ2015年版
インターネット生放送を支える技術としくみ2015年版インターネット生放送を支える技術としくみ2015年版
インターネット生放送を支える技術としくみ2015年版Yusei Yamanaka
 
無線LANでロボットを動かす話
無線LANでロボットを動かす話無線LANでロボットを動かす話
無線LANでロボットを動かす話Hisaya Okada
 
朝日放送グループにおける視聴者参加型コンテンツとライブ配信事例のご紹介
朝日放送グループにおける視聴者参加型コンテンツとライブ配信事例のご紹介朝日放送グループにおける視聴者参加型コンテンツとライブ配信事例のご紹介
朝日放送グループにおける視聴者参加型コンテンツとライブ配信事例のご紹介Eiji KOMINAMI
 
WebRTCを始めよう! HTML5fun 第一回勉強会
WebRTCを始めよう! HTML5fun 第一回勉強会WebRTCを始めよう! HTML5fun 第一回勉強会
WebRTCを始めよう! HTML5fun 第一回勉強会Yusuke Naka
 
IoTに必要な通信「SORACOM」入門セミナー
IoTに必要な通信「SORACOM」入門セミナーIoTに必要な通信「SORACOM」入門セミナー
IoTに必要な通信「SORACOM」入門セミナーSORACOM,INC
 
ビッグデータによる社会イノベーションの実現(公開版)
 ビッグデータによる社会イノベーションの実現(公開版) ビッグデータによる社会イノベーションの実現(公開版)
ビッグデータによる社会イノベーションの実現(公開版)Osaka University
 

Similar to Media ServicesとAIを利用した字幕付きライブ配信 (20)

KES IoT Logicのご紹介(金沢エンジニアリングシステムズ)
KES IoT Logicのご紹介(金沢エンジニアリングシステムズ)KES IoT Logicのご紹介(金沢エンジニアリングシステムズ)
KES IoT Logicのご紹介(金沢エンジニアリングシステムズ)
 
Software is eating the world
Software is eating the worldSoftware is eating the world
Software is eating the world
 
ぐだ生システム#2
ぐだ生システム#2ぐだ生システム#2
ぐだ生システム#2
 
はじめてのWebRTC/ORTC
はじめてのWebRTC/ORTCはじめてのWebRTC/ORTC
はじめてのWebRTC/ORTC
 
注目の最新技術「WebRTC」とは? -技術概要と事例紹介-
注目の最新技術「WebRTC」とは? -技術概要と事例紹介-注目の最新技術「WebRTC」とは? -技術概要と事例紹介-
注目の最新技術「WebRTC」とは? -技術概要と事例紹介-
 
WebRTC の紹介
WebRTC の紹介WebRTC の紹介
WebRTC の紹介
 
WebRTC入門+最新動向
WebRTC入門+最新動向WebRTC入門+最新動向
WebRTC入門+最新動向
 
WebRTC入門 ~沖縄編~
WebRTC入門 ~沖縄編~WebRTC入門 ~沖縄編~
WebRTC入門 ~沖縄編~
 
クリエイティブクラスターフォーラムプレゼン資料20101009
クリエイティブクラスターフォーラムプレゼン資料20101009クリエイティブクラスターフォーラムプレゼン資料20101009
クリエイティブクラスターフォーラムプレゼン資料20101009
 
クラウドを取り巻くリニア配信技術
クラウドを取り巻くリニア配信技術クラウドを取り巻くリニア配信技術
クラウドを取り巻くリニア配信技術
 
if-up 2019 | キーノート「テクノロジー x 情熱」が世界を変える
if-up 2019 | キーノート「テクノロジー x 情熱」が世界を変えるif-up 2019 | キーノート「テクノロジー x 情熱」が世界を変える
if-up 2019 | キーノート「テクノロジー x 情熱」が世界を変える
 
ドコモオープンイノベーションの取り組みと提供APIのIoT展開について
ドコモオープンイノベーションの取り組みと提供APIのIoT展開についてドコモオープンイノベーションの取り組みと提供APIのIoT展開について
ドコモオープンイノベーションの取り組みと提供APIのIoT展開について
 
5分でわかるWebRTC
5分でわかるWebRTC5分でわかるWebRTC
5分でわかるWebRTC
 
Android連携ハードウェア
Android連携ハードウェアAndroid連携ハードウェア
Android連携ハードウェア
 
インターネット生放送を支える技術としくみ2015年版
インターネット生放送を支える技術としくみ2015年版インターネット生放送を支える技術としくみ2015年版
インターネット生放送を支える技術としくみ2015年版
 
無線LANでロボットを動かす話
無線LANでロボットを動かす話無線LANでロボットを動かす話
無線LANでロボットを動かす話
 
朝日放送グループにおける視聴者参加型コンテンツとライブ配信事例のご紹介
朝日放送グループにおける視聴者参加型コンテンツとライブ配信事例のご紹介朝日放送グループにおける視聴者参加型コンテンツとライブ配信事例のご紹介
朝日放送グループにおける視聴者参加型コンテンツとライブ配信事例のご紹介
 
WebRTCを始めよう! HTML5fun 第一回勉強会
WebRTCを始めよう! HTML5fun 第一回勉強会WebRTCを始めよう! HTML5fun 第一回勉強会
WebRTCを始めよう! HTML5fun 第一回勉強会
 
IoTに必要な通信「SORACOM」入門セミナー
IoTに必要な通信「SORACOM」入門セミナーIoTに必要な通信「SORACOM」入門セミナー
IoTに必要な通信「SORACOM」入門セミナー
 
ビッグデータによる社会イノベーションの実現(公開版)
 ビッグデータによる社会イノベーションの実現(公開版) ビッグデータによる社会イノベーションの実現(公開版)
ビッグデータによる社会イノベーションの実現(公開版)
 

Media ServicesとAIを利用した字幕付きライブ配信