Submit Search
Upload
Media ServicesとAIを利用した字幕付きライブ配信
•
3 likes
•
1,438 views
Y
Yuichiro Danno
Follow
2019/3/20 JAWS横浜
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 30
Download now
Download to read offline
Recommended
星野リゾートおよびホテル再生事業に関する考察
星野リゾートおよびホテル再生事業に関する考察
Kunihiro Yamamoto
Objets Connectés (IoT) et Data Science
Objets Connectés (IoT) et Data Science
Soft Computing
Le grafcet
Le grafcet
sarah Benmerzouk
013同仁会 ノロウイルス対応マニュアル
013同仁会 ノロウイルス対応マニュアル
chiikigenki
Ener1 - CM4 - Distribution électrique
Ener1 - CM4 - Distribution électrique
Pierre Maréchal
管理・間接部門生産性向上;競争劣位を解消する
管理・間接部門生産性向上;競争劣位を解消する
株式会社エイチ・ピィ・ピィ・ティ
cours_supervision_2018.pptx
cours_supervision_2018.pptx
ssuser1eaf0b
Contrôle non destructif par ultrasons
Contrôle non destructif par ultrasons
Rafael Nadal
Recommended
星野リゾートおよびホテル再生事業に関する考察
星野リゾートおよびホテル再生事業に関する考察
Kunihiro Yamamoto
Objets Connectés (IoT) et Data Science
Objets Connectés (IoT) et Data Science
Soft Computing
Le grafcet
Le grafcet
sarah Benmerzouk
013同仁会 ノロウイルス対応マニュアル
013同仁会 ノロウイルス対応マニュアル
chiikigenki
Ener1 - CM4 - Distribution électrique
Ener1 - CM4 - Distribution électrique
Pierre Maréchal
管理・間接部門生産性向上;競争劣位を解消する
管理・間接部門生産性向上;競争劣位を解消する
株式会社エイチ・ピィ・ピィ・ティ
cours_supervision_2018.pptx
cours_supervision_2018.pptx
ssuser1eaf0b
Contrôle non destructif par ultrasons
Contrôle non destructif par ultrasons
Rafael Nadal
[Fr] le Marketing des TIC
[Fr] le Marketing des TIC
Yann Gourvennec
C 80
C 80
Anas Tounsi
Tp3 automate programmable siemens s7 200
Tp3 automate programmable siemens s7 200
FATIMAZAHRAELGHEMARY
Cours robotique
Cours robotique
Mouna Souissi
Limpact du covid-19 sur les entreprises tunisiennes
Limpact du covid-19 sur les entreprises tunisiennes
Jamaity
Automates Programmables Industriels (API).pdf
Automates Programmables Industriels (API).pdf
MENNANIZinedine
TCER ET COMPETITIVITE, Kamgna
TCER ET COMPETITIVITE, Kamgna
BEAC
Rapport de projet commande par pid
Rapport de projet commande par pid
Mohammed Boujida
伝えたいことを一瞬で伝えるスライド作成講座プラス
伝えたいことを一瞬で伝えるスライド作成講座プラス
Takashi Fujimoto
64378311-Traitement-Du-Signal.ppt
64378311-Traitement-Du-Signal.ppt
docteurgyneco1
Traitement du signal
Traitement du signal
Bouziane Beldjilali
Elementos sonoros da linguagem radiofonica
Elementos sonoros da linguagem radiofonica
Allex Medrado
採用と育成スキームの科学13(配布用資料)
採用と育成スキームの科学13(配布用資料)
Yohei SUZUKI
Contrôle non destructif par Courants de Foucault
Contrôle non destructif par Courants de Foucault
Rafael Nadal
Fonctionnement d’un récepteur radio superhétérodyne en MA et FM
Fonctionnement d’un récepteur radio superhétérodyne en MA et FM
Adad Med Chérif
Entrevistas
Entrevistas
Laércio Góes
CM4 - Transformée en z
CM4 - Transformée en z
Pierre Maréchal
4 representationprocessindustrielslastversion
4 representationprocessindustrielslastversion
Rachid Lajouad
Atc
Atc
toumed
Etat des lieux et besoins des associations de solidarité
Etat des lieux et besoins des associations de solidarité
Groupe SFC, cabinet d'expertise comptable
KES IoT Logicのご紹介(金沢エンジニアリングシステムズ)
KES IoT Logicのご紹介(金沢エンジニアリングシステムズ)
Yasuhiro Kobayashi
Software is eating the world
Software is eating the world
Osaka University
More Related Content
What's hot
[Fr] le Marketing des TIC
[Fr] le Marketing des TIC
Yann Gourvennec
C 80
C 80
Anas Tounsi
Tp3 automate programmable siemens s7 200
Tp3 automate programmable siemens s7 200
FATIMAZAHRAELGHEMARY
Cours robotique
Cours robotique
Mouna Souissi
Limpact du covid-19 sur les entreprises tunisiennes
Limpact du covid-19 sur les entreprises tunisiennes
Jamaity
Automates Programmables Industriels (API).pdf
Automates Programmables Industriels (API).pdf
MENNANIZinedine
TCER ET COMPETITIVITE, Kamgna
TCER ET COMPETITIVITE, Kamgna
BEAC
Rapport de projet commande par pid
Rapport de projet commande par pid
Mohammed Boujida
伝えたいことを一瞬で伝えるスライド作成講座プラス
伝えたいことを一瞬で伝えるスライド作成講座プラス
Takashi Fujimoto
64378311-Traitement-Du-Signal.ppt
64378311-Traitement-Du-Signal.ppt
docteurgyneco1
Traitement du signal
Traitement du signal
Bouziane Beldjilali
Elementos sonoros da linguagem radiofonica
Elementos sonoros da linguagem radiofonica
Allex Medrado
採用と育成スキームの科学13(配布用資料)
採用と育成スキームの科学13(配布用資料)
Yohei SUZUKI
Contrôle non destructif par Courants de Foucault
Contrôle non destructif par Courants de Foucault
Rafael Nadal
Fonctionnement d’un récepteur radio superhétérodyne en MA et FM
Fonctionnement d’un récepteur radio superhétérodyne en MA et FM
Adad Med Chérif
Entrevistas
Entrevistas
Laércio Góes
CM4 - Transformée en z
CM4 - Transformée en z
Pierre Maréchal
4 representationprocessindustrielslastversion
4 representationprocessindustrielslastversion
Rachid Lajouad
Atc
Atc
toumed
Etat des lieux et besoins des associations de solidarité
Etat des lieux et besoins des associations de solidarité
Groupe SFC, cabinet d'expertise comptable
What's hot
(20)
[Fr] le Marketing des TIC
[Fr] le Marketing des TIC
C 80
C 80
Tp3 automate programmable siemens s7 200
Tp3 automate programmable siemens s7 200
Cours robotique
Cours robotique
Limpact du covid-19 sur les entreprises tunisiennes
Limpact du covid-19 sur les entreprises tunisiennes
Automates Programmables Industriels (API).pdf
Automates Programmables Industriels (API).pdf
TCER ET COMPETITIVITE, Kamgna
TCER ET COMPETITIVITE, Kamgna
Rapport de projet commande par pid
Rapport de projet commande par pid
伝えたいことを一瞬で伝えるスライド作成講座プラス
伝えたいことを一瞬で伝えるスライド作成講座プラス
64378311-Traitement-Du-Signal.ppt
64378311-Traitement-Du-Signal.ppt
Traitement du signal
Traitement du signal
Elementos sonoros da linguagem radiofonica
Elementos sonoros da linguagem radiofonica
採用と育成スキームの科学13(配布用資料)
採用と育成スキームの科学13(配布用資料)
Contrôle non destructif par Courants de Foucault
Contrôle non destructif par Courants de Foucault
Fonctionnement d’un récepteur radio superhétérodyne en MA et FM
Fonctionnement d’un récepteur radio superhétérodyne en MA et FM
Entrevistas
Entrevistas
CM4 - Transformée en z
CM4 - Transformée en z
4 representationprocessindustrielslastversion
4 representationprocessindustrielslastversion
Atc
Atc
Etat des lieux et besoins des associations de solidarité
Etat des lieux et besoins des associations de solidarité
Similar to Media ServicesとAIを利用した字幕付きライブ配信
KES IoT Logicのご紹介(金沢エンジニアリングシステムズ)
KES IoT Logicのご紹介(金沢エンジニアリングシステムズ)
Yasuhiro Kobayashi
Software is eating the world
Software is eating the world
Osaka University
ぐだ生システム#2
ぐだ生システム#2
magoroku Yamamoto
はじめてのWebRTC/ORTC
はじめてのWebRTC/ORTC
Yusuke Naka
注目の最新技術「WebRTC」とは? -技術概要と事例紹介-
注目の最新技術「WebRTC」とは? -技術概要と事例紹介-
Yusuke Naka
WebRTC の紹介
WebRTC の紹介
Kensaku Komatsu
WebRTC入門+最新動向
WebRTC入門+最新動向
Ryosuke Otsuya
WebRTC入門 ~沖縄編~
WebRTC入門 ~沖縄編~
Ryosuke Otsuya
クリエイティブクラスターフォーラムプレゼン資料20101009
クリエイティブクラスターフォーラムプレゼン資料20101009
himamura (暇村)
クラウドを取り巻くリニア配信技術
クラウドを取り巻くリニア配信技術
Masashi Ito
if-up 2019 | キーノート「テクノロジー x 情熱」が世界を変える
if-up 2019 | キーノート「テクノロジー x 情熱」が世界を変える
SORACOM,INC
ドコモオープンイノベーションの取り組みと提供APIのIoT展開について
ドコモオープンイノベーションの取り組みと提供APIのIoT展開について
API Meetup
5分でわかるWebRTC
5分でわかるWebRTC
Ryosuke Otsuya
Android連携ハードウェア
Android連携ハードウェア
Akira Sasaki
インターネット生放送を支える技術としくみ2015年版
インターネット生放送を支える技術としくみ2015年版
Yusei Yamanaka
無線LANでロボットを動かす話
無線LANでロボットを動かす話
Hisaya Okada
朝日放送グループにおける視聴者参加型コンテンツとライブ配信事例のご紹介
朝日放送グループにおける視聴者参加型コンテンツとライブ配信事例のご紹介
Eiji KOMINAMI
WebRTCを始めよう! HTML5fun 第一回勉強会
WebRTCを始めよう! HTML5fun 第一回勉強会
Yusuke Naka
IoTに必要な通信「SORACOM」入門セミナー
IoTに必要な通信「SORACOM」入門セミナー
SORACOM,INC
ビッグデータによる社会イノベーションの実現(公開版)
ビッグデータによる社会イノベーションの実現(公開版)
Osaka University
Similar to Media ServicesとAIを利用した字幕付きライブ配信
(20)
KES IoT Logicのご紹介(金沢エンジニアリングシステムズ)
KES IoT Logicのご紹介(金沢エンジニアリングシステムズ)
Software is eating the world
Software is eating the world
ぐだ生システム#2
ぐだ生システム#2
はじめてのWebRTC/ORTC
はじめてのWebRTC/ORTC
注目の最新技術「WebRTC」とは? -技術概要と事例紹介-
注目の最新技術「WebRTC」とは? -技術概要と事例紹介-
WebRTC の紹介
WebRTC の紹介
WebRTC入門+最新動向
WebRTC入門+最新動向
WebRTC入門 ~沖縄編~
WebRTC入門 ~沖縄編~
クリエイティブクラスターフォーラムプレゼン資料20101009
クリエイティブクラスターフォーラムプレゼン資料20101009
クラウドを取り巻くリニア配信技術
クラウドを取り巻くリニア配信技術
if-up 2019 | キーノート「テクノロジー x 情熱」が世界を変える
if-up 2019 | キーノート「テクノロジー x 情熱」が世界を変える
ドコモオープンイノベーションの取り組みと提供APIのIoT展開について
ドコモオープンイノベーションの取り組みと提供APIのIoT展開について
5分でわかるWebRTC
5分でわかるWebRTC
Android連携ハードウェア
Android連携ハードウェア
インターネット生放送を支える技術としくみ2015年版
インターネット生放送を支える技術としくみ2015年版
無線LANでロボットを動かす話
無線LANでロボットを動かす話
朝日放送グループにおける視聴者参加型コンテンツとライブ配信事例のご紹介
朝日放送グループにおける視聴者参加型コンテンツとライブ配信事例のご紹介
WebRTCを始めよう! HTML5fun 第一回勉強会
WebRTCを始めよう! HTML5fun 第一回勉強会
IoTに必要な通信「SORACOM」入門セミナー
IoTに必要な通信「SORACOM」入門セミナー
ビッグデータによる社会イノベーションの実現(公開版)
ビッグデータによる社会イノベーションの実現(公開版)
Media ServicesとAIを利用した字幕付きライブ配信
1.
Media ServicesとAIを利用した 広告および字幕付きライブ配信 TV TOKYO
Communications Corporations Tech Lead Yuichiro Danno 段野 祐一郎 ( @ydanno ) JAWS-UG横浜 #15「Media-JAWS #0」
2.
3.
4.
5G時代を前に、映像メディアが盛り上がってます。 画像引用(https://ameblo.jp/himebura/entry-12422161482.html)
5.
個人がスマホで映像での情報発信できる時代
6.
一般的な配信構成 各種HDMI 変換 登壇者 PC プロジェク ター カメラ 1S/会場LS/ プロジェクターコミ HDMI USB変換 等 YouTube配信PC RTMPLAN WiFi 使用回線が、内→外(インターネッ ト)で、TCP/1935が空いている必 要がある
7.
2019/03/20 配信構成 各種HDMI 変換 登壇者 PC HDMI 分岐 プロジェク ター カメラ 1S/会場LS/ プロジェクターコミ SWer YouTube配信PC ↓こんなの USB-typeC
- HDMI変換 Thunderbold - HDMI変換 TX持参設備 RTMP 基本ワンオペ想定 HDMI モニタ LiveU
8.
企業が映像配信するには色々考えないといけない
9.
AWS Media Servicesは映像メディア界の救世主
10.
テレ東、ライブ配信、頑張ってます。見てネ!
11.
大半がモバイルデバイスでの視聴。字幕ニーズ ⤴ PC スマホ タブレット 世界卓球2019日本代表最終選考会 (2019/3/2-2019/3/3) 視聴デバイス割合 約70%がモバイル機器 学校や移動中は無音で再生させたいと回答したのは、 76% 文字表示(テロップ/字幕)ニーズが高い 配信で自動字幕を真面目に検討したい! Z世代へのモバイル視聴調査結果(アメリカ) https://www.movie-times.tv/topic/9077/
12.
字幕の目的と種類 【目的】 ・Accessibility(アクセシビリティ) - 耳が不自由な聴覚障害者やお年寄りでも内容を理解したり、楽しめる - 外国語翻訳 -
音が出しづらい環境下(電車内やオフィス等)でのコンテンツ視聴 ・SEO - 検索エンジンへの動画メタデータの提供。動画の内容を深く理解してもらい、検索ランク向上。 【種類】 ・映像への焼き込み(OFFできない) ・Closed Caption(ON/OFF可能)
13.
字幕(Closed Caption)。放送と配信の違い。 放送字幕 配信字幕 ・ARIB字幕 (日本独自規格。テレビでのみ表示可能
) ・独自外字、色(文字・背景)、サイズ、ルビ、 位置、等、定義された中で自由に表現可能 ・配信では使えない( サポートされてない(※) ) ※アメリカ放送規格はサポートされている ・WEB規格(W3C) WebVTT(Web Video Text Tracks Format)、 TTML(Timed Text Markup Language) ※以下、デファクトの WebVTTについて説明 ・ルビ、位置 ・多くの動画プレイヤーでサポート ※プレイヤーごとにサポートされる機能はマチマチ 厳密にはYouTubeはライブ翻訳なので違うが
14.
放送と配信で、字幕を共用(変換)するのは難しい。 放送字幕 配信字幕 バイナリデータ テキストデータ(.vtt) or or 映像と字幕ファイルを 納品 映像を見ながら リアルタイム入力
AIがリアルタイム変換 収録番組 生番組 ビデオオンデマンド ライブ配信 映像と字幕ファイルを 納品
15.
リアルタイム字幕の表示方法 Closed Caption リアルタイム変換 【手法】 特定のインターバル(3秒や5秒etc) ごとにまとめて字幕表示(※) 【表示】 WEB規格(W3C)に則る ON/OFF可能 ※字幕表示タイミングが常に 1インターバル、ズレる もしくは 字幕表示タイミングに合わせると 映像のみ遅延させる必要がある 【手法】 字幕生成されたタイミングで随時表示 (タイピング[Typing]
UI) 【表示】 ①映像への焼き込み ON/OFFできない ②独自手法 (APIでServer - Client通信etc) ON/OFFできるが、汎用性低い (Pros/Consは後のスライドで深掘り)
16.
そんな中…AbemaTVさん、AI利用リアルタイム字幕 Google Speech to
Text 利用 AbemaTV AIポン AbemaTIMES https://abematimes.com/posts/538 7713 より引用 Googleが提供する音声認識テキスト変換サービス「Cloud Speech-To-Text API」をベー スとして、株式会社LASSICが開発した「LASSIC Speech Recognition」を活用 AIポンの仕組み及びメリット・デメリットを考察してみる。 映像への 焼き込み
17.
AbemaTV AIポンの仕組み考察(間違ってたらごめんな!) Speech Recognition
リアル タイム ・不要語の削除 ・放送禁止用語にマスク ・タイピングLikeな出力 拡張モデルの反映 ・固有名詞の習得 →音声認識精度向上 スタジオ demux (音声分離) テロップ作成 映像に合成 音声 ストリーム エンコード 配信変換 ・CDN 映像 映像 映像 ストリーム 視聴デバイス ・文節を理解した読点 ・タイピングLikeな出力 この差が 1秒!! テキスト リアルタイム
18.
AbemaTV AIポンの仕組み考察(他にもあるが主要なものを掲載) Pros Cons 低遅延(タイピング出力) ※字幕生成のために映像配信自体が 遅延しない
or 字幕がズレにくい 字幕が不要な人にも表示される コンテンツ表示領域が狭くなる (字幕エリアがある前提の制作に) どのプラットフォームでの表示可能 (なんならYouTubeでも) コストがかかる( テレ東は予算が...(略) ) (リアルタイム >> バッチ処理) 字幕ストリームの監視不要 字幕表示が間違っていたものを アーカイブ化するときに、簡単に 修正できない 「放送ありきの配信」である、現状の”テレビ東京”のテレビ制作には不向きか。 AIポンの考察から得た知識で、似た仕組みを考えて、違う方向から検証してみる。
19.
てれとポン が目指すカタチ ①映像が少し遅れてもいいから、Closed Caption ②クラウド上で処理を完結させる(専用ハードウェアが不要) スタジオ
エンコード ③字幕変換はAI(リアルタイムではなく、文節ごと)
20.
文節ごとの字幕変換イメージ 映像 (10秒) 映像 (10秒) 映像 (10秒) 字幕 (10秒) 字幕 (10秒) 字幕 (10秒) AI 音声 ↓ 字幕 変換 映像 (10秒) 映像 (10秒) 音声 (4秒) 音声 (8秒) 発話 に よる 映像 分割 ↓ 映像 合成 映像・字幕 (4秒) AI 音声 ↓ 字幕 変換 映像(10秒) 映像(10秒) 発話音声(8秒) 発話音声(6秒) 音声が映像ファイル間でまたぐので、誤変換もしくは変換され ない単語が発生する可能性が高くなる 2秒 6秒 4秒 映像・字幕 (8秒) 映像 (4秒) 映像 (8秒) 誤変換および変換さ れない単語を減らすこ とができる (可能性がある) ※例外は存在 ※リバッファリングが 発生しやすくなる
21.
作ろう!と思ったらaws-sampleに良さげなものが! https://github.com/aws-samples/aws-transcribe-captions-live 今回の要件では、 PollyやTranslateは不要 だから要カスタマイズ →
22.
CloudFormationで、3分クッキング! 【注意点】 リージョンは、オレゴン(us-west-2)を利用する! 2019/3/13時点で、Amazon Transcribeが東京(ap-northeast-1)では利用できない (Transcribeは、日本語対応もまだだが、いったん無視) とりま、CDNなし、3分コース!
23.
構成やソースコードから、やってることを把握する! chunk # transcribe exec time average
total exec time average 1 11.847067 12.720454 2 7.373578 変換 遅延 7.21 秒 8.182028 総 遅延 8.02 秒 3 7.235689 8.166719 4 6.894183 7.954145 5 7.188919 7.989607 6 7.732012 8.598675 7 7.277228 8.145534 8 7.171953 8.036948 9 6.839487 7.718687 10 6.579717 7.347438 変換:主要遅延要因(約 7.2秒) 低解像度動画から字幕生成用音声を抽出するため 7秒遅延は許容。日本語化対応させる! Transcribeのために、映像から 音声ファイルのみ抽出 映像と字幕の同期のために タイムスタンプを取得
24.
主要ベンダーの Speech to
Text ソリューション サービス名 バッチ処理 主要入力音声フォーマット 日本語対応 Google Cloud Speech API ○ FLAC WAV(PCM), WAV(MULAW) AMR, OGG(OPUS), Speex ○ Microsoft Azure Speech to Text API ○ WAV(PCM) OGG(OPUS) ○ IBM Watson Speech to Text ○ FLAC WAV(PCM), WAV(MULAW) OGG(OPUS), mp3 ○ Amazon Transcribe ○ FLAC PCM, WAV(PCM), mp3 × ・機能差はない。GCPアカウントあるのでGoogle Cloud Speechを使ってみる。 ・音声ファイルは、AWSサンプルでやってるPCMでなくWAV(PCM)が汎用性高い。 ・Amazon Transcribeの日本語化対応が待ち遠しい(再掲)
25.
Google用に、PCMをWAV(PCM)に変換(ffmpegも) CaptionGenerationLambda(python)の改修は軽微
26.
Amazon Transcribe を
Google Speech to Text に変換 TranscribeStreamingLambda(Java)の改修は、大きく下記 ・Google認証(サービスアカウントのクレデンシャル設定) ・クライアントライブラリおよびAPIコールの変更
27.
タイムアップなので ここまでの内容を DEMO
28.
今回の構成 https://github.com/aws-samples/aws-transcribe-captions-live 今回の要件では、 PollyやTranslateは不要 だから要カスタマイズ →
29.
わかったこと ・AWSサンプル(ベストプラクティス)はPoCやサービス 立ち上げに最適 ・とはいえ、完全にマッチしないこともあるので、 カスタマイズ可能なポイントを把握することが大事 ・発話分割しなくても、まぁまぁ理解できる。 とはいえ、発話分割案も今度やってみる ・Amazon Transcribe 日本語対応を待つのみ…!! 2019/3/6時点は、5ヶ国語 英語
(米国)、スペイン語 (米国)、英語 (オーストラリア)、 英語 (英国)、フランス語 (カナダ)
30.
ご静聴いただき、ありがとうございました
Download now