SlideShare a Scribd company logo
1 of 28
Download to read offline
ログ解析基盤における
ストリーム処理パイプラインについて
斎藤貴文
1
自己紹介
● 名前
○ 斎藤貴文
● 所属
○ 株式会社サイバーエージェント秋葉原ラボ
● 担当案件
○ データ転送管理基盤開発・運用
○ 効果計測ツール開発・運用
○ アクセス解析システム開発・運用
○ ステートフルストリーム処理基盤開発
○ ストリーム処理・データフローについて色々やっていたり
2
はじめに
3
● 今回の発表内容は初心者~中級者向けです
○ 実装の具体的な話はあまりしません
● このスライドにはOSSがいくつか出てきますが、
OSS固有の話はしません
○ 皆さん馴染みのOSSに脳内変換して問題ございません
■ Flume → Fluentd, Logstash
■ Kafka → Kinesis Stream, Google Cloud Pub/Sub, Palser
■ Hive → Pig, BigQuery, Redshift, Presto, Impala
● CADEDAの発表から加筆修正しています
目次
● 背景
○ ログ解析基盤Patriotについて
○ Patriotにおけるストリーム処理
● ストリーム処理パイプライン
○ ストリーム処理パイプラインの変遷
○ ストリーム処理パイプラインにおける遅延ログ問題
● 現在の取り組み
○ ストリーム処理
○ ストリーム処理以外
4
目次
● 背景
○ ログ解析基盤Patriotについて
○ Patriotにおけるストリーム処理
● ストリーム処理パイプライン
○ ストリーム処理パイプラインの変遷
○ ストリーム処理パイプラインにおける遅延ログ問題
● 現在の取り組み
○ ストリーム処理
○ ストリーム処理以外
5
Patriotについて
● メディアサービスのデータ解析基盤
○ OSSベースのデータ解析基盤
■ HDFS, YARN, Hive, Flume, Presto, Spark, HBase, etc.
○ 内製化したパッケージを利用
● 過去の発表
○ 内製パッケージによるHadoopデータ解析基盤の構築と運用
○ 最新版Hadoopクラスタを運用して得られたもの
○ Presto on YARNの導入・運用
○ サイバージェント 秋葉原ラボのHBase 活用事例
■ PatriotにおけるHBaseの利用事例を紹介
6
Patriotのシステム概要
7
システム構成
リアルタイム処理基盤
MySQL
etc...
機械学習基盤
HTTP API /
WebUI
データ
転送管理
Log
Patriot
Patriotにおけるストリーム処理
● ログの転送
○ サービスにおけるユーザの行動ログを適切な場所に転送
● ログのフィルタリング
○ ログスキーマに則ったバリデーション等
● ログの加工
○ Online Joiner等
● リアルタイム集計
○ 秋葉原ラボのプロダクトとしてはZeroが担当
8
目次
● 背景
○ ログ解析基盤Patriotについて
○ Patriotにおけるストリーム処理
● ストリーム処理パイプライン
○ ストリーム処理パイプラインの変遷
○ ストリーム処理パイプラインにおける遅延ログ問題
● 現在の取り組み
○ ストリーム処理
○ ストリーム処理以外の取り組み
9
Apache Flumeの導入(2012~)
● Apache Flume
○ ストリーミングでイベントを転送先にPushするミドルウェア
● Patriotのストリーム処理パイプライン
○ Webサーバに常駐するエージェントがログの追記毎にログを転送
○ Aggregatorと呼ばれるFlumeサーバに集約し処理系に転送
○ Aggregatorをつなげることでパイプラインを構築
■ Patriot以外の社内処理基盤などに転送
処理系A
10
Aggragator
Aggragator
処理系B
Apache Flume導入直後の課題
● Flumeの転送先増加に伴うパイプラインの硬直化
○ Aggregatorに様々な条件の転送設定を追加
○ 転送設定が複雑化し転送状況の把握や転送の変更が困難
○ 扱える人間が限られて属人化
転送先
Aggragator
転送先
転送先
11
転送管理システムの開発(2014~)
● ログの転送時にDBの転送設定を参照
● オンラインで転送設定を変更可能
○ 管理画面から登録済み転送先を変更可能
○ フィルタリング処理も可能
転送先
Aggragator
転送先
転送先
DB
12
● さらなるパイプラインの拡大
○ Zeroの登場などストリーム処理のニーズ増加
○ パブリッククラウドへの転送
● Flume(Push型転送)の問題が露呈
○ Back Pressure問題
■ Flume Aggregatorの処理が詰まると転送元のAggregatorも転送不能
■ パイプラインが大きくなるとそれだけ影響範囲が拡大
○ 転送先が更に増え管理コスト増加
転送管理システム導入後
転送できなくなるので
処理が詰まる
13
Apache Kafkaの導入(2016~)
● Apache Kafka
○ 分散Pub/Subシステム
● 転送先で処理が詰まっても転送元には影響は無い
○ Kafkaにデータが貯まるだけ
● 転送元で転送先の管理不要
○ 転送先が必要なデータを取捨選択可能
転送先
必要なデータストリームを
転送先で選択可能
処理系が詰まっても転送
14
現在
● Apache Kafkaをデータハブとして活用
○ データ転送中に容易にデータの加工が可能
● ストリーム転送パイプラインは更に拡大
○ 課題も増え戦いは続く。。。
転送先
15
Kafkaを経由してログの変換を実現
目次
● 背景
○ ログ解析基盤Patriotについて
○ Patriotにおけるストリーム処理
● ストリーム処理パイプライン
○ ストリーム処理パイプラインの変遷
○ ストリーム処理パイプラインにおける遅延ログ問題
● 現在の取り組み
○ ストリーム処理
○ ストリーム処理以外の取り組み
16
遅延ログ問題のあらすじ
17
● ネイティブアプリの登場によってそれまで起こらなかった問題が発生
○ 常に遅延したログが処理系に到着する状況の発生
○ 集計毎に入力データが変動し処理の冪等性を担保するのが困難
○ 2015年ごろ
● 問題の詳細と解決策について紹介
処理系Webサーバ
ストリーム処理
パイプライン
バッチ処理で集計を実行
FlumeやKafkaなど転送を担う
コンポーネントで構成
ログを受け取るサーバ
パイプラインの入り口
● ユーザの行動はWebサーバで処理されるためログはWebサーバで発生
● 処理系は必要なログが全て到達してからバッチ処理を実行
○ 負荷高騰等によってパイプラインで遅延が発生することもある
○ パイプラインは管理下にあるので
遅延が解消されるまで待ってからバッチ処理を実行
処理系Webサーバ
ネイティブアプリの登場以前
Webサービス
ストリーム処理
パイプライン
18
処理系Webサーバ
ストリーム処理
パイプライン
● ネイティブアプリではユーザの行動をアプリで処理するため
ログはユーザのデバイス上で発生
● ネイティブアプリのログの転送タイミングはコントロール不可能
ネイティブアプリの登場
(((((
19
00:00
ログ発生
01:30
発火
処理系Webサーバ
ストリーム処理
パイプライン
● 集計への影響
○ ネイティブアプリのログの転送は管理できないので
常に遅延したログが届くという状況
○ 遅延したログが後で届いた場合、集計の結果が変動
ネイティブアプリの登場
(((((
20
00:00
ログ発生
処理系
01:30
発火
01:00集計の0時台のカウントは0
02:00集計の0時台のカウントは1
① ②
③ ④
遅延ログによって生じる問題
21
● 集計に冪等性が保てない
○ バッチ処理の集計とは一度だけではない
■ パイプラインで遅延が生じていたとき
■ ログをバックアップから再取り込みするとき
○ 冪等性を確保できないということは正確な集計ができないことと同義
● 実行タイミングを決めることができない
○ 遅延ログが常に届くので集計時刻を遅らせた方が集計値は大きくなる
○ しかしログを待ち続けているといつまでも集計を開始できない
→ そのため集計の冪等性を保ちつつ
 実行タイミングを適切に決定するための仕組みが必要
解決策:2つの時刻の導入
● ログの発生時刻だけではどこで遅延したのか判別不可能
○ 管理可能な遅延と管理不可能な遅延が混在
● 発生時刻に加えてパイプラインへの到着時刻をログに付与
○ Webサービスの場合、発生時刻と到着時刻は等しい
○ ネイティブアプリのログはWebサーバに到着した時点の時刻を付与
ネイティブアプリ 発生時刻
ストリーム処理
パイプライン
Webサービス 発生時刻=到着時
刻
到着時刻
22
解決策:DataFlow Model*の導入
● DataFlow Modelを参考にデータの選定ルールを決定
○ ログの発生時刻だけでなくwatermark(到着時刻の最新値)を
基準に入力データの範囲と処理開始時刻を決定
● watermarkを導入することで集計の冪等性を実現し
実行タイミングを決定
○ 入力データの範囲は発生時刻とwatermarkによって決定
■ watermarkよりも後に到着したログは無視することで
処理のタイミングを問わず常に同じ結果を算出可能
○ watermarkが規定の時刻に到達した時点で処理を開始
23* [The Dataflow Model: A Practical Approach to Balancing Correctness, Latency, and Cost in Massive-Scale, Unbounded, Out-of-Order Data Processing Akidau et al.,2015]
到着時刻に関係しないので
watermarkには影響しない
遅延によって
watermarkに影響が及ぶ
解決策:実装編
● ログフォーマットの統一
○ 時刻の配置やネイティブアプリとWebサーバのログの識別等
○ フォーマットについては過去にデータの品質管理で紹介
● 到着時刻の付与
○ Webサーバでログに変換するときに付与
○ Flumeの転送中に付与
■ Interceptorを追加するだけで実現
● データの選定ルール
○ Hiveのクエリで実現
24
発生時刻(event_time)の範囲
watermarkの範囲
到着時刻+1時間まで許容
目次
● 背景
○ ログ解析基盤Patriotについて
○ Patriotにおけるストリーム処理
● ストリーム処理パイプライン
○ ストリーム処理パイプラインの変遷
○ ストリーム処理パイプラインにおける遅延ログ問題
● 現在の取り組み
○ ストリーム処理
○ ストリーム処理以外の取り組み
25
ストリーム処理に関する取り組み
● ステートフルストリーム処理基盤Phalanx
○ ストリーム処理でステートフルデータの変更を実現する際に
CRDT*を利用することで更新操作を簡略的に表現可能
○ DEIM 2018で発表
● ストリーム処理パイプライン管理基盤
○ パイプラインに必要な簡単な処理だけを提供
■ ログの加工、ログの選択
○ 誰でも容易にパイプライン処理の追加を可能にするのが目的
* [Conflict-free Replicated Data TypesShapiro et al.,2011]
26
ストリーム処理以外の取り組み
● Zeppelin
○ Sparkなど分散処理環境へのアクセシビリティ向上
○ 解析方法・結果の共有を容易に
● Kudu
○ Fast Data処理向けに試験的に導入中
● Hadoopクラスタ管理ツールの開発
○ 各プロセスの開始・停止、Rolling Restart/Upgrade
○ Zookeeper経由でGitと連携し設定変更など
● バッチ系データフローのオープン化
○ 誰でも自由にシステム横断してバッチ処理のデータフロー管理が可能
○ 機械学習エンジニア・データ活用エンジニアの利用を想定
27
終
28

More Related Content

What's hot

インフラエンジニアのためのcassandra入門
インフラエンジニアのためのcassandra入門インフラエンジニアのためのcassandra入門
インフラエンジニアのためのcassandra入門
Akihiro Kuwano
 

What's hot (20)

インフラエンジニアのためのcassandra入門
インフラエンジニアのためのcassandra入門インフラエンジニアのためのcassandra入門
インフラエンジニアのためのcassandra入門
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
 
Fluentdのお勧めシステム構成パターン
Fluentdのお勧めシステム構成パターンFluentdのお勧めシステム構成パターン
Fluentdのお勧めシステム構成パターン
 
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
 
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!
 
Slurmのジョブスケジューリングと実装
Slurmのジョブスケジューリングと実装Slurmのジョブスケジューリングと実装
Slurmのジョブスケジューリングと実装
 
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
 
エンジニアの個人ブランディングと技術組織
エンジニアの個人ブランディングと技術組織エンジニアの個人ブランディングと技術組織
エンジニアの個人ブランディングと技術組織
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
 
分散システムの限界について知ろう
分散システムの限界について知ろう分散システムの限界について知ろう
分散システムの限界について知ろう
 
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
 
AWSのログ管理ベストプラクティス
AWSのログ管理ベストプラクティスAWSのログ管理ベストプラクティス
AWSのログ管理ベストプラクティス
 
KafkaとAWS Kinesisの比較
KafkaとAWS Kinesisの比較KafkaとAWS Kinesisの比較
KafkaとAWS Kinesisの比較
 
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache FlinkIoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
 
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
 
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
 
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
 

Similar to ログ解析基盤におけるストリーム処理パイプラインについて

hbstudy#6LTyuzorock
hbstudy#6LTyuzorockhbstudy#6LTyuzorock
hbstudy#6LTyuzorock
yuzorock
 
OpenStack Object Storage; Usage
OpenStack Object Storage; UsageOpenStack Object Storage; Usage
OpenStack Object Storage; Usage
irix_jp
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies
 
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
Takahiro Inoue
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
Recruit Technologies
 
DLR言語によるSilverlightプログラミング
DLR言語によるSilverlightプログラミングDLR言語によるSilverlightプログラミング
DLR言語によるSilverlightプログラミング
terurou
 

Similar to ログ解析基盤におけるストリーム処理パイプラインについて (20)

EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤とEmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
 
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤とEmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
 
AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月
AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月
AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月
 
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか  by 日本ヒューレット・パッカード株式会社 後藤宏[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか  by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
 
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
 
ソフトウェアエンジニアと高位合成
ソフトウェアエンジニアと高位合成ソフトウェアエンジニアと高位合成
ソフトウェアエンジニアと高位合成
 
ビビッド・パワポ・オペレーションβ ~エンジニアのための、ゆるふわパワポ術~(qpstudy 2013.01 LT)
ビビッド・パワポ・オペレーションβ ~エンジニアのための、ゆるふわパワポ術~(qpstudy 2013.01 LT)ビビッド・パワポ・オペレーションβ ~エンジニアのための、ゆるふわパワポ術~(qpstudy 2013.01 LT)
ビビッド・パワポ・オペレーションβ ~エンジニアのための、ゆるふわパワポ術~(qpstudy 2013.01 LT)
 
hbstudy#6LTyuzorock
hbstudy#6LTyuzorockhbstudy#6LTyuzorock
hbstudy#6LTyuzorock
 
Hadoop事始め
Hadoop事始めHadoop事始め
Hadoop事始め
 
20140120 presto meetup
20140120 presto meetup20140120 presto meetup
20140120 presto meetup
 
OpenStack Object Storage; Usage
OpenStack Object Storage; UsageOpenStack Object Storage; Usage
OpenStack Object Storage; Usage
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
 
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
PostgreSQLのトラブルシューティング@第5回中国地方DB勉強会
PostgreSQLのトラブルシューティング@第5回中国地方DB勉強会PostgreSQLのトラブルシューティング@第5回中国地方DB勉強会
PostgreSQLのトラブルシューティング@第5回中国地方DB勉強会
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
 
DLR言語によるSilverlightプログラミング
DLR言語によるSilverlightプログラミングDLR言語によるSilverlightプログラミング
DLR言語によるSilverlightプログラミング
 
Drupal補完計画
Drupal補完計画Drupal補完計画
Drupal補完計画
 

More from cyberagent

More from cyberagent (20)

WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
WWW2019で見るモバイルコンピューティングの技術と動向    山本悠ニWWW2019で見るモバイルコンピューティングの技術と動向    山本悠ニ
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
 
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」    角田孝昭Web フィルタリング最前線: 「「検閲回避」回避」    角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
 
WebにおけるHuman Dynamics 武内慎
WebにおけるHuman Dynamics    武内慎WebにおけるHuman Dynamics    武内慎
WebにおけるHuman Dynamics 武内慎
 
Webと経済学 數見拓朗
Webと経済学    數見拓朗Webと経済学    數見拓朗
Webと経済学 數見拓朗
 
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みData Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
 
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
 
AbemaTVにおける推薦システム
AbemaTVにおける推薦システムAbemaTVにおける推薦システム
AbemaTVにおける推薦システム
 
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポートAbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
 
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
 
インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷
 
番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介
 
WWW2018 論文読み会  Webと経済学
 WWW2018 論文読み会  Webと経済学 WWW2018 論文読み会  Webと経済学
WWW2018 論文読み会  Webと経済学
 
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman DynamicsWWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman Dynamics
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
 
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
 
Orion an integrated multimedia content moderation system for web services
Orion  an integrated multimedia content moderation system for web servicesOrion  an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
 
Orion an integrated multimedia content moderation system for web services
Orion  an integrated multimedia content moderation system for web servicesOrion  an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
 
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
 
"マルチメディア機械学習" の取り組み
"マルチメディア機械学習"  の取り組み"マルチメディア機械学習"  の取り組み
"マルチメディア機械学習" の取り組み
 
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
 

ログ解析基盤におけるストリーム処理パイプラインについて