45. AI x Search - 非構造化データ検索実装例
Liberty Of Corom
• プロジェクト概要
• スマホ、メール、スキャナを問いしてアップロードされたドキュメントや画像をデータ解析パイプライ
ンにかけて検索可能にするための一連のパイプラインを提供する。データ解析にMicrosoft Cognitive
Servicesを、全文検索エンジンにAzure Searchを利用
• プロジェクトサイト
• ソースコード: https://github.com/Corom/LibraryOfCorom
• 紹介ビデオ: https://channel9.msdn.com/Events/Build/2017/B8081#time=5m30s
46. • プロジェクト概要
• メディア x 音声認識 x 機械翻訳 x 全文検索
• ウェブフロント(コンテナ)、データ生成ワークフロー
全てサーバレスで実現
• ワークフロー
• ストレージコンテナにアップロードされた動画ファイル
をAzure Media Analyticsパイプラインを通じて映像
キャプション取得
• Microsoft Translatorにより多言語サブタイトル取得
• キャプション、サブタイトルは全文検索のためAzure
Searchでインデックス化
• 上記一連のワークフローはLogic App、Functionsにより
完全自動化
• プロジェクトサイト
• https://github.com/shigeyf/ai-digitalmedia
AI x Search - 非構造化データ検索実装例
AI Digital Media
最初のASの特徴として完全マネージドでスケーラブルといったが、どうスケーラブルなのかというと
検索負荷(QPS)に対してもデータサイズの増加の両面でスケーラブルである
ASはレプリカ x パーティションのスケールマトリクスがある
レプリカ: 多重度
パーティション: データ分割度
レプリカ x パーティションでそれぞれ検索リクエストの負荷 x データサイズの増大に対してスケール
APIやポータルから変更可能
検索対象データについて整理する
1.データソース
2.データ種類
Apache Tika : Javaで開発されたドキュメント分析およびメタデータ抽出ツールキット(PPT, XLS, and PDF)
画像認識、音声認識、テキスト認識など、ディープ ラーニング手法による大きなコンピューティングパワーを必要とする処理などを Azure の API Service として提供。
OCR/images – full text search
https://azure.microsoft.com/en-us/blog/how-to-leverage-ocr-to-full-text-search-your-images-within-azure-search/
多様な書式・形式で存在する膨大な情報資産を分析・活用したり、情報発信するための情報基盤の構築にAzureを採用
生のデータ (非構造化データ) を一元管理する Azure Cosmos DB や Azure Data Lake Store 、
Excel などさまざまなドキュメントの情報を任意に検索できる検索機能として Azure Search
これまでよくいただいた質問にスケーラブルといってもPaaSなので大規模向けは無理ですよね?
→ たしかに制限はあります。が・・ 2016/11にS3 + S3 HDが出ました
2016/11/15 - Azure Search S3 と S3 High Density の一般提供開始
S3HDは Standard 3 High Density is designed for a large number of smaller indexes。 S3のオプションとして選択可能
SKUの選択について https://docs.microsoft.com/en-us/azure/search/search-sku-tier
注意点: Basic->Standardのような自動アップグレードができない(2016-10時点)
Allow to upgrade the pricing tier
https://feedback.azure.com/forums/263029-azure-search/suggestions/12931110-allow-to-upgrade-the-pricing-tier
NEED UPDATE
https://azure.microsoft.com/ja-jp/pricing/details/search/
https://azure.microsoft.com/ja-jp/documentation/articles/search-limits-quotas-capacity/