SlideShare a Scribd company logo
1 of 25
Download to read offline
2015/06
ローリングハッシュと
Suffix Array
北海道大学 情報知識ネットワーク研究室
情報理工学専攻 修士 1年
栗田 和宏
1
部分文字列検索
✤ テキストT:検索する文字列

テキスト長をnとする.
✤ パターンP:見つけたい文字列

パターン長をmとする.
✤ 自明な方法:O(nm)
2
ナイーブな部分文字列検索
✤ テキスト:abracadabra

パターン:abr
3
abracadabra
abr
ナイーブな部分文字列検索
✤ テキスト:abracadabra

パターン:abr
4
abracadabra
abr
ナイーブな部分文字列検索
✤ テキスト:abracadabra

パターン:abr
5
abracadabra
abr
ナイーブな部分文字列検索
✤ テキスト:abracadabra

パターン:abr
6
abracadabra
abr
ナイーブな部分文字列検索
✤ テキスト:abracadabra

パターン:abr
7
abracadabra
abr
この方法では部分文字列検索に

O(nm)時間かかる
高速な文字列検索
✤ ローリングハッシュを使おう!
✤ 文字列を値にするハッシュ関数を用いて値が一致した
時に文字列が一致したとする.
8
高速な文字列検索
✤ ローリングハッシュを使おう!
✤ 文字列を値にするハッシュ関数を用いて値が一致した
時に文字列が一致したとする.
✤ その前にハッシュとは何か知っていますか?
9
ハッシュとは?
10
https://ja.wikipedia.org/wiki/%E3%83%8F
%E3%83%83%E3%82%B7%E3%83%A5%E9%96%A2%E6%95%B0
ローリングハッシュ
✤ 文字1文字を値とし,その値と基数の積の総和をハッ
シュ値とするハッシュ関数を使う.
11
ローリングハッシュ
✤ 文字1文字を値とし,その値と基数の積の総和をハッ
シュ値とするハッシュ関数を使う.
12
abr = 1*10^2 + 2*10^1 + 5*10^0

= 125
a = 1, b = 2, r = 5, 基数:10
ハッシュ値の計算
✤ 愚直にハッシュ値を毎回計算するとハッシュ値の計算
にO(m)時間かかり,結局O(nm)時間かかってしまう.
13
ハッシュ値の計算
✤ 愚直にハッシュ値を毎回計算するとハッシュ値の計算
にO(m)時間かかり,結局O(nm)時間かかってしまう.
✤ なので,ローリングしながらハッシュ値を計算するこ
とで毎回のハッシュ値計算をO(1)時間にする.
14
ハッシュ値の計算
15
abracadabra
125
abra = 125
ハッシュ値の計算
16
abracadabra
251
abra = 125
ハッシュ値の計算
17
abracadabra
513
abra = 125
ハッシュ値の計算
18
abracadabra
513
1つ前のハッシュ値に基数をかけ,新しい

文字に対応する値を足し,先頭文字に対応

する値を引く.
abra = 125
接尾辞配列(Suffix array)
19
✤ 文字列のある場所から末尾までの文字列を接尾辞

という.
✤ 1つの文字列のすべての接尾辞を辞書順にソートした
ものを接尾辞配列という.
✤ 自明にO(n2log n)で作れる.
接尾辞配列の例
20
✤ abracadabraの接尾辞配列

接尾辞配列で何ができるか?
21
✤ 文字列の検索(さっきと同じ問題)がO(m log n)で

解ける.場合によってはローリングハッシュよりも

高速に解ける.
✤ LCP Array(Longest Common Prefix Array)との

組み合わせで繰り返し出現する部分文字列を見つける
ことができる.(他にもいろいろできるっぽい)
記号の説明
✤ 接尾辞配列のO(n(log n)2)時間構築アルゴリズムを

紹介する.
✤ S[i, k]:文字列Sのi文字目からk文字の部分文字列
✤ rankk(i):S[i, k]がすべてのk文字の部分文字列を

ソートした時に何番目に小さいか
22
接尾辞配列の構築
✤ 基本的なアイディアはダブリングである.
✤ rankk(i)とrank2k(i)のペアをソートすることでi文字目
からi + 2k文字目まではソートされる
✤ rankのソートをlog n回行うことでO(n (log n)2)で

構築可能
23
接尾辞配列の構築
24
sa[i] S[sa[i], 2] S[sa[i], 4] rank2(sa[i]) rank2(sa[i] + 2)
11 emp emp 0 -1
10 a a 1 -1
0 ab abra 2 8
7 ab abra 2 8
3 ac acad 3 4
5 ad adab 4 2
1 br bra 5 1
最新の接尾辞配列の構築法
✤ SA-ISという手法で線形時間構築が可能!

(俺には理解できませんでした.)
25

More Related Content

Viewers also liked

Crowd-funding-makes-it-easier-for-local-artists
Crowd-funding-makes-it-easier-for-local-artistsCrowd-funding-makes-it-easier-for-local-artists
Crowd-funding-makes-it-easier-for-local-artists
Sherouk Zakaria
 

Viewers also liked (7)

2 & 3 bhk flats in noida extension @ 9873516559
2 & 3 bhk flats in noida extension @ 98735165592 & 3 bhk flats in noida extension @ 9873516559
2 & 3 bhk flats in noida extension @ 9873516559
 
Triptico copia
Triptico   copiaTriptico   copia
Triptico copia
 
보라쇼 프랑크푸르트 도서전 유람기
보라쇼 프랑크푸르트 도서전 유람기보라쇼 프랑크푸르트 도서전 유람기
보라쇼 프랑크푸르트 도서전 유람기
 
Crowd-funding-makes-it-easier-for-local-artists
Crowd-funding-makes-it-easier-for-local-artistsCrowd-funding-makes-it-easier-for-local-artists
Crowd-funding-makes-it-easier-for-local-artists
 
dr Agata Dulnik - Supporting leadership effectiveness during times of rapid o...
dr Agata Dulnik - Supporting leadership effectiveness during times of rapid o...dr Agata Dulnik - Supporting leadership effectiveness during times of rapid o...
dr Agata Dulnik - Supporting leadership effectiveness during times of rapid o...
 
Amazon ML(あるいは他社のサービス)の簡単なデモレベルはやったことあるけど、それっきりってエンジニアに聞いてほしいですね
Amazon ML(あるいは他社のサービス)の簡単なデモレベルはやったことあるけど、それっきりってエンジニアに聞いてほしいですねAmazon ML(あるいは他社のサービス)の簡単なデモレベルはやったことあるけど、それっきりってエンジニアに聞いてほしいですね
Amazon ML(あるいは他社のサービス)の簡単なデモレベルはやったことあるけど、それっきりってエンジニアに聞いてほしいですね
 
Tension Pneumo-Orbit:A Rare Tension
Tension Pneumo-Orbit:A Rare TensionTension Pneumo-Orbit:A Rare Tension
Tension Pneumo-Orbit:A Rare Tension
 

More from HCPC: 北海道大学競技プログラミングサークル

More from HCPC: 北海道大学競技プログラミングサークル (20)

写像 12 相
写像 12 相写像 12 相
写像 12 相
 
ACPC 2017 Day3 F: 掛け算は楽しい
ACPC 2017 Day3 F: 掛け算は楽しいACPC 2017 Day3 F: 掛け算は楽しい
ACPC 2017 Day3 F: 掛け算は楽しい
 
ACPC 2017 Day3 D: 優柔不断
ACPC 2017 Day3 D: 優柔不断ACPC 2017 Day3 D: 優柔不断
ACPC 2017 Day3 D: 優柔不断
 
ACPC 2019 Day3 G: Restricted DFS
ACPC 2019 Day3 G: Restricted DFSACPC 2019 Day3 G: Restricted DFS
ACPC 2019 Day3 G: Restricted DFS
 
ACPC 2019 Day3 F: 部分文字列分解
ACPC 2019 Day3 F: 部分文字列分解ACPC 2019 Day3 F: 部分文字列分解
ACPC 2019 Day3 F: 部分文字列分解
 
ACPC 2019 Day3 E: 総和の切り取り
ACPC 2019 Day3 E: 総和の切り取りACPC 2019 Day3 E: 総和の切り取り
ACPC 2019 Day3 E: 総和の切り取り
 
ACPC 2019 Day3 B: パフェ
ACPC 2019 Day3 B: パフェACPC 2019 Day3 B: パフェ
ACPC 2019 Day3 B: パフェ
 
ACPC 2019 Day3 A: 間違い探し
ACPC 2019 Day3 A: 間違い探しACPC 2019 Day3 A: 間違い探し
ACPC 2019 Day3 A: 間違い探し
 
HUPC 2019 Day2 G: 木
HUPC 2019 Day2 G: 木HUPC 2019 Day2 G: 木
HUPC 2019 Day2 G: 木
 
HUPC 2019 Day2 E: ジャム
HUPC 2019 Day2 E: ジャムHUPC 2019 Day2 E: ジャム
HUPC 2019 Day2 E: ジャム
 
HUPC 2019 Day2 H: Revenge of UMG
HUPC 2019 Day2 H: Revenge of UMGHUPC 2019 Day2 H: Revenge of UMG
HUPC 2019 Day2 H: Revenge of UMG
 
HUPC 2019 Day2 F: MOD Rush
HUPC 2019 Day2 F: MOD RushHUPC 2019 Day2 F: MOD Rush
HUPC 2019 Day2 F: MOD Rush
 
HUPC 2019 Day2 C: 串刺し
HUPC 2019 Day2 C: 串刺しHUPC 2019 Day2 C: 串刺し
HUPC 2019 Day2 C: 串刺し
 
HUPC 2019 Day1 F: グリッドの番号
HUPC 2019 Day1 F: グリッドの番号HUPC 2019 Day1 F: グリッドの番号
HUPC 2019 Day1 F: グリッドの番号
 
HUPC 2019 Day1 E: 最短経路の復元
HUPC 2019 Day1 E: 最短経路の復元HUPC 2019 Day1 E: 最短経路の復元
HUPC 2019 Day1 E: 最短経路の復元
 
HUPC 2019 Day1 D: 貪欲が最適?
HUPC 2019 Day1 D: 貪欲が最適?HUPC 2019 Day1 D: 貪欲が最適?
HUPC 2019 Day1 D: 貪欲が最適?
 
HUPC 2019 Day1 C: 短絡評価
HUPC 2019 Day1 C: 短絡評価HUPC 2019 Day1 C: 短絡評価
HUPC 2019 Day1 C: 短絡評価
 
HUPC 2019 Day1 B: 自身の 2 倍
HUPC 2019 Day1 B: 自身の 2 倍HUPC 2019 Day1 B: 自身の 2 倍
HUPC 2019 Day1 B: 自身の 2 倍
 
HUPC 2019 Day1 A: four tea
HUPC 2019 Day1 A: four teaHUPC 2019 Day1 A: four tea
HUPC 2019 Day1 A: four tea
 
Convex Hull Trick
Convex Hull TrickConvex Hull Trick
Convex Hull Trick
 

Recently uploaded

Recently uploaded (12)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 

Rolling hash