SlideShare a Scribd company logo
1 of 29
研究課題:Ameba における絵文字




  新規開発局 プログラマ
      大平哲也




        1
1     はじめに
Ameba の各種サービス上で、絵文字がどのように扱われているか調査を行った。
動機としては以下2点である。
・ データの蓄積
    携帯電話コンテンツのオープン化が進み、いわゆる CGM サイトと呼ばれるブロ
       グ や SNS 系 の サ ー ビ ス も 多 く が 携 帯 電 話 に 間 口 を 開 い て い る 。
       Ameba についても例外でなく、「アメーバブログ 1 」や「Ameba なう2 」などを
       筆頭に、携帯から閲覧投稿できるのみでなく、携帯絵文字データを含んだメッセ
       ージをサービス上で使用可能になっている。その結果として、絵文字についても
       データ解析に必要十分なデータが蓄積され、解析するための環境が整った。
    メッセージ性の強いコミュニケーション目的の自然文の中でどのように絵文字が
       使用されているか、については、かつてはキャリア網を流れるメールメッセージ
       データを用いてのみ分析が可能であったが、CGM サービスの興隆によりキャリ
       ア外のユーザでも把握できるようになった。

・ 絵文字利用状況の把握への欲求
   上述の蓄積されたデータを元に絵文字の利用状況を解析することで、CGM サイ
    トの中での絵文字の使用傾向や、どんな意図・文脈で使われているかの把握がで
    きる。
   同種の解析結果については、「WebDB Forum20093 」にて百度(バイドゥ)の基
    調講演にて携帯サイト全般における絵文字の使用傾向が示された 4 が、CGM サイ
    トを対象としたものは少なくとも Web 上での文献では存在しないため、当該調査
    を行うことで社内外へのなにかしらの貢献にもつながるのではないか、と判断し
    た。

2     本論の流れ
本論では、以下の2段階の流れで調査した内容を記す
  Ameba サービスにおける絵文字の扱われ方
  Ameba サービス内での絵文字の使用傾向

まず始めに、Ameba サービスの機能仕様として、絵文字がどのように扱われているかを調
査した。具体的には、携帯絵文字と PC 固有の絵文字(Ameba 絵文字)の相互変換の仕様
やマッピングテーブルについて、である。あわせて最近の潮流も加味した上で、問題点の
指摘やサービス改善に向けての提案を行う。

次に、Ameba サービスに対して投稿された絵文字データを元に、絵文字の使用傾向の解析
を行った。今回は「絵文字の使用頻度」と「絵文字の文意解析(ある絵文字がどんな文脈
で使われているか)」、「絵文字の使用者属性(どんな属性・・・性別、年齢・・・のユ
ーザが使用しているか)」について調査を実施した。その結果と、そこから見える傾向や
分析結果について記す。




1
    アメーバブログ.ブログサービス http://ameblo.jp/
2
    Ameba なう.マイクロブログサービス http://now.ameba.jp/
3
    http://db-event.jpn.org/webdbf2009/
4
    http://internet.watch.impress.co.jp/docs/event/webdb2009/20091120_330426.html




                                                 2
3     Ameba サービスにおける絵文字の扱われ方
   3.1 Ameba サービスにおける絵文字の種類
Ameba には「Ameba 絵文字」と「みんなの絵文字」の2種類が存在する。
・ Ameba 絵文字
    Ameba サ ー ビ ス が 用 意 し て い る 絵 文 字 。
       一部絵文字については、サービスによっては PC-携帯間の相互変換を実施してい
       る(相互変換については後述する)
・ みんなの絵文字1
    ユーザがドット絵によって絵文字を作成する事ができる機能。作成した絵文字は
       他ユーザが利用してブログ記事などを書いたりすることができる。
それぞれ PC インターフェースでの使用を想定しており、絵文字の実体は画像ファイルで
ある。
(Ameba 絵文字:PNG、みんなの絵文字:GIF)

   3.2 各サービスにおける絵文字の使用可否
Ameba サービスで絵文字が使用できるサービスは以下4つとなる。2
それぞれの対応を表としてまとめる。
   サービス名       Ameba 絵文字貼付   相互変換                                           みんなの絵文字貼付
アメーバブログ       ○            △                                                ○
Ameba なう      ○            ○                                                ×
アメばた会議   3    ○            ○                                                ×
Ameba メッセージ 4 ○            ×                                                ×
・ Ameba 絵文字貼付
    Ameba 絵文字が貼付け可能かどうか
・ 相互変換
    Ameba 絵文字について、PC 用の画像絵文字と、携帯のキャリア絵文字との相互
       変換が行われるかどうか
・ みんなの絵文字貼付
    「みんなの絵文字」が貼付け可能かどうか
※「アメーバブログ」については、携帯から投稿したキャリア絵文字は PC 閲覧時に
Ameba 絵文字に変換されるが、逆のケース(PC→携帯)は通常操作では変換されない


  3.3 Ameba 絵文字と携帯絵文字の相互変換
 一部の Ameba 絵文字については、携帯キャリア絵文字との相互変換を実施している。
 相互変換とは以下のような状況を指す。
・ PC から投稿した Ameba 絵文字(画像)を含むコンテンツが、携帯電話から閲覧した
  際に携帯キャリア絵文字で表示される
・ 携帯電話から投稿したキャリア絵文字を含むコンテンツが、PC から閲覧した際に
  Ameba 絵文字(画像)で表示される。

    Ameba 絵文字⇔携帯絵文字のマッピングテーブルは、DoCoMo の絵文字変換機能5 にお
1
    http://helps.ameba.jp/faq/blog/article/post_98.html
2
    2010 年 2 月現在
3
    http://amebabbs.ameba.jp/
4
    http://msg.ameba.jp/
5
    http://www.nttdocomo.co.jp/service/communication/imode_mail/function/emoji_convert/index.html




                                                 3
ける各サービスとの変換テーブルをベースとして作成されている。




                                                                                   図 11

    たとえば図1を参考にすると、DoCoMo では「晴れ 」絵文字を au、SoftBank 宛に送
    信した場合、それぞれ「 」「 」といった意匠の似た絵文字に変換される。

    Ameba 絵文字についても、DoCoMo の絵文字と意匠の似た絵文字同士1対1で対応す
    るように絵文字をマッピングしており、「晴れ」の場合は「 」が対応している。
    「 」が PC から投稿された場合は、携帯上ではキャリアにより「 」「 」「 」に
    変換表示され、携帯電話から同種の絵文字が投稿された場合は、PC 上では「 」に変
    換表示される、ということである。

    な お 、 Ameba サ ー ビ ス で 絵 文 字 変 換 対 応 を し て い る 携 帯 キ ャ リ ア は 、
    DoCoMo、au、SoftBank(iPhone 除く)の三種である。

    すべての変換ルールについては、筆者作成の「アメーバ絵文字ツール 2 」(図2)により
    閲覧、検索が可能となっているので、参考まで。




1
      http://www.nttdocomo.co.jp/service/communication/imode_mail/function/emoji_convert/index.html
    より図引用
2
    http://nd-ilab.jp/emoji




                                                 4
図 2



  3.4 現在の Ameba 絵文字⇔携帯絵文字変換の問題点
調査を進めるうちにいくつかの問題点に気づいたので、以下列挙して指摘する。

 3.4.1 意匠・デザインのズレ
一部絵文字については、Ameba 絵文字と携帯キャリア絵文字のデザインや意味するものに
大きな差・ズレが生じている。
たとえば DoCoMo における i モードアイコン「 」は、Ameba 絵文字に変換されると「 」
のようにムンクの叫びのような絵文字に変換される。逆のケースで考えると、PC から「
 」という文脈・意図で投稿したユーザの思惑と離れて、携帯表示時にキャリアのサービ
スアイコン「 」が表示されてしまう、ということであり、問題がある。

同種の問題を抱えていると思われる絵文字について、以下図3に列挙する。
なお絵文字の並び順は、左から順に「Ameba 絵文字」「DoCoMo」「au」「SoftBank」
となり、空白の箇所は該当する絵文字が存在しないものとなる。




        図 3


なお、この種の問題は Ameba 固有の問題ではなく、絵文字の相互変換を行う際に生じる
問題でもある。たとえば DoCoMo は「地下鉄」の意匠を「 」としている(おそらく
Metro の”M”の意)が、他キャリアでは鉄道の意匠となっている(図4)。




                        5
図 4

DoCoMo の絵文字は見た目が「M」のため、「今日も で昼」のように「マクドナルド」
の意として使われるケースもあるとされる 1 が、他キャリア向けに同文章を変換すると各キ
ャリアとも地下鉄の意匠に変換表示されるため、意図が正確に伝わらなくなってしまう
(「今日も で昼」という意図では無いため)。

 3.4.2 フォールバック変換によるズレ
すべての絵文字が1対1で変換対応をしている訳ではなく、いくつかの絵文字が1つの絵
文字にマッピングされているケースが存在する。この現象は一般的にフォールバック
(fallback、一方通行)変換と呼ばれるが、該当すると変換された後に元の絵文字に復元
することができなくなるため、問題が生じるケースがある。

たとえば、DoCoMo における「 」「 」は au ではいずれも「 」にマッピングされてお
り、au から投稿した「 」が「 」「 」どちらにマッピングされるかは、サービス次第
となる2 。

 3.4.3 相互変換絵文字にマッピングされていない絵文字の扱い
DoCoMo は基本・拡張あわせて 252 の絵文字が存在し(隠し絵文字は除く)、Ameba に
ついても DoCoMo の絵文字に合わせて変換テーブルを作成しているが、 au、SoftBank と
もに 252 種以上の絵文字が用意されているため au・SoftBank 固有の絵文字を無視してい
ることになる。

Ameba では、多くのサービスで変換テーブルに対応しない絵文字については、投稿時に削
除する、という対応を行っており、au や SoftBank でのみ扱える絵文字が投稿できない。
たとえば au のモヤイ像「 」のような絵文字は、投稿時に削除される。

 3.4.4 イーモバイルや iPhone 絵文字への未対応
現在のところ、イーモバイル3 、iPhone 絵文字4 それぞれについては未対応である。

なお余談ではあるが、「アメーバブログ」向けの iPhone アプリ 5 が存在し、iPhone から
Ameba 絵文字が投稿可能な設計になっているが、iPhone から投稿した Ameba 絵文字付き
記事を DoCoMo、au、SoftBank のいずれの携帯で閲覧した場合でも、キャリア絵文字に
変換されずに画像のまま表示される。6


  3.5 改善の提案
上記を踏まえて、いくつか改善の提案をする。
・ Ameba 絵 文 字 ⇔ 3 キ ャ リ ア 携 帯 間 の 絵 文 字 の 意 匠 を 揃 え る 。
  具体的には「         」のようなものを適切なものに修正する、という事を指す。
・ 相互変換テーブルに対応していない絵文字が携帯から投稿された場合も、その携帯か
  ら閲覧した場合に絵文字として表示されるように機能修正をする。

1
    http://internet.watch.impress.co.jp/docs/event/webdb2009/20091120_330426.html
2
    http://japan.cnet.com/column/pers/media/story/0,2000058034,20390204-4,00.htm などを参考のこと
3
    http://emobile.jp/service/pdf/mail_change_200805.pdf
4
    http://www.studio-rose.com/emoji/emoji01.html に絵文字一覧が掲載されている
5
    http://content.ameba.jp/iphone_blog/
6
    2010年 2 月現在




                                             6
具体的には「 」が au から投稿された場合、少なくとも au の端末からは「 」と見
  えるようにする、という事を指す。
・ 少なくとも iPhone 絵文字については相互変換対応を行う
・ iPhone アプリの機能修正(投稿した Ameba 絵文字がキャリア絵文字に変換されるよ
  うにする)

4     Ameba サービス内での絵文字の使用傾向
続いて、Ameba サービスの中で扱われている絵文字の使用傾向について調査した。
今回は主に以下の観点に基づいて調査を行った。
・ 絵文字の使用頻度
・ 絵文字の文意解析
・ 絵文字の使用者属性

今回は以下の2つのサービスについて、ある期間の投稿記事中に使われている絵文字の傾
向解析を実施した。
・ Ameba なう
・ アメーバブログ

   4.1 絵文字の使用頻度
 4.1.1 Ameba なう
○ 使用データ
以下の期間のデータについて、つぶやき中の絵文字出現頻度を調査した。
期間              2009 年 12 月 10 日~2010 年1月13日
データ件数           約 540 万件(PC から:170 万/携帯から:370 万)

○ 出現頻度 ベスト20(PC・携帯総計)
出現頻度の高い絵文字ベスト20は以下のような結果となった。
なお下記は PC・携帯から投稿されたものの総数となる。
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.




                             7
14.
15.
16.
17.
18.
19.
20.

結果から類推できる傾向としては
・ 感情表現系の絵文字が多い(顔文字系など)
・ 文意文脈を補うアノテーション用途で使われているケースが多い(ビックリマーク、
  汗、音符、矢印など)。文章に絵文字を加味することで、文脈を適切に補っていると
  推察される。
といった事が挙げられる。

なお、今回の解析結果では、感情表現とは異なる文脈の絵文字の登場は 29 位の晴れ「 」
が最初である。アイテムや生き物系の絵文字としては 44 位のネコ「 」が初出であった。

「WebDB Forum2009」にて百度が発表した内容1 によると、携帯サイト全般でもっと多く
使われている絵文字は「 」であり、それ以外も「 」「 」など、サイトのナビゲーシ
ョンを示すアイコンとして多く使われる絵文字が頻度上位となっているが、明らかに今回
の結果は、携帯サイト全般の傾向とは異なることが伺える。
簡単にまとめると、以下のようになる。
          携帯サイト全般               CGM サイト(Ameba なう)
・ サイトナビゲーションのアイコンとし ・ 感情表現や、アノテーション系の絵文字
  て使われているケースが多い              が多い
・ 記号、数字、アイテム系の絵文字が多 ・ 顔や手など身体表現系のものが多い
  い

○ 出現頻度 グラフ(PC・携帯総計)
絵文字の出現頻度を円グラフでまとめたものを以下に記す。




1
    http://internet.watch.impress.co.jp/docs/event/webdb2009/20091120_330426.html の「絵文字頻度ラ
    ンキング」




                                             8
031   029   139


                               123   320   176


                               035   193   328


                               038   173   186


                               177   336   324


                               194   028   106


                               105   319   other

                                                   表 1

※凡例の数字は、Ameba 絵文字の絵文字 ID となる。ex.031→

出現頻度上位 10 位までの絵文字で全体の 41%、20 位のものまでで全体の 62%を占める。
なお、出現頻度上位 50 位までに登場する絵文字のうち、感情表現系の絵文字が占める割
合は、絵文字の種類としては 45/50 = 90%(感情表現系以外のものは「 」「 」「 」「
 」「 」のみ)となり、出現数の比率としては全体の 84%を占める。

○ 出現頻度ベスト10(携帯からのみ投稿)
上述の結果は PC・携帯を合わせたものであるが、PC からのみ投稿されたもの、携帯から
のみ投稿されたものについても出現頻度上位ベスト 10 を以下提示する。
結論としては、大きな傾向の差は見られない。
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

○ 出現頻度ベスト10(PC からのみ投稿)
1.




                         9
2.
3.
4.
5.
6.
7.
8.
9.
10.

 4.1.2 アメーバブログ(Ameba 絵文字)
「アメーバブログ」についても同種の調査を行った。

○ 使用データ
以下の期間のデータについて、記事中の絵文字出現頻度を調査した。
期間       2010 年1月 16 日~2010 年 2 月1 4 日
データ件数    約 1500 万件

○ 出現頻度 ベスト20(PC・携帯総計)
出現頻度の高い絵文字ベスト20は以下のような結果となった。
なお下記は PC・携帯から投稿されたものの総数となる。


1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.



                        10
16.
17.
18.
19.
20.

細かい順序が異なるものの、概ね「Ameba なう」と同じように感情表現・アノテーション
系の絵文字が多い、という傾向が見て取れる。

マイクロブログとブログサービスで、ユーザの使用するコンテキスト・ユースケースに若
干の差があると思われるものの、「何かしらのメッセージ性をもった文章を投稿する」と
いう意味では共通していることも傾向の類似性の要因と思われる。

○ 出現頻度 グラフ(PC・携帯総計)
絵文字の出現頻度を円グラフでまとめたものを以下に記す。
出現頻度上位 10 位までの絵文字で全体の 43%、20 位のものまでで全体の 62%を占め、上
位絵文字の出現比率については「Ameba なう」の解析結果と大体同じ傾向となっている。

                              031   123   029


                              176   139   035


                              038   173   039


                              320   193   194


                              028   186   319


                              175   106   089


                              178   105   other

                                                  表 2

 4.1.3 アメーバブログ(みんなの絵文字)
「アメーバブログ」では「みんなの絵文字」も使用可能なため、こちらについても調査を
行った。

○ 使用データ
以下の期間のデータについて、記事中の絵文字出現頻度を調査した。
期間       2010 年1月 16 日~2010 年 2 月1 4 日
データ件数    約 1500 万件

○ 出現頻度 ベスト20




                        11
出現頻度の高い絵文字ベスト20は以下のような結果となった。
「みんなの絵文字」は PC 向けのサービスなので、以下の結果は PC から投稿されたもの
のみの順位となる。

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
ユーザ作成の絵文字ということで、Ameba 絵文字や、携帯絵文字とは意匠は大きく異なる
ものもあるが、星が煌めくようなもの(「 」「 」「 」)やハート(「 」「
」)、顔文字(「 」「 」「 」「 」「 」)など、Ameba 絵文字の上位の結果と
同様に感情表現やアノテーションの意図・目的で使用されている絵文字が多いと類推され
る。

○ 出現頻度 グラフ
絵文字の出現頻度を円グラフでまとめたものを以下に記す。




                     12
~10          11~20



                                                          21~30        31~40



                                                          41~50        51~60



                                                          61~70        71~80



                                                          81~90        91~100



                                                          100~

                                                                                表 3

出現頻度上位 10 位までの絵文字で全体の 6%、20 位のものまでで全体の 9%、100 位まで
で 19%、という傾向で、出現頻度 100 位以下の絵文字のボリュームが 81%と非常に大きく
なっている。
Ameba 絵文字が約 340 種であるのに対し、「みんなの絵文字」の累計絵文字作成数は約
180 万個ということもあり、「みんなの絵文字」の使用傾向は CGM サービスらしく非常
にロングテールな傾向を示している事が伺える。

 4.1.4 ここまでのまとめ
・ 「Ameba なう」、ならびに「アメーバブログ」の投稿記事を用いて、絵文字の使用頻
   度を調査した
・ 出現頻度上位の絵文字は、感情表現系、アノテーション系の絵文字が多く、記号系の
   絵文字は少ない。
・ Ameba 絵文字については、使用頻度の上位 10 絵文字で全体の4割を占め、上位 20 絵
   文字で全体の6割を占める。
・ 「みんなの絵文字」では使用頻度上位 20 絵文字で全体の 9%、上位 100 絵文字でも僅
   か 19%となっており、ロングテールな傾向を示している。

  4.2 絵文字の文意解析
ある絵文字が、どのような文脈で多く使われているか、調査した。
調査の手法として、「Ameba なう」などの記事中において、どんな語と連続して語られて
いるかを抽出することで、文脈を類推する。
具体的な手法としては「コロケーション文字の抽出」というアプローチを用いた。

コロケーションとは以下の様に定義される
  ある単語と単語の”よく使われる組み合わせ、自然な語のつながり”のこと。1

今回は、絵文字の直前に出現する文字列のうち、頻出するパターンの抽出を実施した。
直前の語のみを抽出した理由としては、ヒューリスティックな理由であるがたとえば「 」

1
    http://park1.wakwak.com/~english/note/note-collocation.html より引用




                                              13
と「おはよう」という挨拶語を一緒に用いる際、「 おはよう」よりも「おはよう 」と
いった使われ方がされる事が多いためとなる。

なお、絵文字には「単語」「添加」「感情表現」「装飾」の4種の用いられ方があるとさ
れる1 が、当該手法では結果として「添加」としての絵文字を対象とし、その絵文字のコロ
ケーション文字を抽出する、という形になる。

コロケーション文字の抽出手段としては、「n-gram Prefix Span2 」と呼ばれる、頻出パタ
ーンマイニングの手法「Prefix Span3 」を n-gram モデルの言語モデルに展開した手法を
採用した。

 4.2.1 Ameba なう
○ 使用データ
以下の期間のデータを用いて、ある特定の絵文字の直前に出現するコロケーション文字を
調査した。「使用頻度」の解析を行ったものと同じデータである。
期間              2009 年 12 月 10 日~2010 年1月13日
データ件数           約 540 万件(PC から:170 万/携帯から:370 万)

○ ある絵文字と一緒に語られるコロケーション文字
出現頻度が多かった絵文字を中心に、解析結果を紹介する。

・
絵文字直前に出現する文字のうち頻度の高いものベスト20は以下のような結果となった。
うんうん                      おはようぃっしゅ〜
こちらこそ                     やったー
おはよん                      みんな
DAIGO~                    ・°・
いえいえ                      わかった
そっか                       サンキュー
ただいま〜                     こちらこそありがとう
あら                        ただいまぁ
おはなう                      はじめまして
お帰りなさい                    b
ノイズ的な語(たとえば「b」は「 (o^-')b」のような顔文字の断片である) も一部存在する
が、今回は特に手作業で除去はせず、生データをそのまま提示する。

ノイズがあるとはいえ、大まかな傾向が掴める結果と思われる。
たとえばハート    については、以下のような傾向が言える。
   対人的なあいさつや、受け答えと一緒に使われることが多い(うんうん、こちら
    こそ等)
   ポジティブな語と一緒に使われている(やったー、サンキュー等)

・
あらら                                           やべっ
ありゃ                                           やべ
1
    [山本+ 2010] 絵文字を考慮したテキスト解析の研究
2
    http://chasen.org/~taku/publications/nlp2002.pdf
3
    http://ibisforest.org/index.php?PrefixSpan などを参考のこと




                                            14
うわっ                   おはようございます
そっかぁ                  そうそう
いえいえ                  寝すぎた
m                     はぁ~
ありゃりゃ                 うーん
あれ                    寒いー
やばっ                   きゃーっ
確かに                   ふぅ
先程のハート     は明らかに異なる傾向が見られる。
まとめると、以下のような事が言えるかと思われる。
    感嘆詞とともに使われることが多い(あらら、ありゃ、うわっ、等)
    若干ネガティブなイメージの語と一緒に使われている(やばっ、寒いー、等)

・
b                     なるほど
ただいま                  σ ゲッツ~
いえいえ                  YEAR
お疲れさま~               おぉ~
ただいま~                お仕事お疲れ様です
おかえりなさい              うんうん
今日 1 日頑張って行きましょう     あけおめことよろ
おかえり                 ただいまぁ
おはよん                 今日は
ゆきくん                 はーい
キラキラ       は概ねハート と同じような傾向が見られる。
   対人的なあいさつや、受け答えと一緒に使われることが多い(ただいま、いえい
      え、等)

・
おはよー                  お疲れさまです
確かに                   あけおめー
おぉ~                   初なう
あけましておめでとう            おはようございます今日は天気良いから頑
                      張りましょう
なんと                   了解
すごーい                  やったー
こんばんは                 サイコー
お疲れさまでした              いいなぁ
よっしゃ                  ただいま
同じく                   すごっ
ビックリマーク      の意匠に沿う形で、物事を強調したり、驚いている様が感じられ
る
   ポジティブな感嘆詞と一緒に使われることが多い(おぉ~、すごーい、等)

・
天気を示す絵文字は、朝のあいさつ(おはよう等)と一緒に語られることが多い。
まず「晴れ」について結果を提示する。




                     15
ノ                   皆さんおはようございます
おはようさん              おはなぅ
おはようございま~す          山ちゃんおはようございます
/                   あけおめです
明けましておめでとう          おはようございまーす
おはです                おっは~
おはよ~ございます           おはよございます
おはょー                おはよーです
おはぁ                 おはようございます今日は天気
ぉはょ~                今
   朝のあいさつと一緒に使われることが多い(おはようさん、おはです、等)

・
続いて「雪」についての結果である。
おはようございます            今
おはよー                 おはよーございます
おはよ                  そっちは
おはよ~                 明日雪
雪だー                  オハョ
今日も寒いね               今日は寒いね
外は                   おはす
雪降ってる~               雪積もってる
雪ですか                 寒くて
メリークリスマス             初
雪    についても晴れ     と同様に、朝のあいさつと共に使われるケースが多
い。
文脈として、「朝のあいさつ」+「今日の天気」を同時に相手に伝える、という行為を効
率的に行うためにこのような表記を多くのユーザが好んで行っている、と考えられる。

       朝のあいさつと一緒に使われることが多い(おはようございます、おはよー、等)
       「雪」を表す際にも用いられる(雪降ってる~、雪積もってる、等)


・
ノ                    超眠い
Night                おやすみです
おはようございます            おやちゅみ
おはよう                 おやすみっ
o                    そろそろ
そろそろ寝よう              ねむ~い
お休みなさ~い              そろそろ寝よ
ねみー                  ねんね
おはよ                  おやすみなさい渧
皆さんおやすみなさい           о゜
絵文字の意匠どおり、眠た気なワードと多く語られている。

       眠いという気持ちや、寝る行為を表す語と一緒に使われることが多い(そろそろ




                       16
寝よう、おやすみです、等)

・
煆                    します
なんだ                  あ~
うぜぇ                  意味わからん
ありえん                 かっ
イラつく                 やな
だよね                  あぁ
ノ                    にイライラ
め~                   眠い
あー                   う~
だな                   しやがった
こちらも絵文字の意匠どおり、若干のイライラや怒りを感じさせる語が多い。

     イライラや怒りの気持ちを表す語と一緒に使われることが多い(うぜぇ、イラつ
      く、等)

・
ブヒッ                 食べました
ありがとん               初なう
おはようございます           だよー
おやすみ                いじり
おやすみなさい             だわ
お腹すいた               食べ過ぎ
おはよう                お腹空いた~
しゃぶしゃぶ              ブ~
0                   ぶ~
だよ~                 太った
ブタ    のイメージから想起される事柄(鳴き声、食べ過ぎ・太り過ぎの象徴)を表
すような語と一緒に語られる事が多い。「ありがとん」という語尾の活用は、絵文字文化
ならではの遊び心が感じられる。

     空腹状態や満腹状態など、食事行為と関連性が高い語と一緒に使われることが多
      い(お腹すいた、食べ過ぎ、等)
     鳴き声と思われる語が多い(ブヒッ、ブ~、等)

○ ある語と一緒に語られることが多い絵文字
上述とは逆に、「ある語と一緒に語られることが多い絵文字」について、いくつかの語を
対象に調査した。

・ おはよう
「おはよう」という語と一緒に語られる絵文字は以下になる。
以下表は、出現頻度の多い絵文字について、Ameba 絵文字の ID 順に並べたものである。
なお、若干の表記ゆれ語(おはよぅ、おはよ、おはよー等)の結果についても一緒くたに
して記載している。




                      17
おおまかに言って、「おはよう」という語と一緒に使われる絵文字は以下のような分類が
行える。

    動物(ブタ、ひよこ、ペンギンなど)
    植物(ブーケ、クローバー、チューリップなど)
    天気(雨、晴れ、雪など)
    心象表現(ハート、汗、音符、ビックリマークなど)
    身体表現(手など)
    顔文字

動植物は、若干コミカルさも加味した心象のメタ表現として用いていると思われる。
天気関連の絵文字については、あいさつとともにその日の天候を伝える、という機能的側
面を果たしていると思われる。
一方、心象表現や身体表現、顔文字は、話者の感情をそのまま表現するために使われてい
る、と類推される。

やや乱暴なまとめだが、朝のあいさつ「おはよう」は、後者3者(心象表現、身体表現、
顔文字・・・おおむね笑顔や強調表現が多い)に象徴されるような感情表現とともに用い
られることが多い、という分析も可能である。

・ おやすみ
「おはよう」と同様に、夜のあいさつ「おやすみ」についても調査した。
こちらについても、いくつかの表記ゆれ語(おやすみー、おやすみっ、おやすみぃ)の結
果についても一緒くたにして記載をしている。




                    18
おおむね、傾向としては「おはよう」と同じような傾向であるが、        や
など、夜を象徴する絵文字が一緒に使われていることが特徴と言える。

・ 寒い
今回の調査期間が 12 月~2 月ということもあり、寒さに関する語や絵文字が量も文脈も多
様に含まれていたため、傾向を調査した。
「寒い」という表現が含まれている語すべてを対象にし、それらを合わせた結果について
以下記載する。




ペンギン    や雪      などの、寒さを象徴するものが多く用いられていたり、
心象表現についても     や     のように気持ちが落ち気味、ネガティブな心象
を表している絵文字が多く用いられている。
日本の多くの人が、寒さに対してポジティブな感情よりもネガティブな感情を持っている
という事がこういった結果からも伺える。

 4.2.2 アメーバブログ
「アメーバブログ」についても同様の調査を行ったが、結果が重複するため一部の紹介の
みに留める。

○ 使用データ
以下の期間のデータを用いて、ある特定の絵文字の直前に出現するコロケーション文字を
調査した。「使用頻度」の解析を行ったものと同じデータである。
期間       2010 年1月 16 日~2010 年 2 月1 4 日
データ件数    約 1500 万件

○ ある絵文字と一緒に語られるコロケーション文字
・
こんばんは                  ポチッとおしてくださいね
こんにちは                  こんばんゎ
もうすぐバレンタイン             皆様
いつもありがとうございます          よろしく
可愛い〜                   皆さま
おおむね「Ameba なう」と同じような傾向であると思われる。
なお、調査期間にバレンタインデーが含まれている。バレンタイン関連のワードが含まれ
ているのはそのためである。

・
ノ                     いや〜




                     19
m                      お久しぶりです
って言われました               うーん
/                      しもうた〜
o                      さぼっててごめんなさい
若干ノイズが多めのため判別が困難であるが、ネガティブな語と一緒に用いられている、
という傾向は「Ameba なう」と変わらないと思われる。

一方、「Ameba なう」では多かった感嘆詞(ありゃ、うわっ等)が上位にはリストアップ
されていないところが、対人コミュニケーションの要素の強いマイクロブログに比して第
三者へのメッセージ的な意図も強いブログの特徴とも言えるかもしれない。

 4.2.3 ここまでのまとめ
・ 「コロケーション文字の抽出」というアプローチで、絵文字がどんな文脈で語られて
   いるか、文意解析を試みた。
・ コロケーション文字の抽出には n-gram Prefix Span の手法が参考になる。
・ 抽出結果を見る限り、絵文字の意匠・イメージに一致する語が多く語られていること
   推察できる。

 4.2.4 コロケーション文字データの公開
「Ameba なう」の解析結果について、出現頻度上位 100 位程度までの絵文字については、
コロケーション文字の抽出結果を Google Docs 上にて外部公開しており 1 、誰でも自由に使
用可能である。
データはタブ区切りの TSV 形式プレーンテキストファイルとなっている。



   4.3 絵文字の使用者属性
ある絵文字が、どのような属性のユーザに多く使われているか、調査した。
ここで言うユーザ属性とは、ユーザの「性別」ならびに「年齢(年代)」を指す。
Ameba サービスでは、図 5 のようにユーザの会員登録時の必須入力項目として「性別」
「生年月日」を入力する欄が存在し、ユーザが各欄の情報を登録する仕組みになっている2 。




                                                               3
                                                         図 5

今回はこちらの情報を使用し、絵文字つき記事を投稿したユーザの属性情報を解析し、絵
1
                                                         http://docs.google.com/leaf?
    id=0B5kuQ0wVMAkMY2E1MDRjZjQtOWVhOS00OGU4LTljNjktNzM3OWMxOGYxZTZj&hl=ja
2
     入力情報は、会員登録後に管理画面から編集可能である。今回はある時点でのスナップショット情報
    を用いた。
3
     https://user.ameba.jp/




                                          20
文字の使用者属性の解析を試みた。

 4.3.1 Ameba なう
○ 使用データ
以下の期間のデータを用いて、ある特定の絵文字の使用者属性を調査した。「使用頻度」
「コロケーション文字抽出」の解析を行ったものと同じデータである。
期間              2009 年 12 月 10 日~2010 年1月13日
データ件数           約 540 万件(PC から:170 万/携帯から:370 万)

○ Ameba なうのユーザ属性
本題に入る前に、「Ameba なう」の使用者の属性傾向について簡単に触れる。

・ 性別
「Ameba なう」記事投稿者の性別分布は以下グラフのようになり、女性の比率が非常に高
い(約 73%)。




             男性
             女性




                  表 4


・ 年代
年代については以下のグラフのようになる。100 歳以上など信憑性に疑いのあるデータも
存在するが、10 代~40 代にユーザが集中していることがわかる。また、男性の方が若干
ではあるが使用ユーザの年齢層が高めである。

 80000
 70000
 60000
 50000                       男性
 40000
 30000                       女性
 20000
 10000
     0
    ~




            0
          40




          70
          10

          20

          30



          50

          60



          80

          90
    0

          ~

          ~

          ~

          ~

          ~

          ~

          ~

          ~

          ~
         10
         ~




                                  表 5

○ 絵文字投稿ユーザの属性
上記を前提として、「Ameba なう」に絵文字を投稿するユーザの属性解析を実施した。

・ 全絵文字




                        21
男性
             女性




                  表 6

絵文字投稿ユーザのうち女性が 79%で約8割となっており、「Ameba なう」の記事投稿
ユーザの属性と比べても女性の比率が高いことが伺える。
定性的な感覚から女性の方が絵文字を使うイメージは高いが、実際に数字の上でも裏付け
られている。

一方、世代の比率については、下記グラフのとおり一般の記事投稿ユーザの傾向と大きな
差は無い。
CGM サービスなどを使いこなせる IT リテラシーのユーザは 30 代以下に集中しており、
そのユーザ層と、絵文字文化が定着している層が一致しているから、とも言えるかもしれ
ない。

    35000
    30000
    25000
    20000                    男性
    15000                    女性
    10000
     5000
        0
       ~




               0
             40




             70
             10

             20

             30



             50

             60



             80

             90
       0

             ~

             ~

             ~

             ~

             ~

             ~

             ~

             ~

             ~
            10
            ~




                                  表 7

以下、個々の絵文字について概観する。

・

    12000
    10000
     8000
                             男性
     6000
                             女性
     4000
     2000
        0
       ~




               0
             40




             70
             10

             20

             30



             50

             60



             80

             90
       0

             ~

             ~

             ~

             ~

             ~

             ~

             ~

             ~

             ~
            10
            ~




                                  表 8

ハートマークについては女性の使用率の高さが顕著である。特に 10 代~30 代では男性:
女性の比率が1:10~20 程度の開きがある。
何かしらポジティブな感情表現として文章中にハートマークを使用する事が女性の間では
一般化されているとともに、男性にとっては若干の照れがあることが仮説として想像でき
るが、少なくとも数字の上での差は圧倒的である。




                        22
・

    12000
    10000
     8000
                              男性
     6000
                              女性
     4000
     2000
        0
       ~




               0
             40




             70
             10

             20

             30



             50

             60



             80

             90
       0

             ~

             ~

             ~

             ~

             ~

             ~

             ~

             ~

             ~
            10
            ~
                                   表 9

こちらはハートマークほど女性の比率が高くなく、男性も普通に使用している様が伺える。


・
一方、男性の使用比率が高い絵文字として「ビール」の絵文字が挙げられる。

    1400
    1200
    1000
     800                      男性
     600                      女性
     400
     200
       0
      ~




               0
             70
             10

             20

             30

             40

             50

             60



             80

             90
      0

             ~

             ~

             ~

             ~

             ~

             ~

             ~

             ~

             ~
            10
            ~




                                   表 10

上記グラフの通り、20 代~40 代の男女比でも2~5倍程度の開きとなっており、絵文字
全体の使用傾向から考えると男性が使用している比率が高いことが伺える。
なお、10 代未満の投稿は、一般知識としての関心であり、自らの飲酒行為をさしているも
のでは無いと期待する。

他に同様の傾向を示す絵文字として「        」「        」が挙げられる。

・
逆に、女性の使用比率が著しく高い絵文字が「リボン」である。




                    23
1000
     800
     600                  男性
     400                  女性
     200
       0
      ~




              0
            70
            10

            20

            30

            40

            50

            60



            80

            90
      0

            ~

            ~

            ~

            ~

            ~

            ~

            ~

            ~

            ~
           10
           ~
                               表 11

上記グラフのように、ごく一部しか男性からの投稿が確認できない。
他に同様の傾向を示す絵文字として、先述のハート系の絵文字や「        」が挙げられ
る。

・
比較的高い年齢層に使用される絵文字が「コーヒー」である。

    1000
     800
     600                  男性
     400                  女性
     200
       0
      ~




              0
            70
            10

            20

            30

            40

            50

            60



            80

            90
      0

            ~

            ~

            ~

            ~

            ~

            ~

            ~

            ~

            ~
           10
           ~




                               表 12

全絵文字では特に 10 代~30 代のボリュームが多いが、コーヒーの絵文字を投稿している
層はもう少しシニア寄りで、10 代が少なく、30 代~40 代が多めな傾向になっている。
「違いが分かる」ためにはある程度の年月を重ねる必要がある、ということかもしれない。

他に同様の傾向を差すものとしては、ビールや車、温泉「     」など、10 代の一般
的なライフスタイルとは離れたところにあると思われるモノが挙げられる。


 4.3.2 ここまでのまとめ
・ 「Ameba なう」においては絵文字つきの記事投稿を行っているのは8割が女性で、女
   性 か ら 絵 文 字 が 投 稿 さ れ る 比 率 が 高 い 。
   (すべての投稿記事では 73%が女性からの投稿)
・ リボン「       」は女性、ビール「     」は男性など、性別差によって投稿の
   傾向が異なる絵文字が存在する。
・ コーヒー「       」など、世代によって使用傾向が異なる絵文字が存在する。


5    デモアプリの紹介
「Ameba なう」、「アメーバブログ」における絵文字の使用傾向について以上述べてきた
が、上述の解析結果を用いた応用として、デモンストレーション用の簡単なアプリ作成を
あわせて行ったので、本論で紹介する。



                     24
5.1 Ameba 絵文字 IME1
文章を入力すると、その文章にふさわしい Ameba 絵文字をサジェストするツールである。
サジェスト用の辞書データには、上述のコロケーション文字抽出結果を用いている。

Adobe AIR にて実装を行っており、インストールには Adobe AIR Runtime2 が必要である。
なお、「IME」と謳っているが、特に IME 的な機能は実装していない。




                                      図 6

アプリを起動すると図 6 のような画面が表示される。ここで何かしらの文章を入力すると
その文章と共に使われる事が多い絵文字がサジェストされる。




                                      図 7

図 7 は「こんにちは」と入力した結果で、                       や   といった絵文字がサジェ
ストされていることが分かる。




1
    http://nd-ilab.jp/amebaemojiime
2
    http://get.adobe.com/jp/air/




                                      25
図 8

入力を続けると、図 8 のような文章が生成できる。
生成した文章は、図 9 のようにそのままコピー&ペーストをして「Ameba なう」のエディ
タに貼付け、投稿を行うことが可能となっている。




                          図 9



  5.2 絵文字感情分析 1
絵文字は、何かしらの感情表現に用いられるケースが多いことが分かったので、絵文字の
出現傾向を元に文章の感情分析を試みた。
以下図1 0 が、今回作成したデモアプリの画面となる。




1
    こちらのツールは非公開となる




                     26
図 10

それぞれの絵文字について、「積極性」と「感情」の2軸でプロットを行い、スコア付け
を行う。
(たとえばハート    は積極性-高い、感情-前向き、など)
そして、文章中に含まれている絵文字の内容を元にスコアの加点を行い、結果として割り
当てられる座標に記事データをプロットする。その結果が図1 0 のような画面である。

座標の位置によって、以下のような意味付けを行っている。
・ 右上(赤):積極性-高い/感情-前向き
・ 右下(黄):積極性-低い/感情-前向き
・ 左上(緑):積極性-高い/感情-後向き
・ 左下(青):積極性-低い/感情-後向き
たとえば、右上にマッピングされている文章は図 11 のようなものである。
  (いいとも観てたよん 今日の大湖も素敵 白い巨塔当たったぁスゴイ 生モンシュ
  ッシュが聴けて嬉しかったよん VIVA 凱旋門 大湖の生歌声が聴けて嬉しかった)




                     27
図 11

また、左下にマッピングされる文章は図1 2 のようなものである。
  (あ~。。今日もコタツで寝ちゃぃそぉ 2 F に上がる気力ナシ www)




                           図 12

6   全体の考察とまとめ
以上、Ameba サービスにおける絵文字の扱いについて調査を行った。



                      28
絵文字の使用頻度については、感情表現やアノテーション目的の絵文字が多く使われてい
ることが分かった。

また、コロケーション文字抽出による文意解析においては、絵文字とともに語られている
語の抽出により絵文字がどのような文脈で語られているかが類推できる結果が得られた。

今後の展開については以下3点を考えている。なお、下記については一部達成済みの事項
も含まれる。
1. 3.5 で挙げたような改善点の指摘や、今回の結果のフィードバックをサービス担当者に
   対して行い、サービスの発展に活かす。
2. 4.2.4 で挙げたように、今回の解析結果の一部を外部公開する。
3. 今回は n-gram Prefix Span と呼ばれる手法などを用いて大規模テキスト群のマイニン
   グを実施した。その知見や経験を今後のデータ解析やアプリ開発に応用していく。

最後に蛇足ではあるが、今回のデータ解析において、並列分散処理フレームワークとして
著名な「Hadoop1 」を使用し、解析の効率化・高速化に欠かせないツールとして大いに役
に立ったことを付け足しておく。

7     謝辞
本論は社内の成果報告会(おひろめ会)や、サービス担当者向けのデータ解析報告会など
で発表した内容をまとめたものである。
上記の場で様々な意見、アイデアをいただいた各位にこの場を借りて感謝いたします。

8     参考文献
[1] 工藤拓, 山本薫, 坪井祐太, 松本裕治. 言語情報を利用したテキストマイニング.
情     報    処     理     研     究    会     報     告          SIGNL-148,   2002.
http://chasen.org/~taku/publications/nlp2002.pdf
[2] 坪井祐太. 頻出部分文字列のマイニング. 情報処理学会研究報告. 自然言語処理研究
会               報                告                 2003(108) pp.147-154 20031106
http://2boy.org/~yuta/publications/nl158-slides.pdf
[3]  山本千尋,別所克人,内山俊郎,内山 匡. 絵文字を考慮したテキスト解析の研究.
 情報処理学会 第 72 会全国大会 人工知能と認知科学, 2010.
[4] 萩原正人, 水野貴明. モバイル検索システムのための絵文字に対する意味解析 . 言
語処理学会 第 16 会年次大会 , 2010




1
    http://hadoop.apache.org/




                                      29

More Related Content

More from moai kids

Casual Compression on MongoDB
Casual Compression on MongoDBCasual Compression on MongoDB
Casual Compression on MongoDBmoai kids
 
Introduction to MongoDB
Introduction to MongoDBIntroduction to MongoDB
Introduction to MongoDBmoai kids
 
Hadoop Conference Japan 2011 Fallに行ってきました
Hadoop Conference Japan 2011 Fallに行ってきましたHadoop Conference Japan 2011 Fallに行ってきました
Hadoop Conference Japan 2011 Fallに行ってきましたmoai kids
 
HBase本輪読会資料(11章)
HBase本輪読会資料(11章)HBase本輪読会資料(11章)
HBase本輪読会資料(11章)moai kids
 
snappyについて
snappyについてsnappyについて
snappyについてmoai kids
 
第四回月次セミナー(公開版)
第四回月次セミナー(公開版)第四回月次セミナー(公開版)
第四回月次セミナー(公開版)moai kids
 
第三回月次セミナー(公開版)
第三回月次セミナー(公開版)第三回月次セミナー(公開版)
第三回月次セミナー(公開版)moai kids
 
Pythonで自然言語処理
Pythonで自然言語処理Pythonで自然言語処理
Pythonで自然言語処理moai kids
 
HandlerSocket plugin Client for Javaとそれを用いたベンチマーク
HandlerSocket plugin Client for Javaとそれを用いたベンチマークHandlerSocket plugin Client for Javaとそれを用いたベンチマーク
HandlerSocket plugin Client for Javaとそれを用いたベンチマークmoai kids
 
Yammer試用レポート(公開版)
Yammer試用レポート(公開版)Yammer試用レポート(公開版)
Yammer試用レポート(公開版)moai kids
 
掲示板時間軸コーパスを用いたワードトレンド解析(公開版)
掲示板時間軸コーパスを用いたワードトレンド解析(公開版)掲示板時間軸コーパスを用いたワードトレンド解析(公開版)
掲示板時間軸コーパスを用いたワードトレンド解析(公開版)moai kids
 
中国と私(仮題)
中国と私(仮題)中国と私(仮題)
中国と私(仮題)moai kids
 
不自然言語処理コンテストLT資料
不自然言語処理コンテストLT資料不自然言語処理コンテストLT資料
不自然言語処理コンテストLT資料moai kids
 
n-gramコーパスを用いた類義語自動獲得手法について
n-gramコーパスを用いた類義語自動獲得手法についてn-gramコーパスを用いた類義語自動獲得手法について
n-gramコーパスを用いた類義語自動獲得手法についてmoai kids
 
Analysis of ‘lang-8’
Analysis of ‘lang-8’Analysis of ‘lang-8’
Analysis of ‘lang-8’moai kids
 
Androidの音声認識とテキスト読み上げ機能について
Androidの音声認識とテキスト読み上げ機能についてAndroidの音声認識とテキスト読み上げ機能について
Androidの音声認識とテキスト読み上げ機能についてmoai kids
 
Amebaサーチ使用傾向
Amebaサーチ使用傾向Amebaサーチ使用傾向
Amebaサーチ使用傾向moai kids
 
Amebaサーチのデータを用いた応用
Amebaサーチのデータを用いた応用Amebaサーチのデータを用いた応用
Amebaサーチのデータを用いた応用moai kids
 
Javaにおけるデータシリアライズと圧縮
Javaにおけるデータシリアライズと圧縮Javaにおけるデータシリアライズと圧縮
Javaにおけるデータシリアライズと圧縮moai kids
 
おひろめ会:Javaにおけるデータシリアライズ手法
おひろめ会:Javaにおけるデータシリアライズ手法おひろめ会:Javaにおけるデータシリアライズ手法
おひろめ会:Javaにおけるデータシリアライズ手法moai kids
 

More from moai kids (20)

Casual Compression on MongoDB
Casual Compression on MongoDBCasual Compression on MongoDB
Casual Compression on MongoDB
 
Introduction to MongoDB
Introduction to MongoDBIntroduction to MongoDB
Introduction to MongoDB
 
Hadoop Conference Japan 2011 Fallに行ってきました
Hadoop Conference Japan 2011 Fallに行ってきましたHadoop Conference Japan 2011 Fallに行ってきました
Hadoop Conference Japan 2011 Fallに行ってきました
 
HBase本輪読会資料(11章)
HBase本輪読会資料(11章)HBase本輪読会資料(11章)
HBase本輪読会資料(11章)
 
snappyについて
snappyについてsnappyについて
snappyについて
 
第四回月次セミナー(公開版)
第四回月次セミナー(公開版)第四回月次セミナー(公開版)
第四回月次セミナー(公開版)
 
第三回月次セミナー(公開版)
第三回月次セミナー(公開版)第三回月次セミナー(公開版)
第三回月次セミナー(公開版)
 
Pythonで自然言語処理
Pythonで自然言語処理Pythonで自然言語処理
Pythonで自然言語処理
 
HandlerSocket plugin Client for Javaとそれを用いたベンチマーク
HandlerSocket plugin Client for Javaとそれを用いたベンチマークHandlerSocket plugin Client for Javaとそれを用いたベンチマーク
HandlerSocket plugin Client for Javaとそれを用いたベンチマーク
 
Yammer試用レポート(公開版)
Yammer試用レポート(公開版)Yammer試用レポート(公開版)
Yammer試用レポート(公開版)
 
掲示板時間軸コーパスを用いたワードトレンド解析(公開版)
掲示板時間軸コーパスを用いたワードトレンド解析(公開版)掲示板時間軸コーパスを用いたワードトレンド解析(公開版)
掲示板時間軸コーパスを用いたワードトレンド解析(公開版)
 
中国と私(仮題)
中国と私(仮題)中国と私(仮題)
中国と私(仮題)
 
不自然言語処理コンテストLT資料
不自然言語処理コンテストLT資料不自然言語処理コンテストLT資料
不自然言語処理コンテストLT資料
 
n-gramコーパスを用いた類義語自動獲得手法について
n-gramコーパスを用いた類義語自動獲得手法についてn-gramコーパスを用いた類義語自動獲得手法について
n-gramコーパスを用いた類義語自動獲得手法について
 
Analysis of ‘lang-8’
Analysis of ‘lang-8’Analysis of ‘lang-8’
Analysis of ‘lang-8’
 
Androidの音声認識とテキスト読み上げ機能について
Androidの音声認識とテキスト読み上げ機能についてAndroidの音声認識とテキスト読み上げ機能について
Androidの音声認識とテキスト読み上げ機能について
 
Amebaサーチ使用傾向
Amebaサーチ使用傾向Amebaサーチ使用傾向
Amebaサーチ使用傾向
 
Amebaサーチのデータを用いた応用
Amebaサーチのデータを用いた応用Amebaサーチのデータを用いた応用
Amebaサーチのデータを用いた応用
 
Javaにおけるデータシリアライズと圧縮
Javaにおけるデータシリアライズと圧縮Javaにおけるデータシリアライズと圧縮
Javaにおけるデータシリアライズと圧縮
 
おひろめ会:Javaにおけるデータシリアライズ手法
おひろめ会:Javaにおけるデータシリアライズ手法おひろめ会:Javaにおけるデータシリアライズ手法
おひろめ会:Javaにおけるデータシリアライズ手法
 

Amebaにおける絵文字

  • 1. 研究課題:Ameba における絵文字 新規開発局 プログラマ 大平哲也 1
  • 2. 1 はじめに Ameba の各種サービス上で、絵文字がどのように扱われているか調査を行った。 動機としては以下2点である。 ・ データの蓄積  携帯電話コンテンツのオープン化が進み、いわゆる CGM サイトと呼ばれるブロ グ や SNS 系 の サ ー ビ ス も 多 く が 携 帯 電 話 に 間 口 を 開 い て い る 。 Ameba についても例外でなく、「アメーバブログ 1 」や「Ameba なう2 」などを 筆頭に、携帯から閲覧投稿できるのみでなく、携帯絵文字データを含んだメッセ ージをサービス上で使用可能になっている。その結果として、絵文字についても データ解析に必要十分なデータが蓄積され、解析するための環境が整った。  メッセージ性の強いコミュニケーション目的の自然文の中でどのように絵文字が 使用されているか、については、かつてはキャリア網を流れるメールメッセージ データを用いてのみ分析が可能であったが、CGM サービスの興隆によりキャリ ア外のユーザでも把握できるようになった。 ・ 絵文字利用状況の把握への欲求  上述の蓄積されたデータを元に絵文字の利用状況を解析することで、CGM サイ トの中での絵文字の使用傾向や、どんな意図・文脈で使われているかの把握がで きる。  同種の解析結果については、「WebDB Forum20093 」にて百度(バイドゥ)の基 調講演にて携帯サイト全般における絵文字の使用傾向が示された 4 が、CGM サイ トを対象としたものは少なくとも Web 上での文献では存在しないため、当該調査 を行うことで社内外へのなにかしらの貢献にもつながるのではないか、と判断し た。 2 本論の流れ 本論では、以下の2段階の流れで調査した内容を記す  Ameba サービスにおける絵文字の扱われ方  Ameba サービス内での絵文字の使用傾向 まず始めに、Ameba サービスの機能仕様として、絵文字がどのように扱われているかを調 査した。具体的には、携帯絵文字と PC 固有の絵文字(Ameba 絵文字)の相互変換の仕様 やマッピングテーブルについて、である。あわせて最近の潮流も加味した上で、問題点の 指摘やサービス改善に向けての提案を行う。 次に、Ameba サービスに対して投稿された絵文字データを元に、絵文字の使用傾向の解析 を行った。今回は「絵文字の使用頻度」と「絵文字の文意解析(ある絵文字がどんな文脈 で使われているか)」、「絵文字の使用者属性(どんな属性・・・性別、年齢・・・のユ ーザが使用しているか)」について調査を実施した。その結果と、そこから見える傾向や 分析結果について記す。 1 アメーバブログ.ブログサービス http://ameblo.jp/ 2 Ameba なう.マイクロブログサービス http://now.ameba.jp/ 3 http://db-event.jpn.org/webdbf2009/ 4 http://internet.watch.impress.co.jp/docs/event/webdb2009/20091120_330426.html 2
  • 3. 3 Ameba サービスにおける絵文字の扱われ方 3.1 Ameba サービスにおける絵文字の種類 Ameba には「Ameba 絵文字」と「みんなの絵文字」の2種類が存在する。 ・ Ameba 絵文字  Ameba サ ー ビ ス が 用 意 し て い る 絵 文 字 。 一部絵文字については、サービスによっては PC-携帯間の相互変換を実施してい る(相互変換については後述する) ・ みんなの絵文字1  ユーザがドット絵によって絵文字を作成する事ができる機能。作成した絵文字は 他ユーザが利用してブログ記事などを書いたりすることができる。 それぞれ PC インターフェースでの使用を想定しており、絵文字の実体は画像ファイルで ある。 (Ameba 絵文字:PNG、みんなの絵文字:GIF) 3.2 各サービスにおける絵文字の使用可否 Ameba サービスで絵文字が使用できるサービスは以下4つとなる。2 それぞれの対応を表としてまとめる。 サービス名 Ameba 絵文字貼付 相互変換 みんなの絵文字貼付 アメーバブログ ○ △ ○ Ameba なう ○ ○ × アメばた会議 3 ○ ○ × Ameba メッセージ 4 ○ × × ・ Ameba 絵文字貼付  Ameba 絵文字が貼付け可能かどうか ・ 相互変換  Ameba 絵文字について、PC 用の画像絵文字と、携帯のキャリア絵文字との相互 変換が行われるかどうか ・ みんなの絵文字貼付  「みんなの絵文字」が貼付け可能かどうか ※「アメーバブログ」については、携帯から投稿したキャリア絵文字は PC 閲覧時に Ameba 絵文字に変換されるが、逆のケース(PC→携帯)は通常操作では変換されない 3.3 Ameba 絵文字と携帯絵文字の相互変換 一部の Ameba 絵文字については、携帯キャリア絵文字との相互変換を実施している。 相互変換とは以下のような状況を指す。 ・ PC から投稿した Ameba 絵文字(画像)を含むコンテンツが、携帯電話から閲覧した 際に携帯キャリア絵文字で表示される ・ 携帯電話から投稿したキャリア絵文字を含むコンテンツが、PC から閲覧した際に Ameba 絵文字(画像)で表示される。 Ameba 絵文字⇔携帯絵文字のマッピングテーブルは、DoCoMo の絵文字変換機能5 にお 1 http://helps.ameba.jp/faq/blog/article/post_98.html 2 2010 年 2 月現在 3 http://amebabbs.ameba.jp/ 4 http://msg.ameba.jp/ 5 http://www.nttdocomo.co.jp/service/communication/imode_mail/function/emoji_convert/index.html 3
  • 4. ける各サービスとの変換テーブルをベースとして作成されている。 図 11 たとえば図1を参考にすると、DoCoMo では「晴れ 」絵文字を au、SoftBank 宛に送 信した場合、それぞれ「 」「 」といった意匠の似た絵文字に変換される。 Ameba 絵文字についても、DoCoMo の絵文字と意匠の似た絵文字同士1対1で対応す るように絵文字をマッピングしており、「晴れ」の場合は「 」が対応している。 「 」が PC から投稿された場合は、携帯上ではキャリアにより「 」「 」「 」に 変換表示され、携帯電話から同種の絵文字が投稿された場合は、PC 上では「 」に変 換表示される、ということである。 な お 、 Ameba サ ー ビ ス で 絵 文 字 変 換 対 応 を し て い る 携 帯 キ ャ リ ア は 、 DoCoMo、au、SoftBank(iPhone 除く)の三種である。 すべての変換ルールについては、筆者作成の「アメーバ絵文字ツール 2 」(図2)により 閲覧、検索が可能となっているので、参考まで。 1 http://www.nttdocomo.co.jp/service/communication/imode_mail/function/emoji_convert/index.html より図引用 2 http://nd-ilab.jp/emoji 4
  • 5. 図 2 3.4 現在の Ameba 絵文字⇔携帯絵文字変換の問題点 調査を進めるうちにいくつかの問題点に気づいたので、以下列挙して指摘する。 3.4.1 意匠・デザインのズレ 一部絵文字については、Ameba 絵文字と携帯キャリア絵文字のデザインや意味するものに 大きな差・ズレが生じている。 たとえば DoCoMo における i モードアイコン「 」は、Ameba 絵文字に変換されると「 」 のようにムンクの叫びのような絵文字に変換される。逆のケースで考えると、PC から「 」という文脈・意図で投稿したユーザの思惑と離れて、携帯表示時にキャリアのサービ スアイコン「 」が表示されてしまう、ということであり、問題がある。 同種の問題を抱えていると思われる絵文字について、以下図3に列挙する。 なお絵文字の並び順は、左から順に「Ameba 絵文字」「DoCoMo」「au」「SoftBank」 となり、空白の箇所は該当する絵文字が存在しないものとなる。 図 3 なお、この種の問題は Ameba 固有の問題ではなく、絵文字の相互変換を行う際に生じる 問題でもある。たとえば DoCoMo は「地下鉄」の意匠を「 」としている(おそらく Metro の”M”の意)が、他キャリアでは鉄道の意匠となっている(図4)。 5
  • 6. 図 4 DoCoMo の絵文字は見た目が「M」のため、「今日も で昼」のように「マクドナルド」 の意として使われるケースもあるとされる 1 が、他キャリア向けに同文章を変換すると各キ ャリアとも地下鉄の意匠に変換表示されるため、意図が正確に伝わらなくなってしまう (「今日も で昼」という意図では無いため)。 3.4.2 フォールバック変換によるズレ すべての絵文字が1対1で変換対応をしている訳ではなく、いくつかの絵文字が1つの絵 文字にマッピングされているケースが存在する。この現象は一般的にフォールバック (fallback、一方通行)変換と呼ばれるが、該当すると変換された後に元の絵文字に復元 することができなくなるため、問題が生じるケースがある。 たとえば、DoCoMo における「 」「 」は au ではいずれも「 」にマッピングされてお り、au から投稿した「 」が「 」「 」どちらにマッピングされるかは、サービス次第 となる2 。 3.4.3 相互変換絵文字にマッピングされていない絵文字の扱い DoCoMo は基本・拡張あわせて 252 の絵文字が存在し(隠し絵文字は除く)、Ameba に ついても DoCoMo の絵文字に合わせて変換テーブルを作成しているが、 au、SoftBank と もに 252 種以上の絵文字が用意されているため au・SoftBank 固有の絵文字を無視してい ることになる。 Ameba では、多くのサービスで変換テーブルに対応しない絵文字については、投稿時に削 除する、という対応を行っており、au や SoftBank でのみ扱える絵文字が投稿できない。 たとえば au のモヤイ像「 」のような絵文字は、投稿時に削除される。 3.4.4 イーモバイルや iPhone 絵文字への未対応 現在のところ、イーモバイル3 、iPhone 絵文字4 それぞれについては未対応である。 なお余談ではあるが、「アメーバブログ」向けの iPhone アプリ 5 が存在し、iPhone から Ameba 絵文字が投稿可能な設計になっているが、iPhone から投稿した Ameba 絵文字付き 記事を DoCoMo、au、SoftBank のいずれの携帯で閲覧した場合でも、キャリア絵文字に 変換されずに画像のまま表示される。6 3.5 改善の提案 上記を踏まえて、いくつか改善の提案をする。 ・ Ameba 絵 文 字 ⇔ 3 キ ャ リ ア 携 帯 間 の 絵 文 字 の 意 匠 を 揃 え る 。 具体的には「 」のようなものを適切なものに修正する、という事を指す。 ・ 相互変換テーブルに対応していない絵文字が携帯から投稿された場合も、その携帯か ら閲覧した場合に絵文字として表示されるように機能修正をする。 1 http://internet.watch.impress.co.jp/docs/event/webdb2009/20091120_330426.html 2 http://japan.cnet.com/column/pers/media/story/0,2000058034,20390204-4,00.htm などを参考のこと 3 http://emobile.jp/service/pdf/mail_change_200805.pdf 4 http://www.studio-rose.com/emoji/emoji01.html に絵文字一覧が掲載されている 5 http://content.ameba.jp/iphone_blog/ 6 2010年 2 月現在 6
  • 7. 具体的には「 」が au から投稿された場合、少なくとも au の端末からは「 」と見 えるようにする、という事を指す。 ・ 少なくとも iPhone 絵文字については相互変換対応を行う ・ iPhone アプリの機能修正(投稿した Ameba 絵文字がキャリア絵文字に変換されるよ うにする) 4 Ameba サービス内での絵文字の使用傾向 続いて、Ameba サービスの中で扱われている絵文字の使用傾向について調査した。 今回は主に以下の観点に基づいて調査を行った。 ・ 絵文字の使用頻度 ・ 絵文字の文意解析 ・ 絵文字の使用者属性 今回は以下の2つのサービスについて、ある期間の投稿記事中に使われている絵文字の傾 向解析を実施した。 ・ Ameba なう ・ アメーバブログ 4.1 絵文字の使用頻度 4.1.1 Ameba なう ○ 使用データ 以下の期間のデータについて、つぶやき中の絵文字出現頻度を調査した。 期間 2009 年 12 月 10 日~2010 年1月13日 データ件数 約 540 万件(PC から:170 万/携帯から:370 万) ○ 出現頻度 ベスト20(PC・携帯総計) 出現頻度の高い絵文字ベスト20は以下のような結果となった。 なお下記は PC・携帯から投稿されたものの総数となる。 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 7
  • 8. 14. 15. 16. 17. 18. 19. 20. 結果から類推できる傾向としては ・ 感情表現系の絵文字が多い(顔文字系など) ・ 文意文脈を補うアノテーション用途で使われているケースが多い(ビックリマーク、 汗、音符、矢印など)。文章に絵文字を加味することで、文脈を適切に補っていると 推察される。 といった事が挙げられる。 なお、今回の解析結果では、感情表現とは異なる文脈の絵文字の登場は 29 位の晴れ「 」 が最初である。アイテムや生き物系の絵文字としては 44 位のネコ「 」が初出であった。 「WebDB Forum2009」にて百度が発表した内容1 によると、携帯サイト全般でもっと多く 使われている絵文字は「 」であり、それ以外も「 」「 」など、サイトのナビゲーシ ョンを示すアイコンとして多く使われる絵文字が頻度上位となっているが、明らかに今回 の結果は、携帯サイト全般の傾向とは異なることが伺える。 簡単にまとめると、以下のようになる。 携帯サイト全般 CGM サイト(Ameba なう) ・ サイトナビゲーションのアイコンとし ・ 感情表現や、アノテーション系の絵文字 て使われているケースが多い が多い ・ 記号、数字、アイテム系の絵文字が多 ・ 顔や手など身体表現系のものが多い い ○ 出現頻度 グラフ(PC・携帯総計) 絵文字の出現頻度を円グラフでまとめたものを以下に記す。 1 http://internet.watch.impress.co.jp/docs/event/webdb2009/20091120_330426.html の「絵文字頻度ラ ンキング」 8
  • 9. 031 029 139 123 320 176 035 193 328 038 173 186 177 336 324 194 028 106 105 319 other 表 1 ※凡例の数字は、Ameba 絵文字の絵文字 ID となる。ex.031→ 出現頻度上位 10 位までの絵文字で全体の 41%、20 位のものまでで全体の 62%を占める。 なお、出現頻度上位 50 位までに登場する絵文字のうち、感情表現系の絵文字が占める割 合は、絵文字の種類としては 45/50 = 90%(感情表現系以外のものは「 」「 」「 」「 」「 」のみ)となり、出現数の比率としては全体の 84%を占める。 ○ 出現頻度ベスト10(携帯からのみ投稿) 上述の結果は PC・携帯を合わせたものであるが、PC からのみ投稿されたもの、携帯から のみ投稿されたものについても出現頻度上位ベスト 10 を以下提示する。 結論としては、大きな傾向の差は見られない。 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. ○ 出現頻度ベスト10(PC からのみ投稿) 1. 9
  • 10. 2. 3. 4. 5. 6. 7. 8. 9. 10. 4.1.2 アメーバブログ(Ameba 絵文字) 「アメーバブログ」についても同種の調査を行った。 ○ 使用データ 以下の期間のデータについて、記事中の絵文字出現頻度を調査した。 期間 2010 年1月 16 日~2010 年 2 月1 4 日 データ件数 約 1500 万件 ○ 出現頻度 ベスト20(PC・携帯総計) 出現頻度の高い絵文字ベスト20は以下のような結果となった。 なお下記は PC・携帯から投稿されたものの総数となる。 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 10
  • 11. 16. 17. 18. 19. 20. 細かい順序が異なるものの、概ね「Ameba なう」と同じように感情表現・アノテーション 系の絵文字が多い、という傾向が見て取れる。 マイクロブログとブログサービスで、ユーザの使用するコンテキスト・ユースケースに若 干の差があると思われるものの、「何かしらのメッセージ性をもった文章を投稿する」と いう意味では共通していることも傾向の類似性の要因と思われる。 ○ 出現頻度 グラフ(PC・携帯総計) 絵文字の出現頻度を円グラフでまとめたものを以下に記す。 出現頻度上位 10 位までの絵文字で全体の 43%、20 位のものまでで全体の 62%を占め、上 位絵文字の出現比率については「Ameba なう」の解析結果と大体同じ傾向となっている。 031 123 029 176 139 035 038 173 039 320 193 194 028 186 319 175 106 089 178 105 other 表 2 4.1.3 アメーバブログ(みんなの絵文字) 「アメーバブログ」では「みんなの絵文字」も使用可能なため、こちらについても調査を 行った。 ○ 使用データ 以下の期間のデータについて、記事中の絵文字出現頻度を調査した。 期間 2010 年1月 16 日~2010 年 2 月1 4 日 データ件数 約 1500 万件 ○ 出現頻度 ベスト20 11
  • 12. 出現頻度の高い絵文字ベスト20は以下のような結果となった。 「みんなの絵文字」は PC 向けのサービスなので、以下の結果は PC から投稿されたもの のみの順位となる。 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. ユーザ作成の絵文字ということで、Ameba 絵文字や、携帯絵文字とは意匠は大きく異なる ものもあるが、星が煌めくようなもの(「 」「 」「 」)やハート(「 」「 」)、顔文字(「 」「 」「 」「 」「 」)など、Ameba 絵文字の上位の結果と 同様に感情表現やアノテーションの意図・目的で使用されている絵文字が多いと類推され る。 ○ 出現頻度 グラフ 絵文字の出現頻度を円グラフでまとめたものを以下に記す。 12
  • 13. ~10 11~20 21~30 31~40 41~50 51~60 61~70 71~80 81~90 91~100 100~ 表 3 出現頻度上位 10 位までの絵文字で全体の 6%、20 位のものまでで全体の 9%、100 位まで で 19%、という傾向で、出現頻度 100 位以下の絵文字のボリュームが 81%と非常に大きく なっている。 Ameba 絵文字が約 340 種であるのに対し、「みんなの絵文字」の累計絵文字作成数は約 180 万個ということもあり、「みんなの絵文字」の使用傾向は CGM サービスらしく非常 にロングテールな傾向を示している事が伺える。 4.1.4 ここまでのまとめ ・ 「Ameba なう」、ならびに「アメーバブログ」の投稿記事を用いて、絵文字の使用頻 度を調査した ・ 出現頻度上位の絵文字は、感情表現系、アノテーション系の絵文字が多く、記号系の 絵文字は少ない。 ・ Ameba 絵文字については、使用頻度の上位 10 絵文字で全体の4割を占め、上位 20 絵 文字で全体の6割を占める。 ・ 「みんなの絵文字」では使用頻度上位 20 絵文字で全体の 9%、上位 100 絵文字でも僅 か 19%となっており、ロングテールな傾向を示している。 4.2 絵文字の文意解析 ある絵文字が、どのような文脈で多く使われているか、調査した。 調査の手法として、「Ameba なう」などの記事中において、どんな語と連続して語られて いるかを抽出することで、文脈を類推する。 具体的な手法としては「コロケーション文字の抽出」というアプローチを用いた。 コロケーションとは以下の様に定義される ある単語と単語の”よく使われる組み合わせ、自然な語のつながり”のこと。1 今回は、絵文字の直前に出現する文字列のうち、頻出するパターンの抽出を実施した。 直前の語のみを抽出した理由としては、ヒューリスティックな理由であるがたとえば「 」 1 http://park1.wakwak.com/~english/note/note-collocation.html より引用 13
  • 14. と「おはよう」という挨拶語を一緒に用いる際、「 おはよう」よりも「おはよう 」と いった使われ方がされる事が多いためとなる。 なお、絵文字には「単語」「添加」「感情表現」「装飾」の4種の用いられ方があるとさ れる1 が、当該手法では結果として「添加」としての絵文字を対象とし、その絵文字のコロ ケーション文字を抽出する、という形になる。 コロケーション文字の抽出手段としては、「n-gram Prefix Span2 」と呼ばれる、頻出パタ ーンマイニングの手法「Prefix Span3 」を n-gram モデルの言語モデルに展開した手法を 採用した。 4.2.1 Ameba なう ○ 使用データ 以下の期間のデータを用いて、ある特定の絵文字の直前に出現するコロケーション文字を 調査した。「使用頻度」の解析を行ったものと同じデータである。 期間 2009 年 12 月 10 日~2010 年1月13日 データ件数 約 540 万件(PC から:170 万/携帯から:370 万) ○ ある絵文字と一緒に語られるコロケーション文字 出現頻度が多かった絵文字を中心に、解析結果を紹介する。 ・ 絵文字直前に出現する文字のうち頻度の高いものベスト20は以下のような結果となった。 うんうん おはようぃっしゅ〜 こちらこそ やったー おはよん みんな DAIGO~ ・°・ いえいえ わかった そっか サンキュー ただいま〜 こちらこそありがとう あら ただいまぁ おはなう はじめまして お帰りなさい b ノイズ的な語(たとえば「b」は「 (o^-')b」のような顔文字の断片である) も一部存在する が、今回は特に手作業で除去はせず、生データをそのまま提示する。 ノイズがあるとはいえ、大まかな傾向が掴める結果と思われる。 たとえばハート については、以下のような傾向が言える。  対人的なあいさつや、受け答えと一緒に使われることが多い(うんうん、こちら こそ等)  ポジティブな語と一緒に使われている(やったー、サンキュー等) ・ あらら やべっ ありゃ やべ 1 [山本+ 2010] 絵文字を考慮したテキスト解析の研究 2 http://chasen.org/~taku/publications/nlp2002.pdf 3 http://ibisforest.org/index.php?PrefixSpan などを参考のこと 14
  • 15. うわっ おはようございます そっかぁ そうそう いえいえ 寝すぎた m はぁ~ ありゃりゃ うーん あれ 寒いー やばっ きゃーっ 確かに ふぅ 先程のハート は明らかに異なる傾向が見られる。 まとめると、以下のような事が言えるかと思われる。  感嘆詞とともに使われることが多い(あらら、ありゃ、うわっ、等)  若干ネガティブなイメージの語と一緒に使われている(やばっ、寒いー、等) ・ b なるほど ただいま σ ゲッツ~ いえいえ YEAR お疲れさま~ おぉ~ ただいま~ お仕事お疲れ様です おかえりなさい うんうん 今日 1 日頑張って行きましょう あけおめことよろ おかえり ただいまぁ おはよん 今日は ゆきくん はーい キラキラ は概ねハート と同じような傾向が見られる。  対人的なあいさつや、受け答えと一緒に使われることが多い(ただいま、いえい え、等) ・ おはよー お疲れさまです 確かに あけおめー おぉ~ 初なう あけましておめでとう おはようございます今日は天気良いから頑 張りましょう なんと 了解 すごーい やったー こんばんは サイコー お疲れさまでした いいなぁ よっしゃ ただいま 同じく すごっ ビックリマーク の意匠に沿う形で、物事を強調したり、驚いている様が感じられ る  ポジティブな感嘆詞と一緒に使われることが多い(おぉ~、すごーい、等) ・ 天気を示す絵文字は、朝のあいさつ(おはよう等)と一緒に語られることが多い。 まず「晴れ」について結果を提示する。 15
  • 16. 皆さんおはようございます おはようさん おはなぅ おはようございま~す 山ちゃんおはようございます / あけおめです 明けましておめでとう おはようございまーす おはです おっは~ おはよ~ございます おはよございます おはょー おはよーです おはぁ おはようございます今日は天気 ぉはょ~ 今  朝のあいさつと一緒に使われることが多い(おはようさん、おはです、等) ・ 続いて「雪」についての結果である。 おはようございます 今 おはよー おはよーございます おはよ そっちは おはよ~ 明日雪 雪だー オハョ 今日も寒いね 今日は寒いね 外は おはす 雪降ってる~ 雪積もってる 雪ですか 寒くて メリークリスマス 初 雪 についても晴れ と同様に、朝のあいさつと共に使われるケースが多 い。 文脈として、「朝のあいさつ」+「今日の天気」を同時に相手に伝える、という行為を効 率的に行うためにこのような表記を多くのユーザが好んで行っている、と考えられる。  朝のあいさつと一緒に使われることが多い(おはようございます、おはよー、等)  「雪」を表す際にも用いられる(雪降ってる~、雪積もってる、等) ・ ノ 超眠い Night おやすみです おはようございます おやちゅみ おはよう おやすみっ o そろそろ そろそろ寝よう ねむ~い お休みなさ~い そろそろ寝よ ねみー ねんね おはよ おやすみなさい渧 皆さんおやすみなさい о゜ 絵文字の意匠どおり、眠た気なワードと多く語られている。  眠いという気持ちや、寝る行為を表す語と一緒に使われることが多い(そろそろ 16
  • 17. 寝よう、おやすみです、等) ・ 煆 します なんだ あ~ うぜぇ 意味わからん ありえん かっ イラつく やな だよね あぁ ノ にイライラ め~ 眠い あー う~ だな しやがった こちらも絵文字の意匠どおり、若干のイライラや怒りを感じさせる語が多い。  イライラや怒りの気持ちを表す語と一緒に使われることが多い(うぜぇ、イラつ く、等) ・ ブヒッ 食べました ありがとん 初なう おはようございます だよー おやすみ いじり おやすみなさい だわ お腹すいた 食べ過ぎ おはよう お腹空いた~ しゃぶしゃぶ ブ~ 0 ぶ~ だよ~ 太った ブタ のイメージから想起される事柄(鳴き声、食べ過ぎ・太り過ぎの象徴)を表 すような語と一緒に語られる事が多い。「ありがとん」という語尾の活用は、絵文字文化 ならではの遊び心が感じられる。  空腹状態や満腹状態など、食事行為と関連性が高い語と一緒に使われることが多 い(お腹すいた、食べ過ぎ、等)  鳴き声と思われる語が多い(ブヒッ、ブ~、等) ○ ある語と一緒に語られることが多い絵文字 上述とは逆に、「ある語と一緒に語られることが多い絵文字」について、いくつかの語を 対象に調査した。 ・ おはよう 「おはよう」という語と一緒に語られる絵文字は以下になる。 以下表は、出現頻度の多い絵文字について、Ameba 絵文字の ID 順に並べたものである。 なお、若干の表記ゆれ語(おはよぅ、おはよ、おはよー等)の結果についても一緒くたに して記載している。 17
  • 18. おおまかに言って、「おはよう」という語と一緒に使われる絵文字は以下のような分類が 行える。  動物(ブタ、ひよこ、ペンギンなど)  植物(ブーケ、クローバー、チューリップなど)  天気(雨、晴れ、雪など)  心象表現(ハート、汗、音符、ビックリマークなど)  身体表現(手など)  顔文字 動植物は、若干コミカルさも加味した心象のメタ表現として用いていると思われる。 天気関連の絵文字については、あいさつとともにその日の天候を伝える、という機能的側 面を果たしていると思われる。 一方、心象表現や身体表現、顔文字は、話者の感情をそのまま表現するために使われてい る、と類推される。 やや乱暴なまとめだが、朝のあいさつ「おはよう」は、後者3者(心象表現、身体表現、 顔文字・・・おおむね笑顔や強調表現が多い)に象徴されるような感情表現とともに用い られることが多い、という分析も可能である。 ・ おやすみ 「おはよう」と同様に、夜のあいさつ「おやすみ」についても調査した。 こちらについても、いくつかの表記ゆれ語(おやすみー、おやすみっ、おやすみぃ)の結 果についても一緒くたにして記載をしている。 18
  • 19. おおむね、傾向としては「おはよう」と同じような傾向であるが、 や など、夜を象徴する絵文字が一緒に使われていることが特徴と言える。 ・ 寒い 今回の調査期間が 12 月~2 月ということもあり、寒さに関する語や絵文字が量も文脈も多 様に含まれていたため、傾向を調査した。 「寒い」という表現が含まれている語すべてを対象にし、それらを合わせた結果について 以下記載する。 ペンギン や雪 などの、寒さを象徴するものが多く用いられていたり、 心象表現についても や のように気持ちが落ち気味、ネガティブな心象 を表している絵文字が多く用いられている。 日本の多くの人が、寒さに対してポジティブな感情よりもネガティブな感情を持っている という事がこういった結果からも伺える。 4.2.2 アメーバブログ 「アメーバブログ」についても同様の調査を行ったが、結果が重複するため一部の紹介の みに留める。 ○ 使用データ 以下の期間のデータを用いて、ある特定の絵文字の直前に出現するコロケーション文字を 調査した。「使用頻度」の解析を行ったものと同じデータである。 期間 2010 年1月 16 日~2010 年 2 月1 4 日 データ件数 約 1500 万件 ○ ある絵文字と一緒に語られるコロケーション文字 ・ こんばんは ポチッとおしてくださいね こんにちは こんばんゎ もうすぐバレンタイン 皆様 いつもありがとうございます よろしく 可愛い〜 皆さま おおむね「Ameba なう」と同じような傾向であると思われる。 なお、調査期間にバレンタインデーが含まれている。バレンタイン関連のワードが含まれ ているのはそのためである。 ・ ノ いや〜 19
  • 20. m お久しぶりです って言われました うーん / しもうた〜 o さぼっててごめんなさい 若干ノイズが多めのため判別が困難であるが、ネガティブな語と一緒に用いられている、 という傾向は「Ameba なう」と変わらないと思われる。 一方、「Ameba なう」では多かった感嘆詞(ありゃ、うわっ等)が上位にはリストアップ されていないところが、対人コミュニケーションの要素の強いマイクロブログに比して第 三者へのメッセージ的な意図も強いブログの特徴とも言えるかもしれない。 4.2.3 ここまでのまとめ ・ 「コロケーション文字の抽出」というアプローチで、絵文字がどんな文脈で語られて いるか、文意解析を試みた。 ・ コロケーション文字の抽出には n-gram Prefix Span の手法が参考になる。 ・ 抽出結果を見る限り、絵文字の意匠・イメージに一致する語が多く語られていること 推察できる。 4.2.4 コロケーション文字データの公開 「Ameba なう」の解析結果について、出現頻度上位 100 位程度までの絵文字については、 コロケーション文字の抽出結果を Google Docs 上にて外部公開しており 1 、誰でも自由に使 用可能である。 データはタブ区切りの TSV 形式プレーンテキストファイルとなっている。 4.3 絵文字の使用者属性 ある絵文字が、どのような属性のユーザに多く使われているか、調査した。 ここで言うユーザ属性とは、ユーザの「性別」ならびに「年齢(年代)」を指す。 Ameba サービスでは、図 5 のようにユーザの会員登録時の必須入力項目として「性別」 「生年月日」を入力する欄が存在し、ユーザが各欄の情報を登録する仕組みになっている2 。 3 図 5 今回はこちらの情報を使用し、絵文字つき記事を投稿したユーザの属性情報を解析し、絵 1 http://docs.google.com/leaf? id=0B5kuQ0wVMAkMY2E1MDRjZjQtOWVhOS00OGU4LTljNjktNzM3OWMxOGYxZTZj&hl=ja 2 入力情報は、会員登録後に管理画面から編集可能である。今回はある時点でのスナップショット情報 を用いた。 3 https://user.ameba.jp/ 20
  • 21. 文字の使用者属性の解析を試みた。 4.3.1 Ameba なう ○ 使用データ 以下の期間のデータを用いて、ある特定の絵文字の使用者属性を調査した。「使用頻度」 「コロケーション文字抽出」の解析を行ったものと同じデータである。 期間 2009 年 12 月 10 日~2010 年1月13日 データ件数 約 540 万件(PC から:170 万/携帯から:370 万) ○ Ameba なうのユーザ属性 本題に入る前に、「Ameba なう」の使用者の属性傾向について簡単に触れる。 ・ 性別 「Ameba なう」記事投稿者の性別分布は以下グラフのようになり、女性の比率が非常に高 い(約 73%)。 男性 女性 表 4 ・ 年代 年代については以下のグラフのようになる。100 歳以上など信憑性に疑いのあるデータも 存在するが、10 代~40 代にユーザが集中していることがわかる。また、男性の方が若干 ではあるが使用ユーザの年齢層が高めである。 80000 70000 60000 50000 男性 40000 30000 女性 20000 10000 0 ~ 0 40 70 10 20 30 50 60 80 90 0 ~ ~ ~ ~ ~ ~ ~ ~ ~ 10 ~ 表 5 ○ 絵文字投稿ユーザの属性 上記を前提として、「Ameba なう」に絵文字を投稿するユーザの属性解析を実施した。 ・ 全絵文字 21
  • 22. 男性 女性 表 6 絵文字投稿ユーザのうち女性が 79%で約8割となっており、「Ameba なう」の記事投稿 ユーザの属性と比べても女性の比率が高いことが伺える。 定性的な感覚から女性の方が絵文字を使うイメージは高いが、実際に数字の上でも裏付け られている。 一方、世代の比率については、下記グラフのとおり一般の記事投稿ユーザの傾向と大きな 差は無い。 CGM サービスなどを使いこなせる IT リテラシーのユーザは 30 代以下に集中しており、 そのユーザ層と、絵文字文化が定着している層が一致しているから、とも言えるかもしれ ない。 35000 30000 25000 20000 男性 15000 女性 10000 5000 0 ~ 0 40 70 10 20 30 50 60 80 90 0 ~ ~ ~ ~ ~ ~ ~ ~ ~ 10 ~ 表 7 以下、個々の絵文字について概観する。 ・ 12000 10000 8000 男性 6000 女性 4000 2000 0 ~ 0 40 70 10 20 30 50 60 80 90 0 ~ ~ ~ ~ ~ ~ ~ ~ ~ 10 ~ 表 8 ハートマークについては女性の使用率の高さが顕著である。特に 10 代~30 代では男性: 女性の比率が1:10~20 程度の開きがある。 何かしらポジティブな感情表現として文章中にハートマークを使用する事が女性の間では 一般化されているとともに、男性にとっては若干の照れがあることが仮説として想像でき るが、少なくとも数字の上での差は圧倒的である。 22
  • 23. 12000 10000 8000 男性 6000 女性 4000 2000 0 ~ 0 40 70 10 20 30 50 60 80 90 0 ~ ~ ~ ~ ~ ~ ~ ~ ~ 10 ~ 表 9 こちらはハートマークほど女性の比率が高くなく、男性も普通に使用している様が伺える。 ・ 一方、男性の使用比率が高い絵文字として「ビール」の絵文字が挙げられる。 1400 1200 1000 800 男性 600 女性 400 200 0 ~ 0 70 10 20 30 40 50 60 80 90 0 ~ ~ ~ ~ ~ ~ ~ ~ ~ 10 ~ 表 10 上記グラフの通り、20 代~40 代の男女比でも2~5倍程度の開きとなっており、絵文字 全体の使用傾向から考えると男性が使用している比率が高いことが伺える。 なお、10 代未満の投稿は、一般知識としての関心であり、自らの飲酒行為をさしているも のでは無いと期待する。 他に同様の傾向を示す絵文字として「 」「 」が挙げられる。 ・ 逆に、女性の使用比率が著しく高い絵文字が「リボン」である。 23
  • 24. 1000 800 600 男性 400 女性 200 0 ~ 0 70 10 20 30 40 50 60 80 90 0 ~ ~ ~ ~ ~ ~ ~ ~ ~ 10 ~ 表 11 上記グラフのように、ごく一部しか男性からの投稿が確認できない。 他に同様の傾向を示す絵文字として、先述のハート系の絵文字や「 」が挙げられ る。 ・ 比較的高い年齢層に使用される絵文字が「コーヒー」である。 1000 800 600 男性 400 女性 200 0 ~ 0 70 10 20 30 40 50 60 80 90 0 ~ ~ ~ ~ ~ ~ ~ ~ ~ 10 ~ 表 12 全絵文字では特に 10 代~30 代のボリュームが多いが、コーヒーの絵文字を投稿している 層はもう少しシニア寄りで、10 代が少なく、30 代~40 代が多めな傾向になっている。 「違いが分かる」ためにはある程度の年月を重ねる必要がある、ということかもしれない。 他に同様の傾向を差すものとしては、ビールや車、温泉「 」など、10 代の一般 的なライフスタイルとは離れたところにあると思われるモノが挙げられる。 4.3.2 ここまでのまとめ ・ 「Ameba なう」においては絵文字つきの記事投稿を行っているのは8割が女性で、女 性 か ら 絵 文 字 が 投 稿 さ れ る 比 率 が 高 い 。 (すべての投稿記事では 73%が女性からの投稿) ・ リボン「 」は女性、ビール「 」は男性など、性別差によって投稿の 傾向が異なる絵文字が存在する。 ・ コーヒー「 」など、世代によって使用傾向が異なる絵文字が存在する。 5 デモアプリの紹介 「Ameba なう」、「アメーバブログ」における絵文字の使用傾向について以上述べてきた が、上述の解析結果を用いた応用として、デモンストレーション用の簡単なアプリ作成を あわせて行ったので、本論で紹介する。 24
  • 25. 5.1 Ameba 絵文字 IME1 文章を入力すると、その文章にふさわしい Ameba 絵文字をサジェストするツールである。 サジェスト用の辞書データには、上述のコロケーション文字抽出結果を用いている。 Adobe AIR にて実装を行っており、インストールには Adobe AIR Runtime2 が必要である。 なお、「IME」と謳っているが、特に IME 的な機能は実装していない。 図 6 アプリを起動すると図 6 のような画面が表示される。ここで何かしらの文章を入力すると その文章と共に使われる事が多い絵文字がサジェストされる。 図 7 図 7 は「こんにちは」と入力した結果で、 や といった絵文字がサジェ ストされていることが分かる。 1 http://nd-ilab.jp/amebaemojiime 2 http://get.adobe.com/jp/air/ 25
  • 26. 図 8 入力を続けると、図 8 のような文章が生成できる。 生成した文章は、図 9 のようにそのままコピー&ペーストをして「Ameba なう」のエディ タに貼付け、投稿を行うことが可能となっている。 図 9 5.2 絵文字感情分析 1 絵文字は、何かしらの感情表現に用いられるケースが多いことが分かったので、絵文字の 出現傾向を元に文章の感情分析を試みた。 以下図1 0 が、今回作成したデモアプリの画面となる。 1 こちらのツールは非公開となる 26
  • 27. 図 10 それぞれの絵文字について、「積極性」と「感情」の2軸でプロットを行い、スコア付け を行う。 (たとえばハート は積極性-高い、感情-前向き、など) そして、文章中に含まれている絵文字の内容を元にスコアの加点を行い、結果として割り 当てられる座標に記事データをプロットする。その結果が図1 0 のような画面である。 座標の位置によって、以下のような意味付けを行っている。 ・ 右上(赤):積極性-高い/感情-前向き ・ 右下(黄):積極性-低い/感情-前向き ・ 左上(緑):積極性-高い/感情-後向き ・ 左下(青):積極性-低い/感情-後向き たとえば、右上にマッピングされている文章は図 11 のようなものである。 (いいとも観てたよん 今日の大湖も素敵 白い巨塔当たったぁスゴイ 生モンシュ ッシュが聴けて嬉しかったよん VIVA 凱旋門 大湖の生歌声が聴けて嬉しかった) 27
  • 28. 図 11 また、左下にマッピングされる文章は図1 2 のようなものである。 (あ~。。今日もコタツで寝ちゃぃそぉ 2 F に上がる気力ナシ www) 図 12 6 全体の考察とまとめ 以上、Ameba サービスにおける絵文字の扱いについて調査を行った。 28
  • 29. 絵文字の使用頻度については、感情表現やアノテーション目的の絵文字が多く使われてい ることが分かった。 また、コロケーション文字抽出による文意解析においては、絵文字とともに語られている 語の抽出により絵文字がどのような文脈で語られているかが類推できる結果が得られた。 今後の展開については以下3点を考えている。なお、下記については一部達成済みの事項 も含まれる。 1. 3.5 で挙げたような改善点の指摘や、今回の結果のフィードバックをサービス担当者に 対して行い、サービスの発展に活かす。 2. 4.2.4 で挙げたように、今回の解析結果の一部を外部公開する。 3. 今回は n-gram Prefix Span と呼ばれる手法などを用いて大規模テキスト群のマイニン グを実施した。その知見や経験を今後のデータ解析やアプリ開発に応用していく。 最後に蛇足ではあるが、今回のデータ解析において、並列分散処理フレームワークとして 著名な「Hadoop1 」を使用し、解析の効率化・高速化に欠かせないツールとして大いに役 に立ったことを付け足しておく。 7 謝辞 本論は社内の成果報告会(おひろめ会)や、サービス担当者向けのデータ解析報告会など で発表した内容をまとめたものである。 上記の場で様々な意見、アイデアをいただいた各位にこの場を借りて感謝いたします。 8 参考文献 [1] 工藤拓, 山本薫, 坪井祐太, 松本裕治. 言語情報を利用したテキストマイニング. 情 報 処 理 研 究 会 報 告 SIGNL-148, 2002. http://chasen.org/~taku/publications/nlp2002.pdf [2] 坪井祐太. 頻出部分文字列のマイニング. 情報処理学会研究報告. 自然言語処理研究 会 報 告 2003(108) pp.147-154 20031106 http://2boy.org/~yuta/publications/nl158-slides.pdf [3]  山本千尋,別所克人,内山俊郎,内山 匡. 絵文字を考慮したテキスト解析の研究. 情報処理学会 第 72 会全国大会 人工知能と認知科学, 2010. [4] 萩原正人, 水野貴明. モバイル検索システムのための絵文字に対する意味解析 . 言 語処理学会 第 16 会年次大会 , 2010 1 http://hadoop.apache.org/ 29