私は年に1回顔を合わせる友人がいます。普段は全くお互い連絡は取らないのですが、年末だけは生存確認も兼ねて会食をします。決まって会食の場所は「新宿」です。彼も福島からわざわざ出て来てくれます。新宿副都心の摩天楼への憧憬からでしょう。今尚、私たちにとっての「東京」は「新宿」なのかもしれません。
さて、本題に入ります。毎度、骨が折れるのがこの「会食場所選び」なのです。気のおけない知己とは言え、やはり遥々上京するのですから、満たされない思いになってもらいたくはありません。そこで食べログ(https://tabelog.com)を利用して、お店探しをすることになるのですが、注意するべきことがあります。
食べログ「点数」はあてにならない
本論では無いので詳述は控えますが、「レビュアー(口コミをする人)の影響力」が大きく点数に影響をしているそうです。また、レビュー数が少ない場合には、いくらそれぞれが良い点数だったとしても、高得点はつかないようです。
つまり、点数のみを信用することは出来ないということです。
とは言え、口コミを一つ一つ自分でチェックするのは大変すぎるのじゃ。それに、客観性にかけてしまうのぉ。
あてにならない「口コミ評価」で判断するのをやめ、「信頼性の高い口コミ(テキスト)を点数化する」ことによって、本当に居心地の良いお店を探す手がかりにしたいと思います。手順は以下のようになります。
1.食べログから必要な口コミデータを取得
2.口コミを形態素解析してネガ・ポジ分析
3.フィールドワークによる効果確認
プログラマとしての企業案件なら、ここから先に統計的な分析や、コンサルティングを行うのですが、今回は100%趣味の範囲なので、手順3で「実際にお店を利用して良いお店かどうかを確認する」だけです(フィールド・ワークなんて格好良い言葉を使う必要は無かったかもです)。
口コミ情報の大量取得
そもそも大量のデータを取得してこなければなりません。食べログはAPIの公開をしておりませんので、htmlの分析を行い、必要なデータをどのようにして取得するのかを考えます。ここではスクレイピングを行い、下記のようにファイルを作りました。内容の複製は禁止されていますので、一部モザイクをかけています。ネット上から誰でもアクセス出来る情報です。

上記の「review_text」の列をテキスト分析を行います。それぞれのテキストを取得し、MeCabによる形態素解析を行います。「形態素解析」とは、文章を単語単位で分けることです。機械は「文章の意味を理解する」ことは残念ながら出来ません。この処理方法はテキスト・マイニングには必ずと言っていいほど登場します。
ネガ・ポジ分析
至極簡略化して概要を述べるのなら、単語に「-1〜1」の点数をつけ、その数値の平均値によって「ネガティブ(低評価)」か「ポジティブ(高評価)」かを判定するという仕組みです。最終的な結果の出力は「偏差値」として出力しています(直感的に把握しやすいと思われますので)。数値が高ければ高いほど良い口コミということだと考えてください。
分析結果を見てみましょう。
スコアが高い口コミが「71」です。その内容は以下のようなものです。
お客様にお食事に誘われて、連れて行ってもらいました新宿5丁目交差点のビルの地下にあるお店です店内はオシャレ!これだけ雰囲気の良い店は久しぶり店員さんもイケメンと美女ぞろいみんな気さくで感じが良いですお酒はとにかくワインが豊富!価格もボトル1900円からありますお手頃で美味しい2980円のワインが一番多いところが嬉しい♪お料理もオリジナリティのあるお料理が並びます。特に美味しかったのは「お肉盛り合わせ」と「バーニャカウダ」お肉はローストビーフや鳥のハムや牛タンスモークなどいろいろ乗っていますかなり美味しいです!バーニャカウダは野菜はとても新鮮、バーニャソースもたっぷりですあとはお勧めの鴨のカルパッチョやフォアグラ大根などをいただきましたどれも美味しくて、そして盛り付けもオシャレこんなとこにデートで連れてきてもらえたらイチコロだなぁ何よりそのコスパに驚き!お肉盛りが980円、バーニャは880円写真も載せましたが、この量でこの質でこの価格・・・しかし飲みすぎたが故、かなりの金額になってしまいましたが、通常であれば、1人4,000円~5,000円あれば十分満足できると思います。次はデートで行きたいです♪
こりゃ確かに高得点。味、店の雰囲気共に問題なさそうじゃ。妻とのデートに使いたくなるのじゃ。
とは言え、上手くいく場合だけではありません。例えば、次がその例です。スコアは「37」でしたが、口コミ内容は決して悪くはありません(寧ろ良い方です)。
こちらのお店は新宿で夜遊びする時に伺わせていただいたお店です。普段はあまり焼酎、日本酒などは飲まないのですが、このお店では日本酒を頂きました。新宿は私の中では不毛地帯なので新宿にこうゆうお店は残っていてほしいなぁなんて思うので書かせていただきます。私の友人が新宿大好き人間なのでこちらお店を知りました(^_^*)突出してる感は無いんですけどもなんか地元の居酒屋を思い出すような雰囲気で居心地良い場所だなと思います。新宿で困ったらついつい入ってしまうお店です(*^^*)おわり
結構高評価な気がします。おそらく、「不毛」とか「無い」、「困ったら」などのワードがマイナス評価になってしまった要因だと考えらえます。この辺りも含めて精査は必要かもしれません。しかし、ランダムに選んだ口コミと点数の連関を概観してみたところ、おおむねテキストの内容に沿った点数付けが出来ていますので、必要条件はクリアしていると考えられます。
ハヌリ新宿歌舞伎町ゴジラ通り
ここまでの作業で、大量の口コミデータ(約1,000件)を数値化することが出来ました。以上の分析から導き出された、ふぉれぽん的食べログ最高ランク店は「ハヌリ新宿歌舞伎町ゴジラ通り」という結論に達しました。
この店に対して、食べログさんが付けている点数は3.5点(2019年5月6日現在)です。決して低くはない点数ですが、スルーしてしまいそうな点数ですね。我ながら良さそうなお店を発掘することが出来ました。私の友人に、ここを次回の会食場所として提案して、実地調査をしてみたいと思います!