【安宅×佐渡島】ヤフー安宅氏が語る、”データを処理する3つのステップ”【F17-5E #2】 – 【ICC】INDUSTRY CO-CREATION

【安宅×佐渡島】ヤフー安宅氏が語る、”データを処理する3つのステップ”【F17-5E #2】

Pocket

平日 毎朝7時に公式LINE@で新着記事を配信しています。友達申請はこちらから!
ICCの動画コンテンツも充実! Youtubeチャネルの登録はこちらから!

「今、AIと漫画が熱い」【F17-5E】セッションの書き起し記事をいよいよ公開!11回シリーズ(その2)は、ヤフー安宅さんがデータサイエンティストの仕事について解説しました。また、その中で、ビッグデータから見える世界について議論しました。是非御覧ください。

ICCカンファレンスは新産業のトップリーダー160名以上が登壇する日本最大級のイノベーション・カンファレンスです。次回 ICCカンファレンス FUKUOKA 2018は2018年2月20日〜22日 福岡市での開催を予定しております。


【登壇者情報】
2017年2月21〜23日開催
ICCカンファレンス FUKUOKA 2017
Session 5E
安宅 x 佐渡島 特別対談!
「今、AIと漫画が熱い」

(スピーカー)

安宅 和人
ヤフー株式会社
チーフストラテジーオフィサー

佐渡島 庸平
株式会社コルク
代表取締役社長

(ナビゲーター)

井上 真吾
ベイン・アンド・カンパニー・ジャパン
プリンシパル

「今、AIと漫画が熱い」の配信済み記事一覧

前の記事

本編

佐渡島 データサイエンティストの肝は何なのですか?

Yahoo! JAPANには山のようにデータがあるじゃないですか。その中のデータを使っての分析には、どんな面白いものがあったのですか?

ヤフーはデータで飯を食っている

安宅 ヤフーというのはデータで飯を食っていて、売上や利益のほぼ全てがデータなんですよね。

コマースもそうですし、検索もそうですし、広告自体もそうですし、メディア面そのものがデータの利活用で、一人一人に最適化されているんですよ。

コマースもそのように最適化されていて、広告のマッチングも、機械学習の化け物みたいなものなので、リアルタイムマッチングをすると。機械学習自体はもちろんデータがないと行えないので、分析以前にそういう活用が多いです。

そういう意味で、すべからくデータですね。

毎日四千本程度流れ込んでくるニュースの写真を、出し面に合わせて横長くするとか四角くするとかも、クリッピングを手でやっていたらきりがないので、あれは実は機械学習の一種であるディープラーニングの力を借りて、自動で綺麗に切り取るようにしています。

人がいくらやってもしょうがないようなことは全部そうやっていると。分析も日々膨大に行われているのですが、、。

このように、ヤフーのサービスというのはそういう風にデータやAI的な技術が使い倒されています。

ということで、ヤフーは、多分日本一だと思われるトラフィックをさばくところから始まって、最後の利活用まで全てデータで繋がっているという感じです。

データ処理には3段階ある

安宅 データサイエンティストとは一体何なのかという問いにシンプルにお答えするのはなかなか難しいのですが、まず頭に置いておいていただきたいのは、データ処理にはざっくりと3段階あるということです。

1つ目は、データ収集。2番目に処理、3番目がアウトプット、出力、です。

アウトプットはもうメディアの面であって広告だったりコマースだったりするのですが、、いわばデータ利活用の出口です。

メガトラフィックとして入ってきたデータが、データウェアハウス(Data Warehouse/DWH)と呼ばれるところに突っ込まれます。ただそのままだとでかすぎる上、クイックに扱うのが難しすぎるので、それが分析、あるいは情報活用目的別のデータベースに必要なものだけ引き抜かれて入っていきます。

この分析用のデータベースをデータマート (Data Mart)と言うんですけれども。このウェアハウスやデータマートに直接手を差し込め、出口側、事業統括側と会話できる人が、データサイエンティストと言われている人達です。

そもそもの情報を受け入れる基盤や分析ツールを作っている人は別の人ですし、流れ込んでくる数値以外のデータを解析可能にするための言語処理や画像処理の専門家や、情報と情報をマッチングするレコメンデーションエンジン開発の専門家は多くの場合、別のプロフェッショナルなんです。

その代わり、その人はBI (Business Intelligence)などのツールに依存せずにDWH、データマートに直接手を突っ込めるというのと、全ての人と会話ができる。

だから、情報バリューチェーン上のハブに近い。この立ち位置が実は肝を示しています。

必要なスキルとしては、使える情報科学と、データサイエンスと言われている、自然言語処理や幾何学習みたいな情報科学が分かり、技術を作ることはほぼないが、個別の専門家と相談しつつちゃんと使える、これが1つ目。

2つ目は、結局それをコンピュータに実装しないといけない、それで回さなければいけない。実装して回すというエンジニアリングの力。これが2つ目。

3つ目は、広告をどうするとか、物流システムの最適化など、リアルな問題があるではないですか。この問題を整理し、この2つの力に繋げる力が非常に重要で、問題を整理してこれに繋げる。これが3つ目です。

この3つのスキルをそれなりに持っていて、橋渡ししつつ、課題解決に繋げられるというのが、実は肝なのです。それはこの交点の場所にいるからですよね。

これが、自然言語処理の専門家や、莫大なトラフィックをさばく専門家だと、それだけで重いので、これだけやっていればよいのですが、この人は出面と入ってくるところの繋ぎ目にいるので、全部繋がらなければなりません。

佐渡島 その人には、どんな世界が見えているのですか?

安宅 どんな世界というかもう、ひたすら問題解決ですよ。結果が出れば、ガンガン回して面白いねって。

佐渡島 どんなタイプの問題解決なのですか?

安宅 メディアだったらよりちゃんと腰を据えて見て頂けるようになるとか、広告だったらマッチングの精度がより上がって、お客様もウザく感じなくなって、広告主の方も喜ばれるとか、コマースだったらより欲しいものが見つかったり、手に入りやすくなって、結果としてバスケットサイズが大きくなるとか、来店頻度が増えるとかそういう感じですかね。

選挙で誰が当選するか9割以上予想が当たる

佐渡島 ヤフーのそういう大きなデータをご覧になっていて、人の動きなどをご覧になられて、人間理解の仕方が変わったりとか、そういうことは起きるのですか?

安宅 起きます。すごいですよ。

何種類かあるのですが、例えばですね、検索のデータを見ていると、選挙の前なんかに、ある人や政党が注目を集めている様子が手に取るようにリアルに分かるんですよ。

リアルタイムで、新聞より遥かに早く分かっちゃうんですよ。

地域ごと、属性別にすごく分かる。

それが、このような政党だったらどのくらい注目度が選挙までに上がるかって、実は過去のパターンからかなり正確に推測できるのです。

また政党別の注目度と得票のコンバージョン計算が相当レベルでできます。

掛け合わせるとその人が当たるか当たらないかは、過去の経験上、少なくとも9割は当たると思います。

最初にそれをやろうとした2013年の参議院選挙の時には、96パーセント当たりましたからね。

この数年、今、段々接戦になって当たりにくくなっているのですが、、。

佐渡島 へえ。野党は連合で?

安宅 はい。そして、接戦になるほど厖大なサンプル数がないと当たりません。これは必要なサンプリング数を出すための式から言えることです。

佐渡島 だから、分かっているから、(2017年の)年明けに選挙をしなかったのですか?

安宅 政治は門外漢なのでよく分かりませんが、恐らくそれも一つの理由だと思います。

当時、我々にはリアルに党別の注目度が見えてしまっていて、こんな(接戦)状態で選挙をやられたらもう当てられないよというのが、僕ら(Yahoo! JAPANビッグデータレポートチーム)が、思っていたことです。

これは言ってよいのか分かりませんが(笑)

「痛い」は朝9時、「くさい」は朝8時

安宅 こういうことも分かりますし、ヤフーはTwitterやFacebokの両者と特別な契約をして、オープンポスティングを全部リアルタイムで頂いているので、あれらを見ていると、一体いつ人間が痛いと感じるのかや、気分的なもののピークや変動が見えるのです。

佐渡島 どういうことですか?

安宅 「痛い」ってTweetしている時間とか、総Tweet量に占める「痛い」の割合とか見ると、分かるんですよ。

「痛い」のピークは大体9時頃なんですよ。大体9時ごろなんです。(笑)

(一同 笑)

井上 夜ですか?

安宅 朝です。朝痛い。

佐渡島 なぜですか?

安宅 わかりません。ただ、それはやはり、会社が嫌になるのではないですか?

それが、夕方の4時ぐらいだと頭が痛くなってきて、とかね。

「痛い」にも色々あることが分かるんです。(時間帯によって)腰だか足が痛くなったりするんです。

「臭い」のピークは朝8時とか、よく書き込みを見ると、電車とかバスの臭さなんですよね。

皆オヤジ臭いとか言ったりするんですよね。

そういうので分かります。

この間の熊本地震の時も、すごくメッシュに見ると、結局どこに隠れ避難場所があるかというのも、手に取るように分かるんですよ。

例えば多くの人にお使いいただいている、災害情報アプリの利用位置は、地図アプリでみなさんが実感できる程度の精度で把握することは可能で、しかも利用のたびに更新されるので、かなりリアルタイムで分かります。

通常時と比較することで、このような問題が発生している場所がどこにあるか分かるんですよ。ヤフーの場合、各個人の登録データと利用データは完全に切り離されて管理しているので、匿名性を保ったままこのような価値を引き出すことが可能です。

佐渡島 それはデータを検索しないといけないのですか?どうするのですか?

安宅 各アプリの位置情報は、ユーザの方がサービス提供のために利用可能と設定している場合、ログデータの一部として入ってきます。先程の災害情報もそうですが、天気表示など、その人に合わせないと、ユーザの方に意味が無いので。

で、先程の話であれば、あるエリアのその位置情報のログデータを抽出し、可視化し、時系列比較することで分かります。とはいうものの膨大なデータなので、もしそのデータを手に入れたとしても、普通の会社の解析環境ではなかなか見れないと思いますが、、。

井上 なるほど。

(続)

続きは 【安宅×佐渡島】データを宝の山に変える「目的意識」の持ち方 をご覧ください。

平日 毎朝7時に公式LINE@で新着記事を配信しています。友達申請はこちらから!
ICCの動画コンテンツも充実! ICCのYoutubeチャネルの登録はこちらから!

編集チーム:小林 雅/榎戸 貴史/戸田 秀成/横井 一隆/立花 美幸/Froese 祥子

【編集部コメント】

朝の電車は独特な香りがしますよね…、ICC KYOTO 2017のカタパルト -IoT/ハードウェア特集- のベストプレゼンターは臭いの数値化デバイス「クンクンボディ」でしたが、みんなもっと自分で自分をクンクンしてみないと…(榎戸)

続編もご期待ください。他にも多く記事がございますので、TOPページからぜひご覧ください。

更新情報はFacebookページのフォローをお願い致します。

Pocket

ICCパートナーズ

ICCパートナーズ

ICCパートナーズ(ICC Partners Inc.)は産業を共に創る経営者・経営幹部のためのコミュニティ型カンフ ァレンス「Industry Co-Creation(ICC) カンファレンス」の企画・運営および新規事業創出・アライアンスなどのアドバイザー業務を行っています。