4. 取得データが多すぎる問題にどう対処する? unerryが上場した目的

2023年1月16日

ICC KYOTO 2022のセッション「AIの最新ソリューションや技術トレンドを徹底解説(シーズン3)」、全11回の④は、データを取るときの「闇の部分」と利用側のモラルについて議論します。法律ができる前に、自主的に統制は取れるのか？　また、膨大なデータをどう管理するのか？　当事者ならではの議論が進みます。ぜひご覧ください!

ICCサミットは「ともに学び、ともに産業を創る。」ための場です。そして参加者同士が朝から晩まで真剣に議論し、学び合うエクストリーム・カンファレンスです。次回ICCサミット FUKUOKA 2023は、2023年2月13日〜2月16日福岡市での開催を予定しております。参加登録は公式ページをご覧ください。

本セッションは、ICCサミット KYOTO 2022 プレミアム・スポンサーのリブ・コンサルティングにサポート頂きました。

▼
【登壇者情報】
2022年9月5〜8日開催
ICC KYOTO 2022
Session 11G
AIの最新ソリューションや技術トレンドを徹底解説(シーズン3)
Supported by リブ・コンサルティング

尾原　広告としてお金を払ってくれるのは、やっぱり欲望やコンプレックスの動くところみたいな話（Part.2参照）も含めて、そこら辺をどう見ていらっしゃるんですか？

「digital Me」として闇の部分も入れていかないと、その人にとっての本当のおもてなしはできない（前Part参照）ということと、一方でそういう産業のほうがお金を払ってくれるという、2つの観点があります。

内山　難しいなと思うのは、データを取る時って、闇も含めて取ってしまうわけですよ。

尾原　そうですよね。1回ね。

内山　そう。全部取るところから入って、一部さすがに、というところは除外するのですが、闇も含めてデータを取ります。

その後、“何が闇か判定”をします。

尾原　1回してみないと、分からないですからね。

内山　はい。それは時代によって違うし、あとは法律が変わったり、世論が変わったりして、闇判定を変えなければいけません。

あとはどういうふうに使うかというところを3段階ぐらいに分けていますが、一番最後のコミュニケーションは絶対的にきれいにします。

例えば、「あなたさっきまで東京駅にいましたよね？　そんなあなたに」みたいなことを言うと、とんでもないことが起きているように思われます。

尾原　見ているみたいなね（笑）。

内山　でも、東京駅に行っただろうなという空気を読み、その近くのお店をお出しするとか、その人の嗜好に合わせたものを出すのはいい距離感かな？という、その辺が重要だと思います。

データ利用統制を目的とする業界団体を立ち上げ

砂金　ちなみに、それはデータ利用側の企業の統制は、ちゃんと取れているんですか？

多分unerryさんとしては、モデルを作ってそれをAPIで提供するまでだと思いますが、そこから先どう使うか、最後のコミュニケーションの部分って、広告配信などをやられている方々じゃないですか。

せっかくきれいに振る舞ったとしても、無秩序、無思慮に色々なコミュニケーションが発生してしまうと、結構しんどい世の中、生きにくい世の中になるなと思いますが、そこはどう統制を取るんですか？

内山　いやあ、結構それは問題でして、それで僕たちは業界団体を作ったんですよ。

位置情報業界団体（一般社団法人LBMA Japan）を作って、今52社ぐらい入ってもらいましたが、そこでガイドラインを全部決めて、こういうふうに使っていいとか、使ってはいけないとか一応出しました。

みんなが守っているかどうかは……。

砂金　分からない？

内山　まだ分からない。

砂金　一応、一定の努力はしている？

内山　努力は相当しています。

清水　そうしないと、すぐ法律を作られてしまいますからね。

内山　そうなんですよ。

清水　業界団体の自主規制で、ちゃんとやらないと、という。

ただ一方で最近広告が邪悪化しすぎていて、やばくないですか？　Facebookの広告とか。

尾原　そうですね。ちょっとMetaさんの広告とかで、「明らかに偽物だろ、これ」みたいな。

清水　クリックすると全然関係ないドメインだったりする。あと有名な経営者が仮想通貨を発明とか（笑）、とにかく同じネタを何度も。

結局テクノロジーはどれだけジェントルに振る舞っても、悪意ある活用をされたら、対抗はかなり泥臭くやらなければいけません。

unerryが上場した目的

尾原　会社名を入れると発言しにくくなりますが、こういう事業にずっと携わってきた個人の砂金さんとしては、その辺はどう思っていますか？

清水　（笑）。

砂金　いや、個人にしても、別に発言の内容はあまり変えられない（笑）。

尾原　変わらないか（笑）。こういうところで色々な知見がおありになるし、センシティブなところをこれから使われることも。

砂金　ちなみにセンシティブデータは、例えば特定の診療科の病院に週1通っているというデータがあって、それを生命保険会社の人が何らかの形で取得できる状態だったとして、「あなたは、保険加入料がすごく高くなりますがいいですか？」みたいに使われると、非常にまずいじゃないですか。

これは“データ多すぎる問題”と、あとばらつきがあるところで、多分バイアス除去みたいなことをずっとやって、最後に統計値として出していると思います。

ディファレンシャルプライバシーと言うんですかね、問題になるのは統計データだからいいじゃないですかという一定の処理があるのですが、でも条件を重ねていって絞り込んでいくと、きっとこの3人の中の1人みたいな、もう統計とは言え、ほぼ本人が特定されてしまうみたいなことがあります。

清水　このビルにはこの病院しかないとか、このビルにはサラ金しかないとかね。

砂金　そうそう。

尾原　あそこに行った後にあそこに行くってことは、そういう薬を取りに行っているんだよねとか、色々分かってしまいますからね。

砂金　僕らはまだ実務レベルではやれていなくて、研究としてやっていて、ディファレンシャルプライバシーは、多分Appleさんたちが非常に頑張っているのですが、あえてノイズになるデータを入れるんです。

▶差分プライバシーとは – AppleやGoogleも活用する最先端のプライバシー保護技術（LayerX PrivacyTech Newsletter）

尾原　そうですよね。

砂金　ノイズを入れた上で統計をとると、プラットフォーマー側は、これはノイズである、これはリアルなデータであるというのが識別できる形になっているので、やはりそういう処理をしておかないと、センシティブデータを扱うのは今後結構しんどいなと思います。

まだルール化されていないので、清水さんがおっしゃる通り、放っておいて、会場の皆さんがユーザーとして、これはやっぱりやばいみたいな声を上げだすと、ヨーロッパ化するので（笑）、これもだめ、これもだめみたいになってしまいます。

清水　あと、ユーザーもバカではないから、気づいていますよね、結局、東京駅に行ったから出ているんだろうなって。

それを気持ち悪いと思われるかどうかというのは、かなりロジカルじゃない問題なんじゃないかなって僕は思っています。

サービスは素晴らしいですし、でき上がっているものもすごいと思うけれども、使われ方というところは、非常に実は難しいのかもしれないなという。

尾原　ここだけにフォーカスしてしまうと、こういう議論になるので、だからこそ最後にUXということを置かれたんじゃないかなと思っています。

そこら辺の話もまずスルーしているから、内山さんの話に戻ったほうがいいんじゃないかと思いますが。

内山　そうですね、ありがとうございます。確かに。

結果、僕らがなぜこんなことをやっているかというと、出口としての心地よい体験を作ることが目的なので、そのためのデータであり、AIであって、これの順番を間違えてしまうと…….。

尾原　嫌がっているものを売りつけるのではなくて、心地よい体験にしてあげようというのが目的で、そのためにデータがあるということですよね。

内山　はい。会社が邪悪化すると、僕らの色々なデータが邪悪にどんどん流通する可能性があるので、今回上場した目的は何かというと、僕らがそうじゃない会社であることと、そんな会社が世の中に存在しないといけないというところで上場しました。

大量過ぎるデータへの対応

内山　あとは細かい話ですが、僕らは売上20億円くらいの会社ですが、それにしてはデータ量があまりにも多すぎるんです。イメージでいうと、世の中の何千万個という携帯から、1分に1回データがドンと送られてくる。

それが月間数百億レコードあって、色々合わせると月間に数千億件ぐらい、新しいデータが付け加えられます。

つまり、非常にデータ量が多いので、もう誰かが何か手作業でやれるレベルを超えてしまいます。それをいかに技術を使って解決するかというところだと思います。

砂金　ちなみに、やはりこのパターンで言うと、AWSより、Azureより、GCP（Google Cloud Platform）のほうが都合がいいのですか？

内山　そうですね、一番都合がいいです。

清水　Azureではだめなんですか？

砂金　Azureは、多分データ量が少ない時に、ExcelライクなPower BIみたいなものでちょっと分析しようということは抜群に良くできているのですが、大量データになりすぎるとか、ベクトル演算しないといけないような場合には、多分GCPのほうがいいのでは。

内山　一番いいです。

清水　この分量だと、回線費だけですごくいきますよね。

内山　ものすごく高いです。

尾原　今すごく、響く人には響く会話をしています（笑）。

清水　僕も最近Cloud Functionsでめちゃめちゃお金を取られて、青ざめたのが記憶に新しいので。

非常に青ざめますね、数字を見ただけでね。

1,000億件て何ミリ秒だよ？みたいな（笑）。

尾原　この辺、シンセシス（synthesis）が多い岡田さんのところは、大変なんじゃないですか？

データインフラに関して、何か工夫がありますか？

岡田侑貴さん（以下、岡田）　僕らに関しては、AIで大量のデータを合成し、提供する取り組みが相当多くなってきたので、計算コストやデータ容量コストが重いため、基本はクラウドがなかなか使えなくなってきたというか、最初はずっとクラウドでやっていましたが、逆に今オンプレ化（自社運用）の流れがとてつもなく社内で進んでいますね。

コスト的にかなり厳しいという……。

▼
岡田侑貴
株式会社データグリッド
代表取締役

京都大学にて機械学習分野を専攻し、京都のAIベンチャーにて金融分野のデータ解析業務に従事。その後、AIの研究領域において急速な発展を遂げていたGAN（Generative Adversarial Network、敵対的生成ネットワーク）に注目し、GANの技術開発及び社会実装を行うべくCTO小川とともに当社を設立。また、当社のAI技術を応用したDappゲームを開発・運用することを目的として、ICOVO AG社などと共同出資により設立した株式会社ジーンアイドル取締役副社長を兼任している。
▲

尾原　色々な合成のAIをやっていらっしゃるわけですが、どういうユースケースが、データをオンプレ化したほうがいいということで、やるんですか？

▶予測AI×生成AIで、制約を超えた全く新しい画像を作り出す「データグリッド」（ICC KYOTO 2020）【文字起こし版】

岡田　清水さんも今実際にアプリ（Memeplex）を作ってやられていますけれども、無限に作れるので、1週間で何テラもすぐ増えてしまい、1年経ったら数百テラとか、テラの上に行ってしまうみたいな形になります。

そうなるとなかなかクラウドでやるのは、コスト的には相当な資金を持っていれば別かもしれないですが、一定のユーザビリティを多少犠牲にしてでもオンプレにしないと、なかなか合わないみたいなケースは出てきますね。

清水　データグリッドさん、オンプレでデータを持って、それをどうやって？

尾原　お客様のために解説する動画を作られたりとか、バーチャル試着（kitemiru）とか、ものすごく色々な合成のタイプがあるじゃないですか。

岡田　自社の中でオンプレのデータセンターを作っていて、それをAPIで提携する仕組みです。

清水　なるほど、なるほど。

尾原　ここら辺はやっぱり使い方が変わってきますよね。

特に、分析だけではなくてデータを合成してとなると、派生データもすごく多くなってくるので、その辺は…、すみません、また枝道に行ってしまいましたけれども。

内山　いえいえ。Google Cloud BigQueryが溜めるのは安くて、クエリー課金なので、やっぱり僕らに一番フィットしているということですね。

清水　なるほど。なるほど。