11. ここまでできる! 1人の客の行動、商品への接触をデータ化する「エッジAI」

2023年7月10日

▶カタパルトの結果速報、ICCサミットの最新情報は公式Twitterをぜひご覧ください！
▶新着記事を公式LINEで配信しています。友だち申請はこちらから！
▶過去のカタパルトライブ中継のアーカイブも見られます！ ICCのYouTubeチャンネルはこちらから！

ICC FUKUOKA 2023のセッション「AIの最新ソリューションや技術トレンドを徹底解説(シーズン4)」、全12回の⑪は、AWLの「エッジAI」について解説。店内のデジタルサイネージを見ると、性別や年齢、視聴時間が分析でき、サーバーには送られないため、プライバシー漏洩のリスクも少ないそうです。そのすごい技術、詳細は本文をぜひご覧ください!

ICCサミットは「ともに学び、ともに産業を創る。」ための場です。そして参加者同士が朝から晩まで真剣に議論し、学び合うエクストリーム・カンファレンスです。次回ICCサミット KYOTO 2023は、2023年9月4日〜 9月7日京都市での開催を予定しております。参加登録は公式ページをご覧ください。

本セッションのオフィシャルサポーターはファインディです。

▼
【登壇者情報】
2023年2月13〜16日開催
ICC FUKUOKA 2023
Session 11C
AIの最新ソリューションや技術トレンドを徹底解説(シーズン4)
Supported by ファインディ
▲

社会実装が進むAWLのサービス

土田　少し時間を使い過ぎたので、加速してお話ししますが、リテールでAWL BOX、AWL Liteを使いながらいろいろやっていきたいと思います。

AWL Liteは視覚的に何をやっているのかというと、例えば最近増えましたが、リテールのエントランスなどに比較的大きいデジタルサイネージが置いてあって、店内の告知もしくは何かしらの広告が流れていることがあるかと思います。

それがリアルタイムに性別、年齢とその人がどのくらいの時間視聴していたかを認識するためのものになっています。

こちらは、こんな感じで動いていますよというものです。

この動画は繰り返し再生をしているだけですが、時々白ポッチがこの右上に出るシーンがあるかと思います。

これが顔をこちらに向けているという瞬間で、顔をこちらに向けている＝この人はこの時間、このサイネージを見ていたんだよねということで、性・年齢属性と、リアルタイムに200ミリ秒単位での視聴時間を出しているものになります。

尾原　0.2秒単位で何秒見つめてくれたのかが分かるということですね。

土田　はい。もう1つのポイントは、デジタルサイネージを表示するためのデバイスがありまして、非常に安価な数万円程度のデバイスですが、表面ではデジタルサイネージの映像が流れながら、裏側ではAIの処理をする形でやっていることです。

すでに世の中に設置されているデジタルサイネージに特別な新しい機器を追加することなく、私たちのソフトだけ入れれば、こういった形で分析できますよというものになっています。

お店の名前は挙げられないのですが、コンビニなどを中心に私たちの技術をかなり導入させていただいています。

北海道新聞で紹介されたのは、「エレベーターメディア」です。

▶AIで視聴状況分析札幌・アウル開発、エレベーター1万台に導入（北海道新聞会員限定記事）

エレベーターの中に最近サイネージが付いているのを見かけることがあるのではないかと思います。

エレベーターメディアの雄のジャパンエレベーターサービスさんが展開している全国1万基のエレベーターの中にAWL Engineを採用していただくことになりました。

そんな感じで、ちょっとずつですけれども、社会実装が進んでいるものになっています。

尾原　でもお高いんでしょう？

土田　これは非常にお安くてですね（笑）、1万ライセンス時という目盛りになってしまいますが、その場合1ライセンス4,000円ポッキリです。

これはSaaSでなく、ポッキリで提供しています。

都筑　データは、エッジで分析されて、サーバーに送っていくものなんですか？

土田　全てエッジでやっていて、先ほどのケースだとジャパンエレベーターサービスさんのアプリにデータを連携しているので、僕らは一切サーバーにアクセスしません。

尾原　今言っているのは、どうしても顔のデータやプライバシーデータを使ってしまうんじゃないかと思うけれども、年齢とか何秒見たかというデータだけがサーバーに送られるから、プライバシーにあたるものはローカルから出ないプライバシーリスクの低いエッジ処理ということも含めて4,000円です。

▶エッジ処理ってどんな処理？システム開発の分野で役立つの？（発注ナビ）

土田　はい。プライバシーとコストと、あとはリアルタイム性というところで非常に有効な方法になっています。

尾原　ここまで来ているんだー。

土田　もう1つ、AWL BOXは、天井などについているセキュリティカメラの映像を使って、例えば先ほどのサイネージの視聴者が実際に売り場に行って、そこで商品接触をしたかや、あとは商品棚の前でどの程度の時間滞在していたかみたいなところを検出していくものです。

非常にシンプルで、人間だったら誰でもできるような話ですが、店舗のすでについているセキュリティカメラの映像を使って、サイネージを見た後に、どこそこの売り場に行って商品を触ったとか触らなかったという情報にまですることができるものになっています。

サツドラのデータを利用してモデルを構築

都筑　時間がない中すみませんが、質問があります。

これはトレーニングしづらそうだなというのが直感的にありまして、先ほどの動画のように、正面から見るものだと、目の中にたくさんデータがあってという感じだと思いますが、最初の立ち上げのときはどのようにやられたんですか？

土田　私どもの会社の成り立ちに関わることですが、北海道好きな方は知っているサツドラホールディングスが北海道に200店舗ほど展開しているサッポロドラッグストアーというチェーン店があります。

私どもは最初の数年間は、サツドラホールディングスのグループ会社という形で、完全にサツドラの中のAI部門みたいな形でやらせていただきました。

そのときはサツドラだからということでしっかりデータも使わせてもらって、モデルも作らせていただいていました。

尾原　AmazonからAWSが生まれたみたいな話に近いですよね。

土田　はい。今もしっかりサツドラのデータを使ってトレーニングさせることができるので、よく「フィッシュアイカメラを使った画像の認識なんか、難しいんじゃないの？」と言われるのですが、僕らは結構データを豊富に持っていたりするので、この機械学習を進められています。

店内を歩き回っても1人の人物として追跡可能

土田　ただこれだと不完全なのは、入り口でサイネージを見た人がどんどん売り場の中に入っていって、売り場で商品接触をするじゃないかという話で、もう1つやらせていただいているのが、「マルチカメラトラッキング」という技術です。

シンプルなようで非常に難しい技術ですが、カメラをまたいで1人の人物を追跡し続ける技術です。

ちょっと分かりにくいかもしれませんが、4つのフィッシュアイカメラが1列に並んでいます。

尾原　なるほどね、魚眼レンズだから、あっちからこっちという接続が常にあるので、同じ人物がこっちからこっちへ行ったよというハンドオーバーが後から計算で出来るのですね。

土田　そうなんです。

こちらは実際のサツドラでのデモ映像になります。

ちょっと小さくて見づらいかもしれませんが、同じ人物がそれぞれのカメラでオーバーラップして映っているシーンがありますが、それぞれ同じIDがついて追跡し続けられるものになっています。

武藤　これは教師データを作るのが、めちゃくちゃ大変だったりしましたか？

土田　最初の一番イニシャルのところが相当大変だったところですね。

ただ最近、まさにGPTなどでも使われている「セルフスーパーバイズドラーニング」と呼ばれる、機械学習の手法があります。

▶AI・機械学習の用語辞典　自己教師あり学習（Self-Supervised Learning：SSL）とは？（ITmedia）

主に自然言語処理系で使われていたのですが、これをトランスフォーマーベースのコンピュータビジョンのモデルで使っていこう、そこでセルフスーパーバイズドラーニングで、要は特徴量だけはビデオだけ流し込めば獲得できる形にしていこうという流れがだいぶできてきました。

こうなってくると、わざわざ一生懸命アノテーションする（エンジニアがテキストや画像のデータにタグやメタデータを付ける作業）ことはほとんどなくなってきて、ほぼ寝ていてもできます。

ここまでできるエッジAI

尾原　会場の皆さんには、僕たちが呪文を唱えているように聞こえるかもしれませんね。

今言ったことは、「これはどういう人」みたいに誰か職人がラベルをつけないとAIを教育できないことが多かったのですが、自動的に学習するようなやり方ができるようになりました。

GPTの特徴ですが、「特にこの中ではここが一番大事なんだよ」と、文脈を発見することがモデル側でできるようになりました。

比較的こういうことがやりやすくなったので、こういう応用が皆さんもやりやすくなると思っていただければいいです。

結局、シーズン2で説明いただいたときよりも、お店のGoogleアナリティクスみたいなものが、入り口からどう通ってどの棚に着目して、どのサイネージを何秒見たか、どのポップを何秒見たかみたいなものが完璧に作れるようになった。

それが割とリーズナブルなコストで出来て、しかもプライバシーデータはローカルに置いてあるから、データだけをサーバーで飛ばす形で出来ることが実現しちゃったよ、「AWLやばい！」「AWLかっこいい！」ってことですね？

土田　ありがとうございます。

最後のひと言を加えていただきまして、非常に有難いです。

まさにそういうところでして、今までそれができなかったのは、武藤さんの船舶の話と一緒で、人手をかければできました。

こちらはそれに比べるとコストエフェクティブではないかもしれませんが、でもやはりやれていなかったところが、非常に安価にできるようになってきたという点では非常に似ています。

この目で上がってきたデータを、さらにそれこそ数理最適化などをかけて、もう1段高いレベルで、店舗のオペレーションを改善していこうというのは当然あるのですが、「機械の目」で、人を追っていって商品に接触しているかどうかをデータ化するところまではできるようになっています。

このようなものを私どもはビジネスにしたいと取り組んでいるのですが、特に私たちが取り組んでいるのはエッジAI市場です。

先ほど尾原さんにも要約いただいた通り、コストをかけずにやるために、私たちは非常に安価なデバイスを店舗に置いて、その店舗のコンピュータリソースで全部できるようにしています。

【本セッション記事一覧】

（続）

編集チーム：小林雅／浅郷浩子／戸田秀成／小林弘美

この記事が気に入ったら
いいねまたはフォローしてね！

Follow @icc_summit