【NEW】ICC サミット FUKUOKA 2025 開催情報詳しくはこちら

12. 離脱しかけた顧客を巧みに引き戻すAIの驚きのトーク

ICC FUKUOKA 2024のセッション「AIの最新ソリューションや技術トレンドを徹底解説(シーズン6)」、全13回の⑫は、LINEヤフー 砂金 信一郎さんが、検索と生成AIを組み合わせたアプローチ「RAG」を解説。海外事例として、コールセンターでオペレーターを代替するAIを紹介します。離脱しかけた顧客を巧みに引き戻すAIの驚きのトークを日本語訳付きで、ぜひご覧ください!

ICCサミットは「ともに学び、ともに産業を創る。」ための場です。そして参加者同士が朝から晩まで真剣に学び合い、交流します。次回ICCサミット KYOTO 2024は、2024年9月2日〜 9月5日 京都市での開催を予定しております。参加登録は公式ページをご覧ください。

本セッションのオフィシャルサポーターは Notion です。


【登壇者情報】
2024年2月19〜22日開催
ICC FUKUOKA 2024
Session 11C 
AIの最新ソリューションや技術トレンドを徹底解説(シーズン6)
Supported by Notion

(スピーカー) 
砂金 信一郎
LINEヤフー       
生成AI統括本部 新規事業準備室 室長(登壇時)
現職:Gen-AX株式会社
代表取締役社長 CEO

上地 練
Solafune
代表取締役CEO

西脇 資哲
日本マイクロソフト
コーポレート戦略統括本部 業務執行役員 エバンジェリスト

武藤 悠輔
ALGO ARTIS
取締役 VPoE

(リングサイド) 
柴戸 純也
株式会社リンクアンドモチベーション
執行役員

土田 安紘
AWL
取締役CTO

都筑 友昭
DROBE
執行役員VP of Advanced Tech Delivery

山崎 はずむ
株式会社Poetics
代表取締役

(モデレーター) 
尾原 和啓
IT批評家

「AIの最新ソリューションや技術トレンドを徹底解説(シーズン6)」の配信済み記事一覧


検索と生成AIを組み合わせたアプローチ「RAG」

砂金 物理演算と動画生成の話をしましたが、もう1つトピックがあります。

尾原 実はここが一番聞きたいところなんですよ。

砂金 「RAG」という言葉が、生成AI界隈にあります。

ビジネス寄りの方々は何のことやらだと思いますが、検索と生成AIを組み合わせたようなアプローチです。

先ほどの日清食品の例(Part.9参照)は、プロンプティングを一生懸命頑張る話でしたが、RAGでは、最後はAIに対する指示として、プロンプティングに入ってくるのですが、1回その手前で検索をかけます。

検索に使う情報は、社内の文書管理システムから取ってきて正解データとします。

マニュアルと過去の問い合わせ履歴みたいなものを両方取ってきて、その中から要するにこういうことですよねと、検索結果をまず返します。

検索結果をもとに素敵な文書を作文してくださいという多段階構成にしているものをRetrieval-Augmented Generation、RAGと呼んでいます。

今LLMを使って組み込んでいる人たちは、ほとんどRAGをやっているし、我々もチャレンジしています。

ただし、これはちょっと眉唾かもしれず、まだ我々も触っていないので分からないのですが、Googleが100万トークン(※生成AIのコンテクストで使用される文字の単位) 入れられると言っています。

グーグルが早くも「Gemini 1.5」、最大100万トークン(MIT Technology Review)

GPT-4やChatGPTでの会話において、人間が手で打つ文章はすごく少ないじゃないですか。

そこに100万トークンという大量の、例えばある領域の論文1年分を全部ぶちこんで、その中から答えを返してくださいみたいなものは、今までRAGという仕組みでやるしかないと思っていました。

しかし、Googleのこのチャレンジからすると、RAGは不要かもしれないみたいな話が出てくる可能性があります。

尾原 全部突っ込めば、いいんじゃない?って。

ちなみに70万ワード(単語)入れられるので、ビジネス書にすると多分30冊ぐらいです。

砂金 尾原さんが過去に出版した本を全部入れられます。

(一同笑)

それを全部ぶちこんで、尾原さんと話している感じのGPTs、GoogleのGeminiだとまた違う名称ですけれど、それができるというような変化があります。

これでもう1つ恐ろしいのは、バージョンを刻んでいるのですよね。

Geminiには ProとUltraとNanoがありますが、2じゃなくて1.5なんですよ。

Gemini 1.5で入力を100万トークンまでできるように彼らが拡張したということは、そこでコスパを合わせられるかや運用はどうするのかなど、色々な問題があったとしても、彼らは自分たちでTPUという、GPU相当のものを持っているので、電気代など色々なことを工夫しながら、上手くコンパクトに運用すると、ちゃんとリーズナブルなコストで出してくるかもしれません。

これができたとすると、結構すごいことになるのではないかと思いますし、業務用のアプリケーションがすごく作りやすくなってきています。

尾原 そうですよね、大事なんですよね、ここが。

砂金 とある我々が直近やっているプロジェクトは、Gemini 1.5は使えないので、RAGでやらなければいけません。

RAGでやらなければいけないとなったときに、エンタープライズ案件でよくありがちなのが、「RAGの構成を作ってベクトルデータベースに雑にぶち込むと、なんか検索結果が出てくるんですよね」と言われることです。

以前、尾原さんと対談した時にも話したのですが、ベクトルデータベースから正しそうな結果を取ってくるのは、検索エンジンの技術なんですよ。

立場上非常に言いにくいのですが、Yahooは過去にこの検索エンジンのコアな部分をGoogleに変えました。

尾原 その時、私がGoogleにいたのですけれど(笑)。

砂金 その時点で、検索エンジンを真面目に作って、それを事業として伸ばして良い待遇が受けられて、スーパーエンジニアになるみたいな道が、日本の中では結構閉ざされてしまいました。

日本人でもグローバルな組織で活躍している人はたくさんいますが、ベクトルデータベースから正しい結果を取ってこようという技術自体が、失われた古(いにしえ)の技術みたいになりました。

尾原 フロンティアのAIはどんどん進化していくから、そこにどう入力を突っ込むかについては、西脇さんからプロンプトを良くしましょうという話がありました。

プロンプト業務の知識とかに合わせて突っ込むときに、どの引用をどういう形で持ってくるのがいいのかというのが、ここが検索だから、実はこの検索技術がむしろ重要になってくるのではないかという文脈があったりするわけですよね。

RAGか、それともGeminiなのか?

砂金 これは多分山崎さんが似たような領域をやられていると思うので、分かるなみたいな感じかもしれません。

例えば、保険だとすると、約款はほぼ読めないような細かい字でたくさん書いてあります。

大事なことが全部詰まっている長い文章に対して問い合わせをするときと、お客様や代理店など、人間対人間の会話中の短い文章から過去のベストプラクティスを取ってくるときとでは、最適なモデル、取るべきアプローチが違います。

スライドの「BERT」と付いている、「sBERT」と「ColBERT」は、昔からある「BERT」というアルゴリズムの派生です。

その2パターンで挟んでいる、「GPT-Embedding」というのが、OpenAIが標準で提供しているEmbedding(埋め込み)モデルです。

これはあまり性能が良くなくて、今だんだん改善されているので、常に最適であるというポイントは変わってきています。

文章の長い短いなどはすごくシンプルな話ですけれど、用途によって最適化しなければいけない状況が、もしかするとGemini 1.5によって、全部これにぶち込めば大丈夫ですという話になるのか、RAGで検索を頑張り続けることになるのかは、向こう数カ月の間で、技術的に大きく揺れるでしょう。

IT業界の中でも、どういうふうに組んでいったらいいのかは、だいぶ変わってくると思います。

尾原 これを見ておくと、結局前者の方向に倒れると、とにかくお客様の声とか、セールスした時のトークとかを全部録音しておけば、会社として大事な社史と営業トークを両方ぶち込めば、その時一番良いトークが生まれるみたいな。

とにかく大きい文脈だけ全部を放り込めば良いものができるんだみたいなことになる可能性も、なくはないです。

でも、それはさすがに難しいだろうという話だと、適切なものを小さく持ってきて、上手く材料をお鍋に放り込める企業は、ものすごく顧客対応やマーケティングなどが良くなります。

その結果、そこの検索技術を磨いたマーケティング会社やセールス会社、カスタマーサポートの会社で、むちゃくちゃ伸びる会社が生まれるかもしれません。

砂金 プロアクティブに何か分からないことを教えていって、マルチターンで壁打ちをするのであれば、全然汎用的な仕組みでいいのです。

一方、リアクティブにというか、業務アプリの中に組み込む話になったときには、Geminiみたいなものがすごく流行るのか、それぞれにチューニングしなければいけないのかという分水嶺が、今年起こりそうだということですね。

顧客対応でオペレーターを代替するAI

砂金 あと最後に、もう1つトピックがあります。

これを聞いたことのある方は、日本でそんなにまだいないのではないかと思います。

これは片方が人間で、片方がAIです。

コールセンターから客に電話を掛けて、AppleのVision Proの購買ページで、なぜ客が途中で離脱したのかという会話をしています。

上に表示されるテキストが人間で、下がAIです。

(動画内音声)

AI: Hey, James.(やあ、ジェームス)

James: I’m not interested man.(男には興味ないんだ)

AI: Yeah, no worries. I hate calls out of the blue too. But I’m actually from Apple. (ああ、いいですよ。私も突然の電話は嫌いですよ。実はAppleの者です)

And I saw you were checking out Vision Pro and we’re about to pre order but left the page.

(あなたがVision Proをチェックしていて、予約しようとしていたけれどページを離れたことに気づきました)

I was curious what had you looking into potential.

(どうしてVision Proに興味を持ったのか、知りたかったんです)

James: I don’t got time for this right now.(今は時間がないんだ)

AI: Okay I can respect that. Can I just ask one question before you go?(分かりました。1つだけ質問をしてもいいですか?)

James: Uh fine. Shoot, what’s up?(ああ、いいよ。どうした?)

AI: Why did you, well. Why did you decide not to pre order the Vision Pros?(なぜVision Prosを予約注文しなかったんですか?)

I saw you changed your mind last minute.(直前になって気が変わったみたいでしたが)

James: Um cause they are crazy expensive. I’m gonna get the Meta Quest instead. (めちゃくちゃ高いから。代わりにMeta Questを買うよ)

AI: I get it but you saw what happened to Threads right? ha ha(それは分かるけど、スレッドがどうなったか見たでしょ?(笑))

Do you think the Meta Quest will end up being a better product than the Vision Pros, or is it just the price?(Meta QuestはVision Prosより良い製品になると思いますか? それとも単に価格の問題ですか?)

James: I mean it’s mainly about price. I’m sure the Vision Pros are gonna be better, but I’m not spending $3,000 on a pair of goggles my man.(価格の問題だよ。Vision Prosのほうがいいのは確かだけど、ゴーグルに3,000ドルもかけたくないよ)

AI: I feel that for sure. Definitely want you to make the best decision for you. But can I offer a different perspective?(確かにそう思います。あなたにとって最善の決断をしてほしいです。でも、別の視点から意見を言ってもいいですか?)

James: I guess so, what’s up?(いいよ、何かあるの?)

AI: Okay so something that not a lot of people are aware of if you take the route of using financing.(分割払いを利用する場合、あまり知られていないことがあります。)

James: What do we gotta do for that?(そのために必要なことは?)

AI: Awesome. Okay. I’ll send it over now. Let me know when you receive it.(素晴らしい。分かりました。今すぐ送ります。受け取ったら教えてくださいね)

James: Uh, okay. I just got a text that was quick.(ああ。あ、テキストが届いたよ。早いね)

AI: Okay sweet. Just fill that form out  like I said it takes 45 seconds.(分かりました。45秒で終わるので、フォームに記入してくださいね。)(以下、省略)

砂金 音声認識、音声合成は我々も長らくやってきたのですが、英語とはいえ、ここまできたかと感じます。

すごいところがいくつかあります。

AI対人間の会話は、これまでもトランシーバー方式と言うのか、自分が話したらAIの番みたいな会話であればそんなに問題はなかったのですが、AIが何か答えているときに、人間が「いやいや、それ違うんだ」と被せると、そこから修正するのは結構大変だったりします。

相槌の打ち方も、日本で、「そうですね」「かしこまりました」みたいなものであればルールベースで全然いいのですが、ちゃんと相手に合わせて相手がより気持ち良く話せるようにストーリーを組み立てながら相槌を打って、アップルカスタマーサポートセンター役のAIは、相手にVision Proを買わせなければいけません。

しかも、高いから買わないと言っている客に、「分割払いにできますよ」と、社内ナレッジデータベースから何か取ってきているのかもしれないけれども、ちゃんと提案して説得します。

コミュニケーションして、相手に共感、理解してもらって、次のステップまで誘導することが一応できるようになっています。

本当にこのまま全部使えるのかどうかは、色々な検証を我々もやってはいるのですが、英語ベースのデモベースであれば、ここまで来ています。

文脈に応じて声のトーンを変更

砂金 では、日本語ではどうでしょうか。

LINEヤフーの社内には、音声合成チームがずっと昔からあり、Parallel WaveGANという、多分音声合成側で言うと、日本語でも英語でも参照論文件数が非常に多い原著を執筆した研究者がいます。

これからお見せするものは、彼らが作ってくれているものです。

これから、「本日はご連絡いただき、誠にありがとうございました。今後一層努力いたします」と入力します。

これが音声合成させたいものです。

その下のところに、「無事解決してよかったよ、ありがとう」と入力します。

解決したよ、ありがとうというコンテクストが今まであったとすると、この上の「ご連絡いただきありがとうございました」を、どういうふうに発話するかと言うと……

※動画内音声 1:09付近(明るいトーンで抑揚のある発話)

「本日はご連絡いただき、誠にありがとうございました。今後一層努力いたします」

尾原 ICCの司会みたい。

砂金 これは、ハッピーなパターンで、そのまま電話が切れそうですね。

これをちょっと変えます。

直前に客が「ふざけるな。二度と使わない」と言った後に、同じ返事をするとなると、どうなるでしょうか。

今、音声合成しています。

尾原 テキストで入れるだけなんですね。

砂金 そうです。

※動画内音声 2:29付近(少し低め、明るいトーンで抑揚を抑えた発話)

「本日はご連絡いただき、誠にありがとうございました。今後一層努力いたします」

これはあまりに申し訳なさそうに演技しすぎると、余計に相手の感情を逆なでするし、どこをグラウンディングの正解にするかが非常に難しい問題です。

人間を支援だけでなく、代替するAIへ

砂金 ここで我々がチャレンジしていることは、AIに演技をさせることなんですね。

感情ラベルを付与すればそれらしく読み上げさせることはできますが、このチャレンジは、先ほどの会話が文脈的にどういう雰囲気かを、AIに理解させることです。

それをLLM側にやらせてもいいのですが、音声モデル内でやってみようと、チャレンジしています。

文脈の認識や感情表現ができてくると、今までは音声領域で言うと、あるいは音声だけでなく画像やシミュレーションの領域もそうかもしれませんが、人を支援するための文房具としてのAIは今の技術でも作れるのですが、完全に人の代替をさせたいと思ったら、結構まだギャップを埋めなければいけない領域があります。

特にコミュニケーションの領域は、ソフトバンクであれLINEヤフーであれコアなところからずれないので、そこを我々がやろうとすると、人の代替を目指せるような状態が、今年1年で作れるかどうか。

源流で言うと、OpenAIのSoraみたいなものがちゃんとマルチモーダルの情報を学習してくる方式が世の中で発見・発明されて、それをみんなが参照することによって、多くの学習データが得られるかどうかなど、色々なことに影響します。

今年は多分、人を支援するだけではなくて、人を代替するというチャレンジが、もうちょっと増えてくるのではないかと思いました。

以上です。

(続)

編集チーム:小林 雅/浅郷 浩子/戸田 秀成/小林 弘美

この記事が気に入ったら
いいね または フォローしてね!