【NEW】ICC サミット KYOTO 2024 開催情報詳しくはこちら

10. これからAIが持つであろう3つの能力と消えていく「文化」

ICC FUKUOKA 2024のセッション「AIの最新ソリューションや技術トレンドを徹底解説(シーズン6)」、全13回の➉は、日本マイクロソフト 西脇 資哲さんが、OpenAIが発表して話題騒然となった「Sora」の動画を紹介。この先AIが持つであろう3つの能力について語ります。リングサイドのPoetics 山崎 はずむさんは、人文系人材が活躍する時代が来ると予想します。ぜひご覧ください!

ICCサミットは「ともに学び、ともに産業を創る。」ための場です。そして参加者同士が朝から晩まで真剣に学び合い、交流します。次回ICCサミット KYOTO 2024は、2024年9月2日〜 9月5日 京都市での開催を予定しております。参加登録は公式ページをご覧ください。

本セッションのオフィシャルサポーターは Notion です。


【登壇者情報】
2024年2月19〜22日開催
ICC FUKUOKA 2024
Session 11C 
AIの最新ソリューションや技術トレンドを徹底解説(シーズン6)
Supported by Notion

(スピーカー) 
砂金 信一郎
LINEヤフー       
生成AI統括本部 新規事業準備室 室長(登壇時)
現職:Gen-AX株式会社
代表取締役社長 CEO

上地 練
Solafune
代表取締役CEO

西脇 資哲
日本マイクロソフト
コーポレート戦略統括本部 業務執行役員 エバンジェリスト

武藤 悠輔
ALGO ARTIS
取締役 VPoE

(リングサイド) 
柴戸 純也
株式会社リンクアンドモチベーション
執行役員

土田 安紘
AWL
取締役CTO

都筑 友昭
DROBE
執行役員VP of Advanced Tech Delivery

山崎 はずむ
株式会社Poetics
代表取締役

(モデレーター) 
尾原 和啓
IT批評家

「AIの最新ソリューションや技術トレンドを徹底解説(シーズン6)」の配信済み記事一覧


マルチモーダル化がさらに進む

西脇 コンパクトに話をしてきましたが、最後にちょっと、生成AIでこれから何ができるのかという話題です。

インプットとアウトプットのマルチモーダルですね。

マルチモーダルAI|AI用語集(ソフトバンク)

先日、OpenAIからSoraが出ましたので、テキストから動画が作れるようになりました。

「Sora」とは?一般公開はいつから?最新の動画生成AIの恐るべき進化(EdgeHUB)

Soraは物理空間をちゃんと演算した結果で画像を作るというのですが、川の上を人が歩いているような動画もあります。

物理空間を全然意識していないと思うので、まだまだいい加減なところがたくさんあります。

ほとんどが短尺ですけれど、次の動画は長尺で出ているので、Soraの非常に良くできている例として、多分自信があるのだろうと言われています。

Sora ウェブサイトより(リンク先では動画も見られます)

物理的な演算をしながら画像を作っているので、例えばリンゴをかじったら、かじった分、リンゴがなくなっていなければいけないですね。

今までの生成AIだと、リンゴをかじっても、かじった痕がありませんでした。

例えばコップからコップへ水を移す動画を作ったら、水の総量は同じでなければいけないですね。

これが演算に依るとちゃんとできるのですが、以前は水を移す動画を作ったら、移し替えた後にも水が残っていました。

Soraではそれがちゃんとできるようになったと言われているのでかなり期待していますが、まだ皆さんはプロンプトを投げられません。

私たちは一部プロンプトを投げられるので、投げていると分かるのですが、結構日本の動画が出てきます。

尾原 へえ。

西脇 なんでだろうと思うんですね。

尾原 何から学んでいるんでしょう?

西脇 名前がSoraだけに、日本由来のものがあるのではないかという気がします。

まだ完璧にプロンプトは投げられないのですが、プロンプトを選ぶところまではできるようになっています。

そんな形で、かなり期待しています。

ということで、上のほう(※マルチモーダル化)はできるようになりました。

リアクティブからプロアクティブへ

西脇 日本の企業からは、リアクティブ(事後対応型)からプロアクティブ(事前対応型)にやってくれないかという話がすごく多いです。

つまり、今は生成AIとは命令して答えるという向き合い方をしていますが、そうではなくて、勝手にやってくれよということです。

例えば会議が始まったら会議中に1人AI君がいて勝手に発言して、勝手にまとめて、勝手にその後の仕事の指示をしてほしい。

その仕事の期限の管理も勝手にやって、提出したものの確認も勝手にやってくれるといいよねという話がすごくあります。

尾原 会議も10分くらいたつと、To doが今これぐらいあって、まだここのTo doが議論されていませんみたいなことを言ったりするChatGPTのエージェントがあったりしますね。

西脇 これは、そのうちできます。

スライドの上の2つはできるようになりました。

新しい素材の発見

西脇 昨日、尾原さんにも我々のセッションに出ていただいたのですが、この後どこに向かうかというと、多分「まったく新しい発見をする」というニーズのほうが多いです。

昨日も「AI for Science」という話が出て議論しましたけれど、分かりやすい例で言うと、新しい素材を見つけることです。

マンガン電池は1885年に発明されています。

その後、アルカリ電池は1947年に発明されたので、素材を変えるのに60年以上かかっています。

その後、リチウムイオン電池になるのに、約30年かかっています。

ということは、素材を見つけて新しいものにするまでに、すごく時間がかかるのですね。

ところが、全く新しい物質や化合物や素材が見つかると、今後、全然違うものでバッテリーができるのではないかということですね。

先ほどコバルトを採掘する話(Part.2〜3参照)がありましたが、コバルトでなくてもよくなる可能性があります。

尾原 今一部テスラと。

西脇 そうなんです。

そうすると、コバルトを採掘しないで、他のものを採掘しなければいけなくなるわけですね。

そういう可能性があると言っているわけなんです。

なぜこんなことを言っているかと言うと、昨日少し話をしたのですけれど、上の2つは自分の会社の株価が倍になることは多分ないのです。

どれだけ頑張っても、自社の時価総額が倍になることはありません。

でも下はあり得ます。

こういうものを経営者は欲しいのだと、最近よく言われるようになりました。

私の話は以上です。

人間の言語運用能力や読解力が試される

尾原 リングサイドの山崎さん、さっき機械と対話するだけではないCTOみたいな話(Part.7参照)もありましたけれど、どうですか?

山崎 これは、人間の言語運用能力こそ試されている状況だと思います。

尾原 まさにまさに。

山崎 僕はもともとアカデミアにいてビジネスに入ってきたのですけれど、一番びっくりしたのは、言語運用能力の明らかな雑さです。

特に、曖昧な指示をすることは、対人間同士でも行われています。

根底として今後AGI(Artificial General Intelligence)に向かっていく中で、自然言語でAIと対話できるとなったときに、こちら側が試されているのは、指示もそうだし、あとはAI側の回答を本当に読めているかどうかです。

AGI(汎用人工知能)とは? 従来のAIやASIとの違いも解説(ソフトバンク)

本当に読めているかというと、実はあやしいみたいな問題もあります。

根底として総合的な読解力、あとは書く力が必要で、そこを起点にしてEdTechが読解力を養成するための教育向けアプリケーションを立ち上げたみたいな話を、昨日聞いたりもしました。

それは全般的な読解力というよりは、実はAIを使いこなすことにも繋がっているなと思います。

僕はここにおいて、ようやく人文科学の時代が来たなと思っているのです。

尾原 確かに。

人文系人材が活躍する時代

山崎 ついにエンジニアリングにおいて、哲学や文学研究をしてきて、言語に対して非常にきめ細かく論証ステップを取っていた人たちが、今後AIを使いこなす最前線の一部に出てくると思っています。

特に人文系のPhDは、ほとんどが学者になれないのです。

人文系の博士課程の人、失踪してしまうひとも多いんです。ポジションも少ないですし、博士取得まで博士課程スタートから7~10年とかかかってしまうので……。

どこにいるか分からないような状況ですけれど、これ、仕事できたなぐらいなんですよね。

日清食品の例を見ると、あそこまで細かく書けるのは、CIOの方というより、本当にちゃんとそこの言語化を徹底した人が、むちゃくちゃすごいなと思いました。

尾原 社内文化にあるのでしょうね。

山崎 あれは、なかなかできないと思うんですよね。

どうやってプロンプトを書かせるかという、教育レベルとしての言語運用能力をどう担保するかのレベルまで変わってきた印象があります。

個人的には時代が来たなという、ちょっと自分がいる意味があるなと感じました(笑)。

西脇 自分の時代が来た(笑)。

山崎 今まで「なんちゃってAIだ」とか、「何が哲学だ」みたいな感じで言われてきましたけれど、いよいよ来た感じはしています。

西脇 本当におっしゃる通りで、日清食品さんの例を見ると、エンジニア的な会話をする人よりも、わりとちゃんと人文的な言葉で会話できる人のほうが、物事を進めやすいんですよ。

すごく分かっていただけるので、差が出てきましたね。

山崎 そうですね。

でも、コンピュータサイエンスでコーディングしていた時の厳密性を自然言語でやろうと言っているだけなので、コンピュータサイエンスの人ができないわけではもちろんないと思います。

尾原 すごく大事なのは、今のところ僕たちは、AIからアイディアであれ、解決策であれ、ひな型であれ、そういうものを引き出すためには、テキスト入力に依存せざるを得ません。

回答もテキストが中心になってくると、僕たちはテキストで会話していればなんとなく分かり合えているつもりになっているけれど、実は分かり合えていない部分もあります。

そこの差分が実は色々な誤解を生んで悲劇を生むかもしれないし、逆に言うと精緻にどうやっていくかみたいなところがすごく大事になってくる可能性があるということですよね。

山崎 AIの歴史的な源流に回帰してきている印象があります。

1910年代に、バートランド・ラッセルとアルフレッド・ノース・ホワイトヘッドという哲学者たちが『プリンキピア・マテマティカ』という論理学の本を出版しました。

自然言語処理のモデルを作るにあたって、その本を援用して自然言語の論理的な体系だけを抜き取ってきて、それをコンピュテーションしようみたいなところからスタートしています。

今、それがようやく自然言語に回帰してきたところがあるので、より厳密に語れるかという点において、日本語は本当に不利だなと思います。

尾原 特に行為と言語がどう結びついているかというのと、あと日本語は隠喩と呼ばれる、なんとなくみんなが共有しているものに繋がっていたりもしますしね。

ごめんなさい、こういう話が好きだから喋っちゃいますね(笑)。

“察しろよ文化”が消える

山崎 まさに先ほど砂金さんがおっしゃっていた背景知識が、プロンプトを書いていくことによってあぶり出されます。

それによって、全員がノウハウを共有できるようになるのは、むちゃくちゃすごいことだなとは思いますよね。

そういう意味では、もう暗黙知で伝えられなくなるから、“察しろよ文化”が消えるのは結構いいなと思って見ていました。

西脇 “察しろよ文化”が消えますし、年配の人が有利という文化も消えます。

尾原 ああ、確かに。AIに伝わらないので。

西脇 消えてほしいですね。そう思いますよね。

山崎 「それ、どういうこと?」「なんで?」と聞くことは通常うっとうしいと思われることでしたが、AIに対して聞いていくのが、そのプロセスですよね。

それがちゃんと受け入れられるようになると、建設的な議論は人間同士でもしやすくなる可能性がある気がします。

西脇 おっしゃる通りです。

感情解析に取り組むPoetics

尾原 そういう意味で、ちょっとだけ、山崎さんがやられている事業についてプラスアルファしていきたいと思います。

今やられているAI(JamRoll (ジャムロール) )は、テキストだけではなくて、感情もプラスアルファされていらっしゃいますよね。

山崎 そうですね。

Poeticsという会社では、音声認識、自然言語処理、音声、言語からのマルチモーダルでの感情解析などに取り組み、暗黙知みたいなものをLLM(大規模言語モデル)側で読み取れるか研究しています。

商談解析AI「Jamroll」から、言語哲学×LLMでAI APIプラットフォームを目指す「Poetics」(ICC FUKUOKA 2024)

要は、LLMは言語を理解しているわけではないけれども、言語使用者には裏に暗黙知があります。

例えばよくあることだと思いますが、大企業での営業とスタートアップでは作法に違いがあります。

各話者の属性情報から、言語解析の結果や要約を変えられないかトラックするために、まず耳としての音声認識と、あとは自然言語処理の領域に取り組んでいます。

感情はある種すごいチャレンジングなところで、アノテーションを貼れません。

しかも言語化が非常に難しいです。

尾原 そうですよね。本人が認識していないから、ラベルのしようがないですね。

山崎 おっしゃるとおりです。そのためコンテクストに絞ろうとしています。

例えば、商談で購買意欲が湧いたことに対して、それを一旦感情として捉えます。

コンテクストを絞りこまずに、音で喜怒哀楽を取ろうとした時は、正直かなり厳しい局面にも直面しました。

特に怒りと喜びの判別は音声情報だけでは苦しいし、アノテーションしてラベルを貼らせたとしても、全員が同じラベルを貼るとは限りませんでした。

そのため、あるコンテクストの中での購買行為みたいなものと結びつくかどうかで切り分けることで、セグメントごとに感情を切り分ける方向に今は進んでいますね。

尾原 そうすると最適化できるものですか?

山崎 「JamRoll (ジャムロール)」という商談解析ツールを作っていますが、購買活動自体に関しては成約したかしないかという正解データを貼れるので、そこはいけるんじゃないかなと思います。

僕らだと最終的な購買みたいなものを正解データにしているのですが、何を正解データにして、そこのコンテクストデータをどうするかに結構依存するかなと思っています。

尾原 そうですよね。

そういう意味では、目的に対して絞り込んでいく中で浮かび上がっていくパラメーターとして、感情を使うのですか?

山崎 そうですね。

そのため、よりバーティカルSaaS(※特定の業界に特化したSaaS)的な方向に発展していくというか、汎用的な感情とは何かという大きな問いを一回置いておくような方向に走っている形ですね。

尾原 ここは、本当はすごく大事な視点です。

「フロンティアモデル」と言いますが、世の中はどんどん汎用的に使えるものを目指していくから、実は個別のAIを作ることのコストや、難易度が結構下がってきています。

だとしたら、自分たちの目的から逆算したときに、何の入力を使っていくかが大事です。

その辺りで、ファッションをやられている都筑さんから、何かありますか。

都筑 そうですね。

僕らはフロンティアモデルというよりは、Poeticsにちょっと近いかもしれないですが、特化型のAIというところにフォーカスして、逆算して作るのが僕らのアプローチかなとは思っていますね。

DROBEというファッションECを運営していますが、スタイリストや人間のドメイン知識をAIに渡して、ユーザーのためになるように頑張って作っています。

ファッションAI「DROBE」が目指す究極のレコメンデーションとは | AIを育成する「DROBE」スタイリストの集合知が最強である理由レコメンドの理由は何? AIの「解釈性」がスタイリストのセンスを言語化する(ICC FUKUOKA 2023)

(続)

編集チーム:小林 雅/浅郷 浩子/戸田 秀成/小林 弘美

この記事が気に入ったら
いいね または フォローしてね!