6. 人間は生まれながらにEnd-to-endでマルチモーダル

2025年1月27日

▶カタパルトの結果速報、ICCサミットの最新情報は公式Xをぜひご覧ください！
▶新着記事を公式LINEで配信しています。友だち申請はこちらから！
▶過去のカタパルトライブ中継のアーカイブも見られます！ ICCのYouTubeチャンネルはこちらから！

ICC KYOTO 2024のセッション「AIの最新ソリューションや技術トレンドを徹底解説(シーズン7)」、全11回の⑥は、Poetics 山崎はずむさんが、AIと19世紀の言語哲学との関連を解説します。動物の知性にも興味があるという山崎さんは、コウモリの聴覚と人間の音声認識を組み合わせる研究の存在を紹介。人間の世界認識にとらわれない新しい知性のあり方を提示します。ぜひご覧ください!

ICCサミットは「ともに学び、ともに産業を創る。」ための場です。そして参加者同士が朝から晩まで真剣に学び合い、交流します。次回ICCサミット FUKUOKA 2025は、2025年2月17日〜 2月20日福岡市での開催を予定しております。参加登録は公式ページをご覧ください。

本セッションのオフィシャルサポーターは Notion です。

▼
【登壇者情報】
2024年9月2〜5日開催
ICC KYOTO 2024
Session 11C
AIの最新ソリューションや技術トレンドを徹底解説(シーズン7)
Supported by Notion

(スピーカー)

青木俊介
チューリング株式会社
取締役共同創業者

柴田尚樹
NSV Wolf Capital
Partner

砂金信一郎
Gen-AX株式会社
代表取締役社長 CEO

山崎はずむ
株式会社Poetics
代表取締役

(リングサイド席)

上地練
株式会社Solafune
代表取締役CEO

小田島春樹
有限会社ゑびや / 株式会社EBILAB
代表取締役社長

柴戸純也
株式会社リンクアンドモチベーション
執行役員

武藤悠輔
株式会社 ALGO ARTIS
取締役 VPoE

(モデレーター)

尾原和啓
IT批評家
▲

AIと人文の融合をテーマにした出版が続々

山崎　Poeticsはちょっと変わったチーム構成で、人文研究者、AI研究者、あとはSaaSという3つのカテゴリーの中にあるようなチームです。

ではなぜ人文が大事かですが、僕自身のバックグラウンドが哲学にあります。

実は人工知能の礎のほとんどは、19世紀の言語哲学と言われるところから出てきています。

日本の出版界でも、特に今年になってこの動向を書籍にすることがブームになっていて、例えば、『人工知能の哲学入門』という本が出版されました。

今週、出版されたのは『記号創発システム論』で、すごく良い本です。

人文系とまさにAI系の研究者が交ざって、いわゆる「記号接地問題」と従来言われていた、普通にただ話しているだけではなく、りんごという概念はりんごの画像やその匂いであったり、もっとより広範なコンテクストがあるということを、どうやってAIに実装していくか、文理融合で話しています。

▶記号接地問題～AIは言葉の意味を理解できるのか？～（NTS Journal）

自動運転の話を聞いていた時に一番に想起したのが、アンディ・クラーク（1957〜）というイギリスの哲学者です。

2022年に文庫化（現れる存在―脳と身体と世界の再統合）されましたが、原書（Being There: Putting Brain, Body And World Together Again）は1997年に出版されています。

これはまさに自動運転の中での世界モデルを予見するときに、いわゆるパーツ構成、例えば、ここで信号を見ようとか、ここで歩いている人を検知しようみたいなところを認識するのではありません。

End-to-endで人間は生まれながらにしてマルチモーダルなのであって、音声も聞いているし視覚もあるし、何なら車のタイヤは自分の足の一部になって、そこの接地もわかるみたいな感覚を全部組み合わせています。

パーツではなくて、それらが一つの融合体になっている、そういうふうに人工知能を考えようと哲学者は提唱していて、こういうところにはすごく影響を受けています。

哲学とコンピュータサイエンスの歴史の融合について、2022年に山口大学の小山虎先生が思想史（『知られざるコンピューターの思想史アメリカン・アイデアリズムから分析哲学へ』）として出版していて、この辺りの歴史を探るということも生まれています。

あとは僕は動物の知性に興味があって、人工知能は基本的に人間の知性を模倣しようとするのですが、一部においては動物の知性のほうが優れている場合があります。

例えば、アンディ・クラークが自動運転の当初のモデルとして使っていた動物は、ゴキブリでした。

ゴキブリの触角が自動運転に活かせないかというような研究をしていて、人間だけではなくそれ以外の生命体との知性の融合のようなものは今後あり得る中で、AIはかなり学際的な領域、つまり文系の人たちも入っていけるような領域になってきています。

▶ゴキブリはどれほど賢いのか。アンディ・クラーク『現れる存在』イントロダクション試し読み（Hayakawa Books & Magazines（β）note）

人間の世界認識の方法をAIが理解し実装へ

山崎　そんな中で知性をデザインするとなった時に、僕はデータを集めるところで一部成功してきたので、アルゴリズムを作るのは、まさに世界認識をどうデザインするかということで、人間の世界認識や動物の世界認識を考えなければいけません。

例えば、りんごという一つの概念をとっても、音声からそれを受け取るだけではなく、視覚的な情報や、言語を覚えるときは人間の口角がどう動いているかも、幼児は学ぶわけです。

僕らが生まれながらにしてマルチモーダルな理由は、「りんご」という概念を、りんごそのものとしては認識していないからです。

従来の自然言語処理は言葉だけに注目していましたが、今の例えばGPT-4oは、マルチモーダルの設計をどんどん組み込む形でEnd-to-endを目指しているところがあります。

これは、本当に「僕らがどうやって、そもそも世界認識をしているんだっけ？」というところにつながるので、まさに今、発達心理学や幼児がどうやって世界概念を獲得しているかみたいなところは、自動運転でも、AIの音声認識モデルでも、非常に重要になっていると感じます。

LLMと哲学との関係性

山崎　少しだけLLMがなぜ哲学と関係があるかを手短かに話します。

言語哲学の一部を僕も勉強したことがあるのですが、19世紀の段階でもう意味の最小単位は「単語」ではなく「文」だと言っています。

学習させるときには単語の概念だけを覚えさせるのではなく、文単位や、さらには段単位で覚えさせます。

19世紀末〜20世紀前半の言語哲学を研究している人は「フレーゲ・ラッセル以降」（※）と言ったりしますが、基本的にはそういった考え方がすでに提示されています。

▶編集注：フレーゲとはドイツの哲学者ゴットロープ・フレーゲ（1848〜1925）、ラッセルとはイギリスの哲学者バートランド・ラッセル（1872〜1970）を指す。

19世紀の言語哲学者には、ルートヴィヒ・ウィトゲンシュタイン（1889〜1951）もいます。

言語理解の要は文法より都度の経験

山崎　規則としての文法が言語理解において大事だといわれますが、実は僕らは母語を覚える時に文法をまともに勉強しなくても使えるようになります。

大事なのは「都度の経験」だと、すでに哲学者は提示しています。

いやいや文法なんて関係ないからと、すごくラディカルなことを言う哲学者もいて、例えば、ドナルド・デイヴィッドソン（1917〜2003）というアメリカの哲学者ですが、この概念はほぼLLMの発想に近いものです。

▶A Nice Derangement of Epitaphs（Oxford Academic）

それまで、アブラム・ノーム・チョムスキー（1928〜）という言語学者が提唱した「生成文法」というものがありました。

人間の中には文法を理解できる枠組みが頭の中にすでにプリセットされているのだみたいな話でした。

いや、そんなことはなくて、文法がなくてもいけるみたいな理論を応用できていたら、例えば、LLMの概要はもっと早く自然言語処理以外にいけたみたいなことはあると思っています。

わかりあえなさの解消へ

山崎　言語の意味を決めるのは、言語そのものの習得、つまり文法と単語だけではなくて、明らかにコミュニティという文化的要素も起因しているということに関心があります。

例えば、エンタープライズのお客様と話すとき、こういうカンファレンスで話すとき、家族と話すときは明らかに違って、同じ単語でもそのコミュニティにおいて違う意味を覚えていたりします。

実はそこが、マルチモーダルで言語解析だけでなく音声解析もしなくてはいけないところだと思っています。

同じ言語として意味は伝わっているのだけれど、違うコミュニティではなぜ伝わらないかも理解しうるところがあります。

ウィトゲンシュタインは後期になると、「言語ゲーム」（※）という話をしていますが、これは文法や単語ではなく、あくまでも慣習や文化的要素の中で言葉のルールが決まっていくとしています。

▶編集注：言語哲学者のルートヴィヒ・ウィトゲンシュタインが提唱した用語。言語は、感覚や事実を写し取る道具ではなく、環境やコミュニティなどさまざまな要素が織り合わされた相対的なものとした。（コトバンク）

例えば、今僕らは商談を解析していますが、採用面接やクリニックでの診察でも、会話のコンテクストをとらえていくときに、その人がどういう属性の人なのかというメタデータも含まれていくと、言語解析が今後どんどん拡張すると思います。

それは本質的な課題としての我々のわかりあえなさみたいなものを少しずつ解消していく可能性があるというところが、人間サイドから見ている視点です。

人間以外のあたらしい知性との組み合わせ

山崎　一方、今までの話は結局人間の認知に根ざした話なのであって、実はそんなことだけで世界の認知は構成し得ません。

人工知能の面白いところはキメラ（※異なるものの混合体）化するというか、諸動物の知性を人間に組み合わせる可能性は今後あると思っています。

特に音声認識の領域でいうと、ある方向から雑音の中でも音声を発見して、そこに対してアテンションを張っていくものを取り入れるというところでは、コウモリの聴覚構造と人間の音声認識を組み合わせるような研究の論文数はすごく少ないもののあります。

そういう意味では、今後言語というきわめて人間中心のインタフェースを僕らは使っていますが、人間の世界認識にとらわれないあたらしい知性というものを考えたいなと思っています。

尾原　コウモリの聴覚というAIが、知性に関しては人間のLLMを使い、運動に関してはゴキブリの足の小脳反射みたいなものを使うと、暗闇でもスイスイ動けるようなことが起こるのではないかみたいな話ですよね。

山崎　はい。そんな妄想をしているので、AIの会社ですが、僕のような哲学のコースから外れたみたいな人がいてもいいかなと思いやっているのが、僕らの会社ですという紹介でした。

商談がデータ収集に適している理由

武藤　一つ聞いてもいいですか？

ビジネスと今の後半の話が遠くも感じつつ、商談の部分はそこが接点になっているのかなと思いました。

目的にもよると思いますが、商談のエリアからサービスを立ち上げてデータを集めていこうとするのは、今の後半の話に対して具体のHowを決める作業だと思います。

この辺りはどのように商談というものに注目して、取り入れていったのかをお聞きしたいです。

山崎　これは例えば議事録ツールでもよかったのではないかという話もありますが、やはりワークフローにどれだけ入り込むかみたいなところは意識しました。

そうでないと、僕らが、ある欲しい固定変数でのデータを取りにいけないと思ったからです。

普通の会議だと雑多な話がされていて変数を取るのは苦しかったりすると思うのですが、商談はディールをクローズしなければいけないというゴールが設定されているので、割と会話の方向性の変数が決まりやすいのです。

とは言え、人によってはブレはあります。

いったん練習問題として商談の会話のコンテクストを解いていくという意味では、やりやすい領域なのではないかというあてがありました。

かつビジネス的な観点からすると、プロフィットに直結するところと、コストダウンのところ、特にSFA入力を削減できるところが見えていたので、ここの掛け算を作れないかと考え、妄想から落とした形です。

武藤　ビジネスとして成り立つし、目的も整理された状態でしっかり欲しいデータが手に入るということですね。

山崎　おっしゃるとおりです。

もともと僕らは音から感情解析をするという事業を創業当初にしていました。

枠の中に組み込めたかというと、あったらいいよねという形になり、もう少しそこの設計をどう業務フローの中に組み込めるかをしっかり考えなければいけないなと思いました。

それでドメインに絞ったSaaSになったという背景があります。

尾原　ごめんなさい、あと3分で、簡単に僕がまとめて、砂金さん、柴田さんに簡単な質問をして柴田さんに回していきたいと思います。

2つ大事なポイントがあります。

結局人間が最後に動くものはその相手がわかりあえるか、伝わるかという話があるので、そこには固有性が生まれると思うのですよね。

その固有性はある種、砂金さんがLINE時代に日本語と韓国語のLLMを作るという希少な経験をされているので、今のお話を聞いてどう思ったか教えていただけますか？

マイノリティ言語にビジネスチャンス

砂金　日本語の文脈解析はすごく難しいですよね。

GPT-4oのAdvanced Voice Modeは滑らかな対話ができて、英語だとすごいなと言われています。

日本語で会話しながら「はい、はい、はい」という相槌（音声認識でいうフィラー）が、LLMに渡るとフィラーの「はい」なのか、イエスの「はい」なのかによって応答がすごく変わります。

日本語の対話データの中をちゃんと探索していると、これはフィラーの「はい」で、「本当に申し込みでよろしいですか？」に対する「はい」は「イエス」という切り分けがあります。

その切り分けは、たくさんの言語がある中、日本語データもちょっと交ざっていますみたいなレベルのチューニング感だと、まだしんどいのではないかという気はしています。

これは日本語だけでなく、アジアのマイノリティ言語はみんなそうだと思います。

尾原　そうですよね。

砂金　この間、母国語がスペイン語のアメリカ人とお話ししていた時、「英語が母国語の人がスペイン語を頑張って話しているみたいな発音でしかないから、（音声認識で難しいのは）日本語だけではないんだよ」みたいなことをおっしゃっていました。

すでにプレーヤーがいる英語、中国語以外の言語はこういうコンテクストや言葉に向き合って個別の課題を解いていくと、まだまだいろいろなビジネスチャンスがたくさんあるのではないかなといまだに思っています。

尾原　そういうところをやっていくと、固有性みたいな空間を先に取ることがローカルの中で勝つことにつながります。

武藤さんの後半のご質問に答えていくと、ワークフローの一番上流を押さえると、そこから行動が全部生まれるから下を取れるという戦略的な優位性もあります。

もう1つは、結局何かをやりたいと思う瞬間のコミュニケーションのデータを取れると、会話中の「うん」は3回なら退屈で、2回だったら前向きみたいなことが本当に文化に根付いていたりするので、そういうものをデータとして蓄積していくことが大事だと思います。

そして、商談SaaS系やこういうAIがどんどんモジュールになっているのは、多分シリコンバレーの潮流だと思います。

時間が詰まってきているので、その辺りを10分くらいで柴田さんに解説していただいて、15分ぐらい盛り上がるような感じで進めたいと思います。

（続）

本セッション記事一覧

編集チーム：小林雅／原口史帆／浅郷浩子／戸田秀成／小林弘美

この記事が気に入ったら
いいねまたはフォローしてね！

Follow @icc_summit