【NEW】ICC サミット FUKUOKA 2024 開催情報詳しくはこちら

1. 天才プログラマー清水 亮が注目する、3つの最新AIトピック

新着記事を公式LINEでお知らせしています。友だち申請はこちらから!
ICCの動画コンテンツも充実! YouTubeチャンネルの登録はこちらから!

ICC KYOTO 2021の最高評価セッション「AIの最新ソリューションや技術トレンドを徹底解説」、全9回シリーズの(その1)は、最前線のプレイヤーである清水 亮さんをメインスピーカー、聞き役としてIT批評家の尾原 和啓さんが、最新のAIトピックを語ります。キーワードは、「NeRF」「自然言語」「微分」。ディープなAIトークセッションを、ぜひご覧ください!

ICCサミットは「ともに学び、ともに産業を創る。」ための場です。そして参加者同士が朝から晩まで真剣に議論し、学び合うエクストリーム・カンファレンスです。 次回ICCサミット FUKUOKA 2022は、2022年2月14日〜2月17日 福岡市での開催を予定しております。参加登録は公式ページをご覧ください。

本セッションは、ICCサミット KYOTO 2021 プラチナ・スポンサーのHelpfeel(Nota)にサポート頂きました。


【登壇者情報】
2021年9月6〜9日開催
ICCサミット KYOTO 2021
Session 12D
AIの最新ソリューションや技術トレンドを徹底解説
Supported by Helpfeel(Nota)

(スピーカー)

清水 亮
ギリア株式会社
取締役会長兼CEO

(モデレーター)

尾原 和啓
IT批評家

「AIの最新ソリューションや技術トレンドを徹底解説」の配信済み記事一覧


尾原 和啓さん(以下、尾原) ICCサミットの非常に濃いセッションも最後から2つ目です。

最終日の3日目まで残って見てくださっている、この深夜番組感がたまらないですね。

(会場笑)

清水 亮さん(以下、清水) ラジオっぽいですね。

尾原 そうそう、しかも今回は深夜番組と言っても、NHKの教育番組的なセッションに、皆さんようこそおいでいただきました。

私はモデレーターということになっていますけれども、基本的には清水 亮さんがガンガンに解説するのを、壁打ち役としてお相手させていただきます。


尾原 和啓
IT批評家

IT批評家、藤原投資顧問書生。京都大学院で人工知能を研究。マッキンゼー、Google、iモード、楽天執行役員、2回のリクルートなど事業立上げ・投資を専門とし、経産省 対外通商政策委員、産業総合研究所人工知能センターアドバイザー等を歴任。現在13職目 、シンガポール・バリ島をベースに人・事業を紡いでいる。ボランティアでTED日本オーディション、Burning Japanに従事するなど、西海岸文化事情にも詳しい。著書は三作全てAmazon電子書籍で総合一位を獲得。「モチベーション革命」(幻冬舎)、「ザ・プラットフォーム」「ITビジネスの原理」(NHK出版)近著は「アフターデジタル」(日経BP, 藤井氏との共著)。Campfireでのオンライン講義も実施。
*15/6/11 Kindleランキングにて、書店はABC六本木、渋谷Book 1st 6/15調べ

よろしくお願いします。

清水 よろしくお願いします。

ソニーグループ発AIベンチャー「ギリア」

清水 ギリアの清水です。社名が覚えづらいので、こう覚えてください。

「義理」と「愛情」、のギリアです。


清水 亮
ギリア株式会社
取締役会長兼CEO

ハッカー/YouTuber。新潟県長岡市生まれ。プログラマーとして世界を放浪した末、2017年にソニーCSL、WiLと共にギリア株式会社を設立、「ヒトとAIの共生環境」の実現に情熱を捧げる。東京大学大学院情報学環 暦本研究室 客員研究員。主な出演作「シン・ゴジラ(エキストラ)」「ちちんぷいぷいプログラミング(BSフジ)」「散財小説ドリキン」。主な著書に「増補版-教養としてのプログラミング講座 (中央公論新社)」「よくわかる人工知能 (KADOKAWA)」「プログラミングバカ一代 (晶文社)」「文系でも知っておきたいプログラミングとプログラマーのこと(ダイヤモンド社)」など。

ギリアについて

創業者は北野(宏明)です。

北野 宏明(GLOBIS知見録)

尾原 北野さんはソニーCSL(ソニーコンピュータサイエンス研究所)の所長ですね。

清水 今170~180人ぐらいの規模ですね。

尾原 そんなにいるんですね。

清水 ほとんど会ったことがないんですよ。

2011年にリリースした「enchant.js」(※)をベースにして2013年に制作した「enchantMOON」を北野に発見されて、「手書きに興味があるのだったら、ディープラーニングをやろうよ」と言われて、2017年にギリアを設立しました。

▶編集注:enchant.jsは、オープンソースのHTML5向けゲームエンジン。enchantMOONは、手書き特化型のタブレットで、清水さんが立ち上げた株式会社UEI(2020年に解散)によって開発された。

2013年からソニーCSLと共同研究が始まって、いろいろコラボレーションしていく中で、ディープラーニングを事業化できないかという話になり、ソニーCSL社内のプロジェクトを経てUEIとの共同出資でギリア株式会社が2017年にスタートしました。最終的にUEIとギリアは親子逆転をして、今はギリアが存続会社となっています。

尾原 いろいろなことを端折ってお話しされていますけれど、もともと清水さんはNTTドコモのiモード立ち上げの、最初のエンタメのコアを作った人であり、FOMAの立上げ期にマルチプレイヤーのオープンワールド型のRPGを作った方でもあります。

enchantMOONでは、手書きで人がプログラムできたりという非常に画期的なことをやられて、ソニーCSLの北野 宏明さんといろいろコラボされていらっしゃるという流れですね?

ギリア清水亮が考える起業の極意、誰でも使えるAIの実現に向けて(STARTUP DB)
清水 亮(しみず・りょう)(WirelessWire News)

清水 そうですね。

清水 亮さん解説「最新のAIトピック」

清水 一応、最新AI事情というテーマなので、3つにまとめました。

尾原 すごい。マジですか。

清水 はい。この3つです。

  • 「NeRFがすごい」
  • 「自然言語がなんだかすごいらしい」
  • 「微分可能なのがすごい」

尾原 全部「すごい」ですけどね。

清水 はい。まぁ、自然言語については「なんだかすごいらしい」ですよ。

「NeRF」って聞いたことのある方、いらっしゃいます?

エヴァンゲリオンじゃないですよ。

▶編集注:NeRF(ナーフ)とは、Neural Radiance Fieldの略。『新世紀エヴァンゲリオン』に登場するのは「特務機関NERV(ネルフ)」

複数の写真をもとに自由視点映像を生成する「NeRF」

清水 では、「NeRF」をご存じない方のために、YouTubeでデモをお見せします。

これは何が起きているかよく分からないと思いますが、数少ない写真から、「動画」からではなくですよ、バラバラに撮った写真から3次元の情報を再構成して、自由視点を得るというニューラルネットワークです。

ニューラルネットワークの基礎解説:仕組みや機械学習・ディープラーニングとの関係は(ビジネス+IT)

今これがとても進化しています。

昔の手法(左側)ではこんなボヤボヤした感じでしたが、NeRF(動画の右側)を使うと、これだけキレイになります。(映像の2:13付近)

最近オリンピックやラグビーワールドカップなどでも「自由視点映像」といって、フィールドに入ったかのように見える映像がありましたが、まだNeRFは使っていません。

NeRFを使うと、それがもっと、よりリアルに再現できるようになります。

例えば今までVRの動画は、カメラで撮ると固定視点でしたが、カメラを2台や3台にして撮ると、その間も補完してくれるので、実際の実写の実景のVR空間を歩き回れるみたいなところまでできるように進歩しています。

いろいろあって全部は紹介しきれませんが、NeRFがらみでは「GIRAFFE」というものや、他のソースコードなどもいろいろ公開されています。

画像生成の話 -フォトリアリスティックなGIRAFFEを読んでみる-(Qiita)

とにかく少ない写真から3次元の情報を再構成する技術が非常に注目されていて、面白いとみんなが研究しています。

こちらが分かりやすい例です。

世界の名所を撮影した写真がFlickr(※写真の共有を目的としたコミュニティウェブサイト)などにありますよね。

天気も違う、時間帯も違う、角度も違う写真をベースに、完全に3Dの空間で再現します。

尾原 (映像を見て)おお、やるぅ、これ!

清水 NeRFにはVR(仮想現実)やAR(拡張現実)、物事のあり方などを根底から覆すぐらいのインパクトがあります。

今見たものはすごくスムーズでしたが、まだまだ実際は計算にものすごく時間がかかったりします。

ただ再生がリアルタイムでできるものがそろそろ出てきていて、すごく期待できる技術です。

尾原 そうですよね。

しかもこれはお互いにニューラルネットワークを持つことで通信容量をめちゃめちゃ下げたりとか、いろいろな応用分野が今できていますよね。

清水 そうですね。上の映像中のブランデンブルク門の上部は、実際にドローンを飛ばしたら怒られるけれど、NeRFでなら行けない場所まで行けちゃうぞみたいな。

人間が今まで想像で補っていた部分を、全部AIが可視化してしまうのが面白いところです。

尾原 そうですね、しかも撮影用に撮った写真ではなくて、適当に撮った写真を複数合わせても作ってくれるところがすごいですね。

清水 そうそう、ここまでできてしまうところがすごいですよという話です。

1つの動画から自由視点動画を作成可能

清水 それから、最近はNeRFのビデオ版があって、動画ができてしまいます。

1つの動画だけから…、こちらはまだ動画になっていませんね。

尾原 つまり動画から3Dモデリングをやって、動きをちゃんと補完するんですね、ヤバい!

清水 ヤバいですよ。

これは、肉を焼いている男性を撮影しながらカメラをちょっと動かしてあげると、後からどんな方向からでも再生できます。

まぁ真後ろは無理ですが、ある程度映した部分だったら、人間が脳で補完するのと同じように補完できるというような技術です。

清水 こちらもヤバいです。

Fig. 2. We learn the 6D plenoptic function by our novel dynamic neural radiance field (DyNeRF) that conditions on position, view direction and a compact, yet expressive time-variant latent code.©Tianye Li,Mira Slavcheva,Michael Zollhöfer,Zhaoyang Lv

Neural 3D Video Synthesis(PDF)

尾原 そうですね。

これである種のレイヤーのモデリングをやった後に、かつその動画を動かすというところを…

清水 そうそう。例えば動画の静止画から、映画のように、時間が停止した状態の中で自分だけが歩き回ったりする動画が作れます。

そういう映画はよくあるじゃないですか。だから、もはや映画の世界が現実になったようなものです。

しかも実際ビデオカメラを動かしながら、自由視点の動画も生成できるというのが、今あちこちで研究されているんです。

尾原 結局この辺で大事なことは、編集ソフトとかを使っているわけじゃないわけですよ。

清水 そうそう。

尾原 しかもチューニングしたモデリングを個別でやっているわけではなくて、共通のモデルを作ることで、こういったものができるようなところまできています。

清水 ロマンチックな言い方をすると、AIが空間を理解しているのです。

こちらは、左が入力された動画ですね。

ちょっと撮影がヘタなんですが、カメラを安定させると、真ん中のようにこの動画をちゃんと表現できます。

だから、手ぶれ補正なんていうレベルじゃないわけです。

こういう技術も、いずれカメラなどに入って来るでしょうね。

自然言語からコードを自動生成するAI「OpenAI Codex」

清水 では次に、「自然言語がなんだかすごいらしい」。

最近発表されたOpenAI Codex(※OpenAIが開発した人工知能モデル)について、僕が分かりやすくYouTube番組で取り上げました。

文章からプログラムを自動生成する「OpenAI Codex」β版APIが公開 「GitHub Copilot」のエンジン( ITmedia)

尾原 そうですよね。清水さんはYouTubeチャンネルをやっていらっしゃいます。

主に飯の話とテクノロジーの話ですね。

清水 (笑)全部で4分くらいあるので、飛ばしますね。

尾原 要するにプログラミングとは、「機械が使いやすい言葉を僕たちが学んで書く」ことですが、言語認識が優れてきたことで、普通に自然言語、要は僕たちが普段しゃべっているような言葉をしゃべっているだけで、それを解釈してプログラムとして動いてくれます。

しかもそこで書いたプログラムが、今の使われているプログラム言語に勝手に翻訳してもらえます。

清水 “Hello World”と指示すると、JavaScriptがAIによって生成されます。

“Bigger it”(大きくしろ)と指示すると…

尾原 こんな感じの指示でいいんですね。

清水 そう、そうするとフォントサイズが大きくなります。

“Red it”(赤くしろ)と指示すると、赤くなります。

尾原 今のところ、言語の書き方というのは、今のようにある程度指がシンプルなもので…

(“show a picture of a cat”(ネコの絵を出せ)という指示を見て)あっ、そうでもないですね、ちゃんと書いていますね。

清水 (動画中の清水さん「あっ、出てきた、すげえ」)ここまではすごいです。

尾原 ちなみに亮さんのYouTubeでは、新しい技術が出ると日本で一番早く、こうやって試してみて、しかも試している様子をリアルタイムで中継してくれるので、何ができて何ができないかの試行錯誤が追体験できるから、むちゃくちゃ便利なんですよね。

Ryo Shimizu(YouTubeチャンネル)

清水 この後、“show a picture of a computer”(コンピューターを出せ)と言っても、ネコしか出してくれません。

尾原 なんでや(笑)!

清水 サンプルで付いてくる指示だと結構すごいものができます。

こういうことを書いたらできるよというのがありますが、これがまた作為的なんです。

動画を見てもらうとわかりますが、「赤いボールを出して画面周りで反射させろ」(上の動画2:25付近)というすごい長い指示では、プログラムがすごい大量に生成されているんです。

それで赤いボールが反射しますが、「赤いボール」を「黄色い虎」に変えても、黄色いボールが出てくるだけとか。

自然言語の2つの派閥。清水さんの見解は…

清水 でも、これを使ってやるより、自分でプログラムを書いたほうが絶対簡単ですね。

尾原 認識がまだ辞書ベースなのか……。

清水 いや、一応これは辞書ベースではないんです。

GPT-3(※OpenAIが開発している言語モデルの最新版)ですから。

自然言語処理モデル「GPT-3」の紹介(NTT DATA)

尾原 ああ、GPT-3でやっているんですね。

清水 OpenAIですからね。OpenAIなんだけど、まだまだ課題があるとは言われていますよね……。

尾原 ただ大事なことは、こういうトライがもう結構されてきていて、今さらっとGPT-3と言いましたが、もう英語に関して言えば、言語理解をしてプログラミングするAIがものすごく発達しています。

どのレベルかというと、世の中に流れているツイートとかをかますと、勝手にニュース記事を作ってくれるとか、実際オックスフォード大学が研究をしているのですが、もうプロの読んでいる人間が区別できないレベルのニュース記事を書けるようになってしまっているようなレベルです。

記者の大量失業時代到来か!?世界的通信社ですでに活躍し始めているAI記者の実力はいかに?(でーたのじかん)

だから、フェイクニュースを大量生産できるようなレベルのAIが、ベースでできてきています。

そのベースを、じゃあプログラミングに使ってみようとか、いろいろな用途に使ってみようという応用がいろいろ出てきています。

清水 今、実は自然言語はこういう「ひたすら学習すればいけるよね派」と、「やっぱり無理だよね派」という派閥があって、僕はこの2つの派閥の間で揺れ動いているけれど、最近「やっぱり無理だよね派」になっています。

尾原 そうなんですか!? へえ。

清水 結局、やっぱりそんなに言語って浅くないんです。

もっと深いコンテクストがあって、今、言語の表層はなぞれるけれど、本質、芯は食っていないんです。

逆に言うと、ここまでできるようになったから、うまく、おいしいところだけを使って、ロジカルな言葉の組み立てをやったほうがいいよということは、また後で説明します。

AIは新しい自然なのか?

清水 最後に、「微分可能なのがすごい」。

AIで微分可能になるわけですよ。

尾原 そうなんですよ。

清水 微分可能性について、最近YouTubeの「ギリアチャンネル」で、落合陽一さんと対談したんですね。そこはもうさすが落合さんなんで面白い捉え方をしてるわけです。(※2021年9月14日までの期間限定配信)。

『Ghelia Monthly Special~落合陽一氏を迎えて~』―メディアアーティスト・落合陽一氏を招き、YouTubeにて期間限定配信―(GHELIA)

尾原 ああ、そうでしょうね、落合先生は大好きでしょうね、これは。

(編集注:セッションが行われたのは2021年9月9日で配信中だったため、会場ではそのときの音声が流れていますが、現在は公開終了のため内容を割愛しています)

清水 落合さんは、AIは新しい自然、デジタルネイチャー(※)と思っていて、自然や身体が微分可能になるとかいう話をしていたんですが、すごくないですか?(笑)

▶編集注:落合さんが提唱する概念で、「コンピュータと非コンピュータリソースが親和することで再構築される新たな自然環境」として捉えられる世界像。デジタルネイチャー(IT用語辞典 BINARY)

尾原 皆さん、今回のICCでは日本庭園などを見に行くツアー(※美食体験や特別プログラムなど)がありましたけれど、庭園なんていうのは、結局枯れたり苔が生えたりとか、要は微分なわけですよ。

自然が、だんだん自然に戻っていくという……

清水 最近落合君は微分可能なライブラリーを使って逆算した機械とかの特許とかを出しているんじゃないかな。

その対談の結論は、最終的には「微分可能がヤバい(これから期待できる)」という話でした。

まあこんなのがだいたい最新になるんですけど、一応仕事なので、仕事の話もしていいですか?

尾原 もちろんですよ、何言ってるんですか(笑)。

では、これらのトレンドを受けて、清水 亮さんは今何を捉えて、仕事としてされようとしているのでしょうか?

(続)

本内容は本セッションに登壇したした時点での発言者の個人的見解・意見を含むものであり、ギリア株式会社およびICCパートナーズ株式会社(以下「両社」)の公式見解を示すものではありません。
本掲載記事及びその内容に関し、両社はいかなる保証もするものではありません。 万一本文書の内容に誤りがあった場合でも両社は一切責任を負いかねます。

次の記事を読みたい方はこちら

続きは 2.自然言語技術が可能にしたAIアート どれだけでも描き直してくれるAI技師登場 をご覧ください。

新着記事を公式LINEでお知らせしています。友だち申請はこちらから!
ICCの動画コンテンツも充実! YouTubeチャンネルの登録はこちらから!

編集チーム:小林 雅/浅郷 浩子/小林 弘美/戸田 秀成

他にも多く記事がございますので、からぜひご覧ください。

更新情報はFacebookページのフォローをお願い致します。

この記事が気に入ったら
いいね または フォローしてね!