大学院生としてアウトリーチに携わって
博士論文を提出し終わった。まだこれからディフェンスが残っているが、これで僕の大学院生活も(順調に行けば)ほとんど終わろうとしている。9年にもわたってきたけれど、いざ終わると思うと物寂しい。
加えて先月下旬、自分が大学院生の間に3年ほど関わってきた「10分で伝えます!東大研究最前線」の最後の活動を終えた。この企画は大学院生によるアウトリーチ活動団体なのだが、3年も関わるうちにいろいろと考えることと愛着が湧いてきたので、この節目に自分の関わり方などに関して差し支えのなさそうなレベルでまとめておきたいと思う。
以下、基本的には自分の回顧録なので、有益な情報はほとんどないであろう、ということを先に注意書きとして述べておく。
「10分で伝えます!東大研究最前線」とは
その名の通り、企画としては東大の大学院生が自分の研究、ないし自分の専門分野における最近のホットトピックを10分にまとめて紹介する、という企画だ。学生企画としてはおそらく7年ほど続いていて、それも大学院生が研究の合間にやっている企画だと思うとなかなか頑張っている方ではないだろうか。原則的には年2回の東大の学園祭(5月の五月祭と11月の駒場祭)で行われていて、朝一番から夕方まで10分の講演 + 5分ないし10分の質問タイムを1セットとして次々に大学院生が入れ替わり立ち替わり喋る。喋る大学院生も思想史から素粒子論まで背景が多岐にわたっていて、その目新しさからか例年学園祭のイベントの中でも好評を博しているようだ。
コンセプトとしては専門の最先端の面白い話を10分で持ち帰ってもらう、分野の概論よりは研究者自身の関わっている・手を動かしているトピックを、といったところだろうか。10分間の講義というよりは、何か一つの「コンテンツ」に近いかもしれない。
ここ2年は感染状況の影響を受けて、学園祭もオンライン化している。学園祭実行委員会も前例のないことで運営で苦労していて、学園祭の時期がずれ込んだりなどしたこともあるが、当企画はZoomウェビナーに以降して企画として存続させることができた。大学の教室でやっていたときは最大瞬間風速150〜200人ほどの来場者で熱気に包まれた中熱く研究を語るのがなかなか得難い体験だったのだが、オンライン化したことにも功はあって、例えば教室では立ち見が発生したり、そもそも教室に入るのを断念せざるを得ない来場者がいらっしゃったところが、そうした物理的な制約から解放され、関東圏以外どころか海外からも参加できるようになっていることに関しては評価の声を耳にする。いずれにせよ、来場者の皆様からもなかなか活発な質問や議論があって、今でも非常に盛り上がるイベントとなっている。
また、企画の裏コンセプトとして、大学院生の「横のつながり」の形成が挙げられる。大学院生の生活の実態としては、一般的に院生控え室だとか研究室だとかに所属し、普段は学会内のコミュニティにともすれば閉じこもってしまうことも多いため、文理の垣根を超えるどころか隣の研究室の人が何をしているかさえ知らないことも少なくない。そうした壁を破ったつながりを作るのは、きっと何か面白い化学反応が起こるに違いない、と少なくとも僕は思ったりする。
自分がどう関わってきたか
僕は修士2年のときに人づてで講演者として誘われた機会があって、それ以来累計6回話す機会に恵まれた。自分の研究の専門としては機械学習になるが、専攻としてはコンピュータ科学なのもあるし、機械学習まで完全に狭く絞りきらないほうが数理的には面白いトピックをよりたくさん拾えることもあるので、専門ど真ん中の話をした回は多くない。これまでに行った講演の内容は大雑把にまとめるなら、
- 2018年駒場祭: randomized responseと差分プライバシー
- 2019年五月祭: 不動点定理とPageRank
- 2019年駒場祭: スパースモデリングと圧縮センシング
- 2020年駒場祭: 教師付き学習と凸最適化、敵対的ロバスト性(自分の研究1)
- 2021年五月祭: KL divergenceとロジスティック回帰 + α(自分の研究2)
- 2021年駒場祭: 機械学習の理論研究 vs. 実験研究と最近の潮流
といったところだ。ほんの簡単に、それぞれの回の思い出を懐古したいと思う。
2018年駒場祭「プライバシーの数理」
初めての参加で勝手もあまりわからなかったので、とりあえず当時自分が興味をかなり持っていて研究もしてみたいと思っていた差分プライバシーについて話すことにした(結局未だに差分プライバシーで論文は書いていないが)。ざっくりと前後半でrandomized responseと差分プライバシーの話を5分ずつ程度した。Randomized responseは数学的にも非常に簡単で、最も簡単な設定では一次方程式を解くだけなので、一次方程式という言葉をできるだけ回避しながら原理まで踏み込んだ。差分プライバシーはどうしてもコンセプトレベルの話に留まってしまうが「出力にノイズをのせないとデータが割れてしまう」ところまでは持ち帰ってもらおうと思って努力した。もう少し分かる人向けにはラプラス分布の話を入れたりもした。後半の差分プライバシーの話は、概ねDuchi et al. (2013)の内容をベースに話した。加えて南さんのスライドに非常にお世話になった。
これも余談で、この回は匙加減がわからなくて、ガッキー好きであるというキャラを10分間全面に出したにも関わらず寛容に見守ってくださった関係者各位には頭が上がらない。初回の参加でそんなことをするな。
2019年五月祭「不動点とアルゴリズム」
修士1年のときに受けていた大学の授業デザインの講義で僕はPageRankを題材にして講義デザインの演習をしていたので、使い回せるかなと思って喋った。それだけだと面白くないので、前半でBrouwerの不動点定理まで踏み込んで、後半でPageRankの話をした。敢えてタイトルに「アルゴリズム」と入れているのにも微妙に現れているように、当時はできるだけコンピュータ科学色を打ち出したくて、「不動点定理があるからPageRankのfixed-point iterationは停止する; アルゴリズムの収束性が担保される」というところをメッセージに置いていた。ここで不動点定理を持ち出すのは牛刀をもって鶏を割くことに他ならなかったり、PageRankがそもそも最先端なのか非常に怪しかったり、とこの回は個人的には冷や冷やしていたが、幸いなことにやはり皆様に寛容に見守っていただいた。
使い古された「つむじと不動点」のギャグを使ったりと、これも暖かく見守っていただいた関係者各位に感謝である。
2019年駒場祭「スパースモデリングの最前線」
ちょうどこの年の4月にブラックホール観測のニュースが話題になっていたので、スパースモデリングの話をすることにした。ただ僕自身がスパースモデリングに疎かったり、周辺の知識までちゃんとカバーしておく必要があったため、Event Horizon Telescopeプロジェクトの元論文を全くの専門外であるにも関わらずある程度読み込んだり、Hastie, Tibshirani, and Wainwrightのスパースモデリングの教科書を読んだりするなど、そこそこ準備に手間取った回だった。このおかげでスパース解の復元可能性の証明を追ったり、圧縮センシングの理論保証を眺めたりする機会を持てたので、個人的な学びが多かった。講演としてはブラックホールの観測とスパースモデリングがそもそもどうつながるのかという話を前半で行い、後半で実際にスパースモデリングの原理・アイデアと復元可能性の理論について簡単に触れた。
2020年駒場祭「パターン認識を支える最適化」
4回目にもなったので流石に機械学習っぽい話をするか、ということで、教師付き学習とsurrogate loss、勾配法の話から入り、凸最適化の性質の良さに触れ、自分の論文の内容である「敵対的攻撃の存在下で凸損失が分類損失に対して適合的でない」という結果を紹介した。これも内容が10分間にしてはあまりにも重いので、まずはできるだけ教師付き学習のコンセプトと、そこに最適化がどう用いられているのか、そして凸関数は何であるか、なぜ凸最適化が嬉しいのか、までは絶対に持って帰れるように時間を割いた。後半のロバスト性の話は相当難しいので、ついてこれた人向けのadvancedな内容として、「最先端の研究でも解決できない問題の難しさと面白さ」が伝われば嬉しいかなあと思いながら喋った。
2021年五月祭「情報が『近い』ってどういうこと?」
もう少し僕の十八番である損失関数やダイバージェンスについて話してみたいと思い、ちょうどこの年の頭にFenchel-Young lossの論文を書いていたのもあったので、「(特に確率分布の)距離とは何か」という話をメインにしつつ、ロジスティック回帰との関係性の話をした。前半で(できるだけ確率分布の概念の詳細に立ち入ることを避けながら)情報圧縮とハフマン符号の話から入ってKLダイバージェンスを導入して、後半3分の1でロジスティック回帰の話、最後の1分でFenchel-Young lossの話を非常に駆け足でした。最後1分の自分の研究の話はほとんど何も伝わらないレベルだと思うのでもっと良いトークの構成はあると思うのであまり満足がいっているわけではないけれど、情報圧縮の概念あたりは噛み砕けていたのではないかと思っている。
相変わらず「仮面ライダーに変身できない私」のようなくだらない話をしていた(注: 竹内涼真が仮面ライダーに変身できることを受けている、一応)。
2021年駒場祭「計算機科学者から見たコンピュータと科学」
自分の大学院生活の最終回ということで、いよいよ本格的にコンピュータ科学とは学問として一体何なのか、を話すことにした。メッセージとしては「コンピュータ科学(のある程度の領域)は『現象のモデリング』自体を研究するメタ科学である」という点に集約したのだけれど、これもコンピュータ科学をどこまで網羅できているかは微妙なので、少々冷や冷やする。統計、機械学習を離れても一応アルゴリズムや言語処理、論理学までこういうことは言えると思うし、HCIなどでも結局人間の行動や認知に関するある種のモデリングというか想定が必要だったり、数値計算も元々物理などにおけるシミュレーション計算のモデリングを元にしている部分もあったりするから、広い視点で見れば包括できると思っている。なんなら、むしろこうしたCSの別分野の専門家と研究哲学に関して議論したいまである。
10分間の話としては、上述の「メタ科学」に関する結論を最初3分で言ってしまい、その後統計モデリングの話と、モデルの理論解析 vs. 実験解析のアプローチの違いを「LeCun vs. Rahimi」の話に触れながら締め括った。どちらかといえばかなり自己満足色の強い話だったので非常に恐縮であるのだけれど、一見こういうメタ的で地味な話であっても、それに興味を持って日がな真剣に、一方で楽しくディスカッションしている研究者がいるんだ、ということを楽しみながら感じ取ってもらえたらいいのかなあと思っていた。
その他
自分で研究に没頭するうちに「これは面白い!」と思える話がたくさんあって、少しでも多くの人とこの楽しさを共有したい、という気持ちがあったので、こうしたアウトリーチの機会に恵まれたことには非常に感謝している。一方で、独りよがりなアウトリーチになっていないか、市民が求めているものに応える形のサイエンスコミュニケーションになっているのか、特にここ1、2年は自問自答する機会も増えてきて、その面から言えばなかなか満足のいく形まで自分のトークをブラッシュアップすることはできなかったのだろうな、と思う。そもそもアウトリーチとは何であるべきか、教育とは何を目標とするべきなのか、という点さえも人によって千差万別の考え方がおそらくあるだろうし、コンセンサスはないのだけれども、少なくともこの点に関して自分で悩む機会があったのは有り難い限りだと思う。
また、同世代の大学院生とコミュニケーションを持てたのは非常に大きな収穫だった。同じ研究室や分野の人間だと専門研究の一つ外側のレベルの話はどうしても話しづらい空気が(少なくとも自分の周囲では)あって、研究とは、学問とは、教育とは、社会とはどうあるべきか、みたいなことを素朴に議論できる仲間がいるのは良いことだな、と思っている。僕の他愛もない考えと議論に付き合ってくれた仲間には感謝の念が尽きない。