而立

而立になった。一般的には現役折り返しの年代である。研究をはじめて7、8年ほど経ち、自分が一年にどの程度のスループットで仕事ができるのかも(限界も含めて)段々とわかってきたいま、人生であとどれくらいの仕事ができるのだろう、思った以上にできる仕事の量、残された時間が多くはないということを次第に実感する次第である。それと同時に10年前では自分も想像していなかったようなキャリアになりつつある(20歳のときに将来研究者になろうという算段は毛頭なかったように思う)。これからさらに10年後、自分がどういう道を歩んでいるか、仮にマネジメント側に回っていったとしてもいまの自分の気持ちを忘れないために、できるだけのことを振り返っておきたいと思う。

(注意: 以下約2万字あります)

2015〜16年(学部)

10年前の2015年はちょうど大学3年生に進学したところで、東大の進学振り分けで専門の理学部情報科学科に進んだところだった。元々は統計物理や量子論、非線形物理にも興味があったのだが、高校生のときから情報系にずっと興味があり、かつ進学振り分けの際に(周囲の几帳面な学生と比べて)各専攻の解像度を十分に上げきれなかったため、そのまま情報科学科に進学した。もちろんこれはこれで自分の望んだ進路だし、非常にエキサイティングかつ他では間違いなく身につけることの出来なかった専門性を身につけられたと思うが、解像度がより上がった今だったら計数工学科とかなり悩んだと思う。

理情での学部生活はとにかく課題漬け。もっとも世間から見るような悲壮感漂うものではなくて、コンパイラやカーネルのアーキテクチャを少しでも知りたいととにかく昼夜問わず打ち込む好事家が勝手に夜遅くまでやっている感じで、普通に単位を取るだけだったらそこまでやらなくても大丈夫だと思う。僕はサークルもちょうど忙しさのピークを迎えていた時期というのもあり、昼過ぎに講義を終えて駒場に向かってサークル活動をし、終わってから本郷に戻ってきて日が改まるまで夜ご飯を食べながら課題に取り組んで、1時半ごろに(魑魅魍魎ひしめく上野広小路界隈を眺めながら)帰宅する、みたいな生活を1年近くやっていた。この時期はとにかく楽しく、体力が有り余っているのもあって苦に感じた記憶はない。夜な夜な友達と本郷キャンパスで人生語りをしていたのも良い思い出。

2016年の頭には、理学部の奨学金をとって CMU に一ヶ月ほど見学する機会にも恵まれた。今から考えれば研究の「け」の字も知らない学部生が大御所の研究室にふらっと一ヶ月だけ現れて何の意味があるのか、バカバカしい話ではあるけれど、当時の僕にとっては初めての非アジア圏で、入国審査で手こずったのも、Googleマップを睨みながら合っているかどうかもわからないバスの行き先と格闘するのも、慣れない英語で日々の生活をやり過ごすのも、自分にとって重要な経験だった。無茶旅すぎて後から安全管理上怒られたりもしたが、知らない土地で、それでも見様見真似の英語でなんとか人とコミュニケーションが取れるんだというのは、自分が海外生活に対して抱く楽観主義の源泉になっていると思う。ちなみにピッツバーグはそれから10年間再訪出来ていないのでノスタルジーがある。できるだけそのうち行きたいです。

2016年は未踏、PFN インターン、卒論の三足の草鞋で、もう破茶滅茶に忙しかった記憶しかない。年後半は未踏を一緒にやっていた友人と「いかに可処分時間を最大化するか」とお互いに言い続け、Toggl に作業時間を入力し続け、最大で週80時間みたいな生活を続けていた。同時にやっていたせいで正直なところどれも不完全燃焼になってしまったのが未だに心残りではあるのだが…。未踏ではネットワークI/O、PCI Express、プロトコルスタックまでを文字通り一気通貫で実装し、友人宅に潜り込んで作業し続けた暁に、自作のネットワークインターフェースから自作のプロトコルスタックを通って YouTube が再生できたときの感動は言葉に言い表せないものがあった。僕たちの使っている技術がすべて一つ一つのパーツから成り立っているという事実が手に取るようにわかる瞬間。自分はいまではシステムプログラムからはめっきり距離を取ってしまったが、機械学習理論に興味を持ち続けているのも畢竟、数理モデルの低層から一つ一つの要素技術を一気通貫で理解したいという気持ちを持ち続けているからに他ならない。

2017〜19年(修士〜博士前半)

大学院に入り、本格的に研究室生活が始まった。振り返って思うと、僕が研究室にいた当時は賑やかでやる気に溢れた同期に恵まれて、修士時代はとにかく毎日友人や先輩と何が意味のある研究なのかを議論したり、最先端の研究の情報交換をしたり、集中不等式のゼミに没頭したりとか、毎日が刺激的だった。楽しかった。正直この楽しい環境に騙されて博士課程に進んだ部分は多い。博士課程はどうしても同期の数が減るから仕方ないのだけれども、賑やかさの一点に限って言うと修士課程とは比べられない。

とはいえ修士の1年はそんなに研究がうまくいくこともなく、颯爽と結果を出す同期と比べて焦燥感を抱くことも多くて大変だった。夏インターンも(B4で行ったから)行かず、海外博士進学もしないことに決めて、アルバイト以外ほとんど全部の時間を研究に費やしていたけれども、そんなにすぐに結果が出るわけではなく。ただ、そうやってうまく行かないなりに日がな考え続けていたのが功を奏したのか、クリスマス頃に解けそうな問題を突然思いつき、そのまま18年の年始には論文投稿に漕ぎ着けることが出来た。このタイミングで論文投稿できたおかげで M2 のタイミングで学振と ACT-I に結果的に採択された。多少の打算はあったけれど、しかし計画的に考えるのであればやはり M1 の間に一つでもいいから仕事を残せるのが大事なように思う。人生なかなかそう上手く行くものでもないのだけれども…。

M2 の間はおかげで初めての国際学会発表でストックホルムに行ったり、ワークショップでテルアビブに行ったり、招待講演で京都に行ったり ACT-I の領域会議に参加したりと、発表の機会に恵まれた。ただ、いまほど発表をそつなくこなすことが出来たわけではないので、準備に多くの時間が必要だったりして、あまり研究に十分な時間をかけることができなかった。そのせいで M2 の後半から D1 の後半まではなかなか業績が出ずに2回目のスランプに嵌まっていた。ただいまから振り返ると、じゃあ他にうまくこなせる方法があったかと言われるとそんなうまい話もないので、結局自分なりにスランプに嵌まってもがいて、それから自分のやり方を経験から学びながら確立していくしかないのだと思う。

D1 の頭には(これがまたなかなか成仏しなかった)F値最適化の研究を書き上げた。ACT-I の頃に「2、3本論文を自力で書き上げたら一人立ちできるね」という話をされていたので、その言葉で自分を鼓舞して書き上げたは良いものの、着想(M2 の夏に国際学会で発表を聞いているときに思いついた)してからは半年以上経っているし、論文も最終的には D2 の頭までは通らずで、これまた大変だった。後から振り返るとあまり筋の良い研究だったとも思わない(F値にはもう少し良い構造が背後に潜んでいるのだが、当時の僕はそこまでの経験がなく汚い構造をどうにか泥臭く扱おうとしていたので、あまり良い研究ではなかった。Peter Flach が大昔に混同行列に関してもっと見通しの良い構造記述を行っていることを知ったのは5年も後になってからだった)。とにはかくにも書き上げた研究を引っ提げて、D1 の夏にはエディンバラやベルリンでワークショップに参加して発表して、パリやサクレーの知り合いの場所を訪問して、とにかく時間のあるうちに、と思って、行ける海外ワークショップはすべて参加していた。

D1 の後半にはアメリカに半年弱研究留学した。詳しくは昔書いたのでここでは省略するが、他の研究者と密に議論しながら仕事を作り上げる経験は初めてだったし、僕にはない発想をホストの先生から多く学ぶことができたので、未だに僕の研究の着想アイデアの3割くらいを支配しているような気がする。共同研究者との深いディスカッションにはこういう意義がある。自分と相手の思考を深いレベルまで混ぜて、混ぜて、とにかくかき混ぜて。そうすると誰にも思いつかなかったような仕事がそこから生まれる。僕がいまでも深いレベルでの共同研究やディスカッションが好きなのは、こういう経験があったからだと思う。

2回目のアメリカ滞在もまた自分の中に深い印象を残した。実質4ヶ月強程度の短い時間というのもあったから、日中はとにかく図書館に籠もって論文を読んで解析をし、日が暮れたらキャンパス近くのジムに通って家に帰って寝る。これだけをひたすら繰り返す。30のいままだ同じ働き方ができるのかよくわからないけれども、あまり後生ずっと続けたいスタイルではないからこそ、若いうちにやっておいてよかった。ホストの先生は指導学生が少なかったけれど、そのうちの一人と意気投合して、滞在中もたまにアジアスーパーに車出してもらって(あまりメインキャンパスに近くなかった)一緒に買物したりとか、滞在後期には彼の研究に関してよく議論を重ねたりした。結局滞在中に共同研究をするには至らなかったけれども(お互い経験不足で未熟だったから)、最近5年越しに学会で再開して、共同研究をしようという話になってきた。顔を合わせていなかった5年間の間も、海を超えた相手の論文だけはずっと読んでいたから、久しぶりに会っても相手の近況をそんなに聞く必要もなく、三言目には研究の議論が始められる。そんな不思議な間柄になったものだ。

2020〜21年(博士後半)

20年から始まったパンデミックは大変だった。元々日本にいたときも研究室の同僚と意味もなく議論するのが好きだったし、海外の学会やワークショップに参加するのも好きだったのに、博士後半の丸二年ほとんど自宅から出ることのできない生活というのは耐え難いものだった。自宅で作業効率を最適化するのに成功した人もいるけれども、僕は結局適応することができず、この2年間は低出力で論文もほとんど書けなかった。結局博論の仕事はほぼ実質 D1 の間にやったものになった。パンデミックは別に博士学生に限らず様々な年代、コミュニティに対して影響を及ぼしたわけで、自分のことばかりを嘆いても仕方ないのだけれども、博士課程の後半での機会損失は甚大だったと思わずにはいられない。

よかったことを敢えて上げるなら、この期間、論文が出なかったかわりに科学史、科学哲学、科学コミュニケーションについて考える時間が増えた。家にこもっていても湿気てくるから、墨田公園や京都・三条大宮公園に出向いて日向ぼっこしながら本を読むみたいなことをよくしていた。とにかく本を選ばずベルクソン、オルテガ、プラトン、トゥーゲントハット、丸山眞男、野矢茂樹など、元々本を読む方ではなかったので、活字が読めなくなることに対する恐怖感を覚えて、ジャンルを問わず一貫性もなくひたすらに読んでいた。この頃から読書する習慣が多少は身についた。

もう一つ、博士課程の間に東大の有志の大学院サークルで集まって学祭で一般向け講演するのを積極的にやっていたのは、後から振り返ると大きな財産になったと思う。自分の研究分野は数学に近くてどうしても一般聴衆からはかけ離れてしまいがちだけれども、どうやったらエッセンスを抽出できるかを頭を捻って考える訓練は大事だと思う。結局のところ、本当に「意味のある」ことは簡明な言葉に濃縮できるはずだというアインシュタインの信念は間違っていないのだろうと感じるし、同時に専門集団で閉鎖的にならないように藻掻くことは丸山眞男の批判するタコツボ型学問に陥る危険性に対する抵抗にほかならないのだと思う。とかく自分の専門とかけ離れた人の話をなんでも主体的に興味を持って聞けるようになってきたのは、確実にこのサークルに3年ほどどっぷり浸かった経験の賜物だと思う。もし仮に東大の大学院生でもしこれを読んでいる人がいたら、ぜひ門戸を叩いてみてほしい。

2022〜24年(ポスドク)

博士課程を終えて幸いなことに京大の白眉センターに拾ってもらった。経緯はこれも既に書いたので端折る。結論から言うと京都生活は3年にわたったのだが、20代の最後の3年間を京都大学の土地で過ごすことが出来たのは幸甚の至りであった。まず東大で9年間学生生活を過ごしてきた自分の思考のフレームを相対化できたのが大きい。東京と時間の流れ方が違い、明らかに発想に突飛な勢いを感じる折がある。情報系分野では京都であっても次第に東京をはじめとした大都市圏の時間の流れに巻き込まれつつあるのは非常に惜しいのだが。そして何にもまして、白眉研究者に気軽に会える環境があったのが何にも代えがたい。正直な話、僕はつまらない学生だったので、本来であれば大学の学部教養の履修で理系であっても人文系の講義を取って幅を広げられたチャンスがあったにもかかわらず、結局近視眼的に物理や数学ばかりをやっていて、10年くらい経ってあの頃の失敗を悔いていたものなのだが、白眉にいると自分と全く違う専門家の話を生で、好きなだけ質問しながら聞くことができる。何人かの同僚と口を揃えて「青春が戻ってきた」と言っていたものだ。別に学際研究を無理にする必要なんてない。お役所仕事的に学際研究をすると、分野 A の道具を分野 B に応用しました、以上の研究になりえない。それはそれで意味がないわけではないのだが、学際研究(僕はこの言葉が好きではないが他に適当な言葉がないので仕方なく使う)が真に目指しているのは異分野の思考の体系を混ぜ合わせ、そのキメラから生まれ出てくる一欠片なのだと思う。それは本質的には分野 A と分野 B を両方極めた一人の人間の中でしか生まれ得ないものだと僕は思っている。そうでないと付け焼き刃的な仕事にしかならない。だから、白眉は異分野の教えを請う場所だったと思っている。

(自分が教えを請うた一例を挙げると、たまたまクーンの科学革命論に興味があったときに文化進化論をやっている研究者からグールドの断続平衡モデルを教えてもらったが、さらに後日別の生態学をやっている研究者から実は「グールドが断続平衡説を唱えたのは個体レベルでの持続メカニズムを種レベルの持続メカニズムまで昇華したかった」のが本当の意図らしいことを教えてもらった。たぶんズブの素人である僕が自分で勉強していたら、このお気持ちまで辿り着くのに数年単位の時間がかかっていた)

僕自身別に学際研究を意図してしようと思っていたわけではないけれども、結果的に白眉にいた間に同僚の研究者と共著でを書くことになった。それも科学哲学について。元々は23年の春に鴨川沿いで白眉同期で花見をしていたときに、偶然臨席してなぜか京都学派とか河合隼雄の話をしていたのがキッカケだった。当時たまたま僕は本業の方で教科書の翻訳をしていたときで、科学の専門用語を和訳する難しさ、明治期における西周の貢献の大きさについても話していたような気がする。それが回り回って「翻訳」をテーマに高名な仏教学者の枕として講演をする機会までいただいた。それはともかく、数理統計学や知能情報学をやってきた自分にとって、モデル・推論のどのような側面・特徴がそれを法則たらしめ、知性たらしめるのかということに関しては考えても考えきれないほどの疑問があった。帰納推論は自然の斉一性といった仮定の導入、それをどのように数理的に定式化するのかという点に関して主観の入り得る余地があるし(それが必ずしも忌避されるべきことであるとは思わないが、主観の入った法則・推論の哲学的含意を自分で納得することができなかった)、一般的にはより確実性が高いと思われている演繹推論でさえも立脚する公理系の選択には主観が入り得る。より「自然だと思われる」公理系を導入しているのだからそれは認めても良い、というのは至極真っ当であるが、なぜある公理系は自然だと思えるのか、なぜその公理系を認めることに対してコミュニティが合意に至ることができるのか。そういった疑問は全く自明に思われないにもかかわらず、当該専門領域で問うことは禁忌ですらある(正確に言えば禁忌というわけではないのだが、学問の前提を疑うことには相当な時間的・金銭的・精神的コストがかかる以上、よほど「和了りの」研究者でない限りそんなことを問うていたら生活できないから誰も問わないのだ)。こんな与太話をしていたら、意外にも興味を持ってくれる(全く異分野の!)研究者が集まってきて、議論を重ねることになった。惑星物質科学における「あらゆる科学的発見は生命の起源につながっている」というアプリオリズムは何に由来するのか。動物行動学におけるモーガンの公準はなぜ正当化できるのか。こういった問いは当該分野の中で振り返られることは稀であるというのも共通項であるし、その問い自体が分野の垣根を超えて接続している。こんな「食えない」問いを日がな考えていても生活ができたのは、白眉センターのおかげであるというのはいくら強調してもしすぎることはない。本の詳細についてはもうじき公になるから割愛する。

そんな「食えない」問いで穀潰しばかりしていたかと言うと、幸いそういうわけでもなく、本業の研究も共同研究者に恵まれて、それなりに飯を食うことの出来た3年間であった。学習理論の本元である COLT (Conference on Learning Theory) に単著が採択されたのは、博士出たての自分としては大きな自信に繋がった。また、研究の幅も最終的に自然言語処理から最適化非線形力学神経科学、果てはマーケットデザインまで広げることができたのは、3年前では思ってもみないことだった。僕は元々一つの山を誰よりも速く、誰よりも高く登ることに長けているタイプでは全くなく、むしろ異なるシステムの同型性を見出すことに(人並みの)適性と(かなり大きな)興味があるのだということは薄々感じていた。だからできるだけキャリアの早いうちに敢えて「浅く、広く」を実践しようと思っていた経緯があり、それなりには達成できつつあると思っている(もちろん、現状よりもさらに広く、そして深化させていきたいと思っている。非線形力学やマーケットデザインの研究はまだまだ表層をなぞっているに過ぎない感覚である)。

京都は良い土地だ。僕自身、東京にいたら恵まれなかったような機会が数多く訪れた。京都は人を引き寄せる街である。雲の上のような存在だった海外の研究者が日本まで出向いてきて、知り合うことができたのは、京都の地の利のおかげに他ならない。こと自分の専門分野に限って言えば、日本コミュニティのグローバルからの断絶は壮絶であるが、しかしこういう機会のおかげで少しずつコミュニティの接続に向かって前進しているような気はする。道程は未だ果てしなく遠いが、その道中の糧は京都で手にすることができたのではないか。

これまでの仕事

機械学習理論の中でも、とりわけ損失関数の性質と役割に関して興味を持ってきた。振り返れば処女作は研究室の先輩の見様見真似でやった研究だったが、その過程で「損失関数の違いで学習可能性が大きく変わる」ことに対してそれなりの衝撃があり、いまの研究の方向性に進む原体験になったような気がする。機械学習理論の分野だと、汎化誤差解析、学習可能性、オンライン学習、最適化、サンプリング、最近だと帰納バイアスとか、そういった「ラベル」のある研究群と比べると、「損失関数の研究」には確立された「ラベル」がなく、何をやっているのかというイメージが持たれづらい。自分は今でもこの点に関して負い目を感じているので、少しくらい釈明しておきたい。

損失関数は言わずもがな、モデルを訓練するときにモデル出力と期待される出力の差を定量化する関数である(これは教師あり学習の場合。自己教師あり学習だったり教師なし学習だともっと説明は難しいが、簡単の教師ありの状況を考えてほしい)。一度モデルと損失関数を定めてしまえば、現代的な機械学習のパイプラインでは、損失を始点として誤差逆伝播を行うことで最適化する。何を隠そう、誤差逆伝播の一番走者が損失関数であるわけだから、損失関数の持つ特徴は学習全体のパイプラインに支配的な影響を持つ(というのが僕の信念である。コミュニティの中では「損失関数の差異は重要でない」という議論もある)。損失関数を選ぶことは、僕たちがこれから解きたい学習問題を宣言することに他ならない。これはVapnik の教科書の冒頭にある例にも見られるように、例えば二乗誤差を選べば回帰、対数損失を選べば密度推定といったような、損失と学習問題の対応がある(この対応付けは単純すぎるきらいがあるが一旦このように例示しておく)。ところが、僕たちが現実で遭遇する多くの意思決定では、学習問題が離散的な構造を持つことが非常に多い。分類問題しかり、グラフ構造推定しかり、マッチングしかり、である。なぜなのかと言われると、結局僕たち人間は高々可算濃度程度の対象しか扱えないような認知能力だから、ということになるのだと思うけれども、それはともかく、学習問題は離散的な構造を持つのに、モデルの訓練に使う損失関数は連続最適化を行う都合上連続関数であり、つまり学習の方法論と意思決定にギャップがある! このギャップをどのように埋めるのか、より具体的には、学習時の損失の最適化が果たして評価時の損失を最適に導くのか、という問いが、損失関数理論の一つの重要な問いであると思う。この問いは2000年代初頭、サポートベクターマシンが隆盛を極めていた頃に、学習理論界隈で少しの盛り上がりを見せたが、個人的には数学者 Ingo Steinwart の論文による整理と定式化を気に入っている。

というのが数理的な観点から見た損失関数の研究である。しかし、僕はこの研究が科学哲学的に重要な含意を持っていると思っている。損失関数ないし評価尺度を決めることは、繰り返しになるが僕たちが「どのような問題を解くことに興味があるか」に関する宣言に他ならない。一度損失関数を定めてしまえば、基本的にはそれを最適化することで機械学習は行われる。しかし、どのような問題を果たして解くべきなのかは、同語反復だけれども僕たちが決めなければならないのである。そのときに損失関数の設計に指針を与えるために、僕たちは損失関数の構造をよく理解しておく必要がある。確率推定が可能な損失関数はどのように特徴づけされるのか。入力データに混入した汚染に対してロバスト性を持つ損失関数はどのようであるべきか。意思決定問題 A と意思決定問題 B はどちらがより難しい問題なのか(つまり片方の問題をもう片方の問題に帰着可能なのか、その方向はどちら向きなのか)。こうした特徴づけをよく理解してはじめて、僕たちがどのような意思決定を求めていてそのために損失関数はどのような性質を備えているべきなのかを知ることができる。またその反対に、ある意思決定を行ったときに(あるいはあるコンセプトが学習可能であったときに)、結果的に僕たちは何を知識として獲得しているのかを知ることができる。手前味噌ながら博論の中でこの2つを「backward reduction(逆方向の帰着)」と「forward reduction(順方向の帰着)」として整理した。これがゆくゆくは「知識=学習問題」の(「難易度」による)階層構造を形成すると考えている。

僕はこういう議論が「問題が解けるとはどういうことか」という疑問に(ある程度数理的に扱うことのできる範囲で)答えを与えるのではないかと考えている。「チューリングマシンと計算可能性のことではないのか」という指摘はごもっともではあるのだが、データドリブンな帰納推論がここまで発展した以上、計算可能性のモデルを問い直す必要はあると思う。計算可能性というか、「推論」可能性と言うべきか。機械学習・誤差逆伝播・連続最適化では、最悪ケースでは少なくとも NP-困難である問題群が、経験的には全くもって「解けている」。チューリングの時代には計算=推論とみなせていたとしても、現代的にはこの推論のモデルは「硬すぎる」。最悪ケースの解析は乗り越えられなければならない。

理論とは何か

そう、計算機科学における理論は、古典的には最悪の入力が与えられたときに果たして計算機械はどれくらいの性能と速度を発揮するかを数学的に見積もるモデルを指すことが多い。経験平均が理論平均から大きく乖離する確率は最悪の場合どの程度か(確率集中不等式)。第三者が個人情報を盗み取ろうとするとき、最悪の場合どの程度の情報が盗まれてしまい得るか(差分プライバシー)。攻撃者が機械学習モデルへの入力を細工して予測を恣意的に操作しようとするとき、最悪の場合どれくらい予測の質は落ちてしまうのか(敵対的ロバスト性)。これらの数理モデルはことごとく最悪の状況における性能評価である(計算機科学のみに限らない。隣接分野でも似たような解析はやる)。

最悪ケースの解析のご利益は何なのか。プライバシーやロバスト性はわかりやすい。なぜなら、技術が実際に社会実装されたとき、システムが自動化されて人間の手を離れたとき、最悪のリスクを想定したくなるのは自然な動機である。セキュリティや暗号学はその最たる例である。どんなに最悪ケースが現実でなかなか起こり得なかったとしても、万が一最悪ケースを突くような攻撃者がいたら一巻の終わりである以上、絶対に最悪ケースを死守することが求められる。しかしこれは非常にプラグマティックな動機である。実社会で用いられる情報技術では確実にこうした性能保証が求められるケースは存在する。するのだが、この最悪ケースを網羅したシステムは「知的」なのだろうか?不必要にコーナーケースを考えることによって、本来だったらより高速かつ性能良く動作するはずのシステムを過小評価していないだろうか?(SAT ソルバーはその最たる例だ)

僕たちが理論に期待していた役割は何だったのか。あらゆる自然科学者の心を掴んで離さない理論の歴史的な「成功」事例は、ニュートン力学、ケプラーの法則、量子力学、それから相対性理論であろう。これらは理論法則の予測性能が著しく高い例である。一つの方程式が普遍的に様々なシステムの時空間的挙動を精度良く予測してしまう事実は、工学的・プラグマティックなご利益のみならず、その美しさに魅了されずにはいられない。高校生の頃の僕自身も(この解像度では認識はしていなかったけれども)自然と惹かれていた一人だ。それどころか、近現代の歴史学者の中で歴史学の社会科学化に対して大きな興味が持たれており、歴史学以前に歴史哲学自体が侃々諤々の議論の場になっているのは、いかに人間が予測可能性、普遍性に対する強い希求を持っているかの一つの裏付けでもある。

よく言われるように、(理論)物理学が大きな成功を収めた理由は、対象とするシステムがすべからく controlled experiments が実行可能であるようなもの、外乱が無視できるような閉鎖系を扱っているという点にあると考えられる。例えば、惑星運動はよほどのことがない限りは公転・自転を恒常的に繰り返すことを前提としてモデル化されるから、閉鎖系として捉えられる。惑星運動という一つのシステムが同条件・同出力のブラックボックスになっているから、それをつぶさに実験・観察し、モデルにフィッティングすることで理論化される。しかし、この理論化のプロセスは、どうも計算機科学(数理統計学)の理論化のプロセスと異なるように思われる。現実世界には様々な社会現象、心理現象、自然現象が存在する。社会現象を理論化するのが社会科学であり、物理現象を理論化するのが理論物理学であり…といった具合に。その「レイヤ1」の科学の外側の「レイヤ0」に計算機科学はあるように思われる。どういうことかと言うと、現象をモデル化するその「プロセス自体」をモデル化する、メタ的な立場にいるのである。

(5年くらい前に無謀にも作ったスライド)

では「レイヤ0」の科学は何を問うべきかと言うと、「モデル・法則はどの程度良いのか」ということになる。言ってみれば当たり前の道標に聞こえるかもしれないが「レイヤ1」の科学が「対象をモデル化し挙動を予測する」ことに興味があるのに対して、「モデルの挙動を予測する」「モデルの良さを評価する」ことが目標となるのは異質に感じられる。しかし、対象の「未来」の挙動は未来になってみないとわからないから、時間軸的に予測対象時刻から見て過去にいる僕たちが未来のサイコロの目を評価しないといけないというのはおかしい話である。であるから予測自体の「良さ」を客観的に評価するというのはハッキリ言って無理である。その定めから逃れるための一つの方法が、最悪ケースの解析である。最悪ケース解析であれば、将来的にあり得る可能なパターンを(ほとんど)すべて想定し、それらすべてのシナリオでの評価を行うことで、あたかも将来予測の評価が行えているかのように見える。数学的にはこういったモデル化は理にかなっている。しかしこの評価はあまりにも保守的である。

「レイヤ1」の科学は取り扱うシステムとその入出力の特徴を丹念に観察し、利用することができるため、システムの特性に関して活用可能な情報が多い。それに加えて controlled experiments が可能でさえあれば、非常に高精度にシステムの将来挙動を予測することは可能になり得る。その一方、「レイヤ0」の科学は汎システム的な理論構築を目指すため、システムの特性であったりその入出力の特徴が多様に変わり得る。これが「レイヤ0」の科学の直面する困難性である。取り扱うシステムの特性を限定すればシステム挙動の予測性能を高めることは多少できるだろうが、それは予測理論の適用可能範囲を狭めることになる。ここに「レイヤ0」理論が抱えている普遍性と予測性能のジレンマがある。

しかし、である。僕たちは計算機を手にしている。つまり、システムの実際の将来挙動を知りたいのであればシミュレーションを実行することができる。それである程度将来挙動を見積もることができるのであれば、それで良いのではないか?

このシミュレーションに基づく理論のアプローチにはいくつかの問題があると思われる。表層的な問題として、複雑なシステムになるにつれてシミュレーションが現実的なリソースで実行可能でなくなることが挙げられる。これはシミュレーションの解像度と予測精度という、また新たなジレンマである。より本質的な問題は、シミュレーションが出力した解を僕たちは理論法則としてどこまで鵜呑みにできるのかという点である。カオス性が高いシステムに対してシミュレーションを実行したときに、シミュレーションの初期値や数値誤差によって予測不可能なまでに乱雑に時間発展した系から、果たして何が「わかる」のかは甚だ疑問である。ニューラルネットはその最たる例である(ニューラルネットの初期値鋭敏性・フラクタル性が実際に報告されている)。

それに対し、機械学習による予測モデリングならば、古典的数値シミュレーションと相互補完しながらより大きなスケールかつ高精度にシステムを模倣できるのではないか、という反論はあり得るだろう。GraphCast による気象予測などはその一つの例をみなすことはできる。実際のところ、そうなのかもしれない。AI による技術の進展による予測技術の著しい成長に対する楽観主義は割によく見られる。「レイヤ1」の科学の理論モデルにはこれからますますこうした予測技術が活用されていくのは間違いない。しかし、そのような相転移が進行したとき「レイヤ0」の科学は何を目指すべきなのだろうか。僕は上で「レイヤ0」の科学が問うべきことを「モデル・法則がどの程度良いのか」であると述べた。そもそもシステム=モデルがあまりに複雑で従来の僕たちの理論モデルが扱う範疇に収まらなくなり、一方で計算機による予測・シミュレーションがシステム=モデルの挙動を精緻に捉えられるようになったとき、理論にやるべきことは残されているのだろうか。ニューラルネットの研究だって、ニューラルネット自身で予測・シミュレーションを(それこそメタ的に)行うことは十分可能なはずである。理論でやるべきことは、理論モデルで扱える範疇までシステム=モデルを単純化して「説明」もどきを与えることなのだろうか。ウィリアム・ジェームズはプラグマティズムの真髄が「what it makes a difference in the world」を問うことにあると繰り返し強調する。いまの理論は世界に対して示唆を与えているのだろうか。僕たちの認識論に浸透し得るだろうか。深層学習理論で精力的に成果を上げている Matus Telgarsky は、2024年の NeurIPS のワークショップで次のような言葉を残している(ソース; 翻訳は包による)。

機械学習のための数学:もしその目的が解析であり、数学自体にあるのなら、おそれることなく現実からかけ離れて良い。その目的が現象の説明やモデル化にあるのなら、実験に頼るべきかもしれない。その目的が新しいアルゴリズムを産み出すことにあるのなら、数学と現実は両立し得ないことを認めなければならない。

あまりに耳に痛い箴言である。数学が、理論が、プラグマティックであり得ることの不可能性をまで示唆する言葉ではないが、しかし現実世界への接続可能性の道を大きく閉ざしてしまう独白である。僕はこの言葉を聞くまで自分の中で理論の意味付けに対する言葉にならない堂々巡りを3年以上も繰り返していたが、その内容を非常に的確に、かつある種批判的に言語化してくれたように思う。

これはある意味で科学が、科学者たちがずっと訴求してきた科学の「プロトコル化」の顕れである。属人的で職人にしか理解できない、再現できない言明や技術は、コミュニティの中で人口に膾炙しないものであり、極論すれば「身につけば誰でも扱えるもの」が科学の追い求めてきたものである。はじめは直観を持った一握りの科学者がコミュニティにとって新奇な知識や技術を産み出すが、それは時間を経るにつれてコミュニティの共有知になり、(時間をかけて経験を積みさえすれば原理的には)誰でも扱えるようになるものである。しかし、なぜそうやればうまくいくのかはわからない。フビニの定理を使えば積分の順序交換ができることはわかるのだが、なぜフビニの定理で正当化されるのかを理解するには膨大な時間と経験が必要だ。フビニの定理くらいだったらまだ大学生くらいなら一から順を追えば全貌を把握することができるかもしれないが、では測度論は?解析学は?果ては基礎論は?となっていくと、有限の認知リソースしか持ち得ない人間が一歩一歩追っていくのは限りなく難しくなっていく。だからどこかで「信じる」しかなくなる。「信じ」なければ複雑巨大であり一人の人間の手にはとてもではないが追えないシステムの前で呆然とする他ない。演繹推論の極致である数学とて。それにもかかわらず、「信じて」良いのである。それがコミュニティによる蓄積と共有知の上に築き上げていく科学のあり方であってきた。だから誰にでも扱うことができるように「プロトコル化」「モジュール化」することが大事であり、かつそれらの反証可能である形で残していく。ニューラルネットの解釈可能性も同じ構造を抱えているように思う。各々のニューラルネットの要素は「わかる」。しかしモデルからデータ、統計、最適化、予測までが一気通貫となると「わからない」。それでも「レイヤ1」の科学にとっては各々のモジュールがどうなっているかということよりも、各々のモジュールを積み重ねて対象のシステムを「わかる」ことが至上命題になる。「レイヤ0」の科学は、モジュール間がどのように接続して、総体としての推論ネットワークを形成しているかという点に興味があるように思われる。推論ネットワーク全体こそが、「レイヤ0」の科学が扱うシステムなのだと思う。この貪欲さゆえに、「わかる」の基準が過度に上がってしまっているのが、機械学習理論の世界であるようにも思われる。シミュレーション・実験で得られる現象の説明とモデル化では何が不足しているのか?それを数理は乗り越えることができるのか?それがいま問われている。

何をすべきか

わからない。わからないけれども、「わかる」の基準を見直しても良いんじゃないかという気はしている。「わかる」を「機械学習モデルが知識を獲得する」と言い換えると、僕はこの現象を損失関数の観点から記述したくなる。あるタスクが解けることをもってして操作的に「わかる」を定義するのが、経験主義的にはできる精々限界のところだろうと思う。この操作的な定義の裏返しが、損失関数による「わかる」の定義に対応している。この定義に基づけば、知識の階層構造を含め、「わかる」を科学するにあたって解かねばならない課題はまだごまんとあるように僕は感じる。

この「わかる」の定義を人間の「わかる」の定義に拡大解釈してよいか。僕は、これはかなり危険なことだと思う。要するに人間を操作的に扱ってよいのかという倫理的問いに直結する。クラウドソーシングから実験心理学に至るまで、多くの科学分野においてこの種のアプローチが取られているのは承知しているし、僕も個別の事例を批判するつもりは毛頭ないのだが、このアプローチを取ることに対する直感的な忌避感と、このアプローチを取らざるを得ないであろうという諦観が混在している。僕にとってこれは本質的な問いである。

余談だが、白眉の面接の最後に面接官の先生に問われた質問が、「あなたの研究は『人間の理解』を理解することに繋がるとお考えですか」という質問だった。克明に覚えている。これは自分の申請書に書いていた「自分の研究の行く末には『人間の理解』を理解することが位置づけられる」という突拍子もない一文句を受けての質問だった。面接官の先生もあまりの突拍子なさに困惑していたと思う。当時はまごついて気の利いた言葉を返すことが全くできず、それで面接後に落ち込んだのだが、いまならもう少しマシな言葉が返せる気がする。ゆえに3年間の京都生活は、無意味なものではなかった。

わからない

言い訳にも満たない言葉であるが、僕は「わからない」ことは僥倖であると思う。全部「わかって」しまったら後生何をすべきというのか。仲の良い友人の言葉に以前「どれだけ本を読んでもこの世にはあまりに本が多すぎる」といった旨のことをふと言った折、彼は「積んである大量の本を読み切ることもできぬまま埋もれて生涯を終えていくくらいがちょうど良いのではないか」、という言葉を残してくれた。それはそうだと思う。僕たちは好奇心が潰える瞬間を最も恐れている。「わからない」は好奇心の源泉である。「わからない」ことは幸せだと思う。

研究室運営

ちょうど今日から統計数理研究所に異動になり、PIということになった。30のタイミングでこういう立場になるのは緊張感もある。独立PIというと大袈裟に聞こえるが、統数研は総研大所属なので学部がなく、また受け入れ可能な博士学生の数も数人程度と上限が設けられているため、実際は数人と一緒に仕事をしていくくらいのスケール感だろうと思う。が、おそらく自分にはこの環境が性に合うのではないだろうかと思って、この道に進むことにした。元々大学院時代からポスドク時代まで、研究室の規模が30〜50人規模の環境にいたことが多く、その環境の良し悪しが見えてきたタイミングでもあった。別に自分が殊更に書くことでもないが、ビッグラボの良いところは学生の数が多いゆえに共通の興味や悩みを持った先輩や同僚学生と学生間で相談しやすい、先生の国内外での認知度が高いがゆえに学生の立場でも国際学会に行ったときに認知してもらいやすい、ラボにいるだけで耳学問で隣の人から多くのことが学べる(実際僕自身バンディットは今も昔も素人の域を出ることはないけれども、周囲の知人の話を長い間聞いてきただけである程度の教養はあると思う)、といったメリットがある。一方で、明らかに教員が学生一人に投下できるリソースの量は限られてくる。前者と後者のバランスを考えたときに、学生個々人のレベルでも自由に同僚学生とのびのびやりたいタイプ(僕はこちら側の学生だった)、指導教員と密にコミュニケーションを取って学びを得たいタイプ、などいろいろあるだろうから、どちらがいいとも一概には言えない。ただ、我が身を振り返ってみたときに思うのは、教員と密にコミュニケーションを取りながら一つの研究を仕上げていくタイプの研究スタイルから得るものも多いのだろうという憧れは拭えなかった。実際、博士のときにアメリカに半年弱留学したときはホストの先生と週一でミーティングをしながら問題の定式化から解析の方針まで二人で密に練り上げていて、そのときは従前自分が得ることのできない経験が得られた実感はあった。たぶん自分の研究の興味が7、8年の時間をかけて徐々に応用から理論寄りへシフトしてきたのもあると思う。理論寄りの研究ではアイデア一発勝負ではどうしても突破口が得られにくく、研究コミュニティが積み上げてきた知見と潮流を踏まえた上で新しい仕事を生み出す必要があるから、どうしても年の功がものを言う部分が大きい。だからこそ、学生のときに自分が経験しなかったスモールラボで教員と学生が密にやり取りをするタイプの研究スタイルをやってみたくなったというのがあるのだと思う。

先日、海外の学生と半年がかりで一つの仕事を終えた。初期のアイデアはその学生が持ってきてくれたもの(僕は到底不可能だと思っていた問題を解決するスマートなアイデアだった!)だが、細部をしっかりと数学的に練り上げていき、先行研究との接続を与えていく作業の過程では、僕とその学生の間でそれ相応の時間のコミュニケーションが必要だった。僕は僕で自分自身だけでは得られないフレッシュな発想に接することができて勉強になったし、学生は学生の方で数ヶ月で見違えるような論文に仕上がったと思う(彼にとって学びがあったことを祈りつつ)。僕自身いままでこういう密な共同作業をやってきた経験が少なく、それに対して後悔があるわけではないのだけれども、きっとこちらの世界にも楽しさがあるに違いないと思って、当面は小規模なグループで運営していけたらと思う。

そもそも「グループ」という呼称も相応しくない。包は統数研にいるけれども、学生・ポスドク問わず、来たい人は来たらいいし、僕と一緒に何か仕事ができそうだったら僕は全身全霊でコミットする。別に僕が何かを管理して握っているわけじゃないし、風通しよくみんなが行き来できるような形になったらいいと思う。そういう気持ちでいまも興味を持ってくれそうな海外の学生、友人に、立川に遊びに来てくれるようにラブコールをかけているところである。きっと楽しい場所になると思うし、そうなるよう一心で力を注ぐので、みなさんぜひふらっとお立ち寄りください。