ネッカー川の試練
学会でオーストリアに来たついでに、近くのチュービンゲンに立ち寄った。目的は数年前に Tübingen AI Center に移籍してきた Bob Williamson に会うため。彼は元々オーストラリアに長いこといて、その当時からとにかく一本一本が面白く、また重みがある論文を書くことで気になっていた。また、僕自身博士課程にいる間(そしていまも)、Bob の論文を相当に読み込んで、それを枕に研究をしてきた。彼の研究は損失関数の理論。Proper loss(あるいは数理統計やメカニズムデザインの分野では proper scoring rule という名前でもっとよく知られている)と呼ばれる損失関数で、agent の主観的信念を合理的に引き出すことのできるインセンティブに対応する損失関数を、彼は 2008〜2016年頃にかけて研究をしてきた。そして論文がとかく長い。論文が長ければ長いほど良いなどと言うつもりは毛頭ないが、彼の場合、一寸の無駄さえも感じさせないのが印象的だった。例えば彼の 2011年の大作、“Information, Divergence and Risk for Binary Experiments” は 87ページにわたる大作である。この論文では proper loss の構造、weight function によるフーリエ変換的な特徴づけ、f-divergence や情報量との関係などを余すことなく記述しつくしている。この論文を読み切るのに何年かかったことか。いや、今でも読み切ったとは到底言えない。噛んでも噛んでも味が滲み出てくる、スルメのような論文だ。一体何を食べてどう考えたらこんなパーフェクトな論文が書けるのか。とにかく知りたい。そして大陸の反対にいる青二才が彼に対する尊敬を抑えられないことを伝えたい。そんな気持ちでテュービンゲンを訪れた。
前情報では、テュービンゲンの街は非常にこじんまりとしていて、二日もいればやることがなくなって飽きてしまうような街だと周りの人間に聞かされていた。一体どんな街なのか。シュトゥットガルト空港からローカルバスに乗ること1時間、途中の道路の線形がお世辞にも良いとは言えず、テュービンゲン中央駅に辿り着いたときには旅の疲れも相俟ってややグロッキーだった。中央駅から数分歩くと旧市街の入口、ネッカー川。美しい。川の向こうに見える旧市街の町並み、ネッカー橋に飾り付けられた上品な花々、川辺で思い思いにゆったりとした時間を過ごす人たち、なんとも牧歌的だ。この日は数年ぶりに会うテュービンゲンにいる旧友数人と、旧市街のパブで彼らのテュービンゲンでの生活の話を聞いた。
翌日、Tübingen AI Center へ。ネッカー橋から 20分ほどバスに乗って丘を登り、いかにも研究所然とした周りには何もない土地にたどり着く。朝一番から Bob とのアポイントメント。まずは僕の過去の研究を軽く紹介する。手始めにロバスト性と損失関数に関する研究を紹介してみる。この研究は自分も相当に苦労した研究であり、ロバスト性を損失関数の言葉で書くためにはモデル空間やデータ分布に多かれ少なれ踏み込む必要がある。僕が喋り始めること数分、Bob はあっという間にその点を見抜いてきた。損失関数で記述するには、ロバスト性というのはあまりに複雑なのだ。それに対して Bob が提示するのが彼の近作、“Information Processing Equalities and the Information–Risk Bridge”。ご多分に漏れずこの論文も大作であり、正直僕は追えてなかったのだが、懇切丁寧に教えてくれた。要するに、Bayes risk は従来全可測関数に対して infimum が取られるが、観測データが何らかの corruption process を経て得られるときは Bayes risk を全可測函数内の infimum で定義するかわりに、同値な表現として関数空間と corruption process のある種の「畳み込み」で書き、その中での infimum として定義できるということだった。そして corruption process を古典的な data processing inequality におけるマルコフ過程と捉えると、ここで示される結果は等式、だからある意味で data processing equality なのだ。これが彼の直近の data corruption に対する見方らしい。敵対的ロバスト性がこの枠組みで扱えるのかは現時点では定かではない(おそらく彼の考えている corruption process は回帰変数に対する corruption のみである)が、問題の定式化が僕の泥臭いアプローチに比べると遥かに美しい。早速一本取られた。
その後、話は彼の “The Geometry and Calculus of Losses” に移る。2014年頃から Bob は proper loss を損失関数の数式形で捉える代わりにその「像」で捉えるようになりつつある。この論文は Bob のそうした見方の集大成と言っても良いと思う。僕は最近全く別の研究である損失関数の構造を理解しようとしていたときに、ああでもないこうでもないと云々唸っていたときに、実はこの像による損失関数の捉え方を「再発見」していた。像による損失関数の描像は見通しが良い。その理由は非常にシンプルであり、損失関数という一見とらえどころのない量をグラフという幾何的に、すなわち視覚的に理解できるようになるからである(と僕は考える)。この点は、なぜ凸解析が分野横断的に系の本質を捉えられているかにも通ずるものがあると思う。凸解析も畢竟、興味の対象の量を凸集合として表現し、支持平面や接点といった幾何的な量に対象の性質を結びつけることができ、僕たちに視覚的な理解を促す枠組みであるのだと思う。この見方はつい最近、友人に「なぜ包は凸解析的な見方を好むのか」と聞かれたときに、そのときは僕は即答できなかったのだが、熟考して得た結論である。そして、まさにこの点において Bob と意気投合するに至ったのである。
また、Bob の最近の研究で気になっていた「imprecise probability」、特にその動機について知りたいと思っていたので、ものの出来心で聞いてみた。Imprecise probability とは大雑把に言えば確率値の取り得る上下界のようなものだが、信用区間などの類似概念とは明確に異なる。確率の概念、とりわけ頻度論的確率は元来複数の可能世界に対する事象の実現頻度を指すものであり、それは理論的仮構にすぎない。その上、コイン投げを繰り返したときにその相対頻度が収束することは保証されておらず、収束するならばその収束値を確率と呼ぶ習わしになっているが、収束しない場合は従来の頻度論的確率概念では現象の記述がかなわなかった。一見するとそんな場合にどう太刀打ちするのか全く自明ではないのだが、数学的には実はそこまで込み入っているわけではない。要するに、収束しなかったとしても集積点は(適当なな条件下で)存在するわけで、集積点の集合を確率のような実体として捉えるのがポイントである。このときの上下界を imprecise probability として定式化する。しかし、損失関数の研究に 20年近くも注力してきた Bob が imprecise probability の研究を始めたのは僕にとってはやや唐突に感じられて、それ故に彼個人としての動機が気になっていた。それに対する彼の回答は、僕にとっては意外なものだった。曰く、「真の確率」なる理論的仮構を用いて我々人間の行動をモデル化するべきではない、と。仮に確率を用いてある人の取り得る行動をモデル化、予測するとなると、現状は彼彼女が心の中に持っているサイコロを振ってその出目に従って行動を取るということになる。それは(確率概念の出自である)保険やギャンブルのモデル化としてはある程度合理的かもしれないが、個別的人間のモデルとしてはあまりにも画一的すぎる。平均の回帰としてしか我々人間をモデル化することができないという。これは僕がここ数年漠然と考えていたことと非常に強く共鳴する。(頻度論的)確率概念では「N=1」の科学はおよそ不可能なのだ。しかし、こういう議論は専ら科学哲学者の専売特許であり、数理科学者で真剣に考えている人が果たしてどれくらいいるのか、僕はこれまでかなり悲観的だったのだが、まさかこれだけ(本業の研究の興味の意味で)近いところにいたとは予期していなかった。
Imprecise probability がどれくらい従来の頻度論確率に挑戦できるのか、いまの僕の知識では判断を与えることができない。議論した限りでは、imprecise probability は spectral risk measure 的な「リスクに対する重み付け」の概念とどうやら対応するらしい。そしてその重み付けは各自で異なって良い。そこに個別性が生起する。これがいまの自分の理解である。理解としておそらく不正確なところが多いので後で論文を追い直さなければならないが、筋は通っているように感じている。そしてどうやらこのリスクに対する重み付けと proper loss の weight function にパラレルな構造があるらしく、これこそが Bob が imprecise probability に研究の裾野を広げているテクニカルな理由だそうだ。
お昼ご飯を学生と一緒にいただいた後に、テュービンゲン訪問の本番である自分の研究発表をした。正直、ここ最近の発表で最も緊張感があった。なにせ発表内容が僕の最近の proper loss に関する一連の研究であり、それを分野を作り上げた大の専門家の前で発表するのだから、エキサイティングであると同時に青二才の穴だらけの思いつきにどんな批判が来るのか戦々恐々だった。前日の夜から、そしてお昼ご飯の前も含めてずっと頭の中で発表のリハーサルを繰り返していた。そのおかげもあってか、限られた時間の中にしては僕の中では理路整然と喋ることができた手応えがあった。無論最先端の研究を紹介している以上、ディテールを伝えきるのは土台無理な話ではあるが、自分の中では最善を尽くしたようには思う。しかし、Bob からはそれなりに手厳しい指摘がきた。僕の昨年から今年にかけての proper loss に関する研究は、興味のある複数の意思決定問題に同時に良い性能保証を与えることを目指しているものだった。これには自分なりの動機づけがある。前提として、僕自身の頭の中には強く Vapnik の原則、つまり「最終的な意思決定問題に対して中間的な問題を解くべきではない」という原則が染み付いている。これは僕の博士課程期間の訓練の影響が強い。しかしその一方で、僕は我々人間がそうした最終的な意思決定問題を明確に言語化することができるほど合理的であることを想定するのは要求水準として高すぎると思っている。このあたりは昨今の OR 分野における decision-focused learning や TCS 分野における omnipredictor の考え方とも良く符合する。だから妥協策として、Vapnik の原則は確かに正しい、我々は意味もなく中間問題を解くべきではない、しかし人間は最終問題を明確に認知するほど合理的ではない、だから「それなりに合理的であると思われる」意思決定問題の集合を予め措定し、その問題集合に対して同時に合理的な判断・予測を行うのが良いのではないか、というのが僕の考え方だった。僕の proper loss に関する研究もその哲学に基づいていたし、何なら博論で既にこの考え方を論じている。しかし Bob は想像以上にこの考え方に「No」を突き付ける。もし仮に我々が少しでも曖昧な中間問題を解くことに拘泥するならば、我々は必ずその「対価」を支払わなければならない。その上、「対価」がどのようなものであるかを知ることすらも難しい。だからこそ、我々数理科学者は矜持を持って人々に解くべき問題を明示化させなければならないし、その幇助をすべきである。これが Bob の思想だった。
なるほどこれは道理を得ている。しかし僕はやはり人間がそこまで合理的であることを想定するのは難しいと思う。Bob に問う。もし僕たちが最終的に解きたい意思決定問題が 2つあり、そのどちらを解くべきか最後まで意思決定を下せなかった場合はどうするのかと。彼の答えはこうだった。曰く、2つの意思決定問題のある種の「補間」に対応する問題を解くことはできる、と。テクニカルにはこういうことである。意思決定問題、例えば分類問題の場合、偽陽性コストに応じて識別境界をどこに置くかは変わってくる。偽陽性コストをいくらに設定するかが、まさに一つの意思決定問題に対応すると言える。このとき、我々が潜在的に異なる 2つの識別境界に興味があるとする。そのとき、各々は proper loss の weight function に対応するため、ある種の合理的な aggregation ないし補間を行えば、両者の中間的な意思決定問題を導くことができる。そして、中間的な意思決定問題を問いたとしてもオリジナルの 2つの意思決定問題を問いたことにはならないが、各々に対して中間的な意思決定問題の解がどれだけアプローチしているかを評価することはできる(例えば surrogate regret bound を用いて最悪ケース評価をすることで)という。しかしやはり僕はこの考え方に納得がいっていない。中間的な意思決定問題を解いてしまうと、情報理論的にはもう二度とオリジナルの、補間前の意思決定問題を最適な形で解くことはできない。データからモデルの写像は「data processing」であるから、非可逆的に情報を失ってしまい、意思決定を行った時点で元のデータに戻ることはできない。それこそ望まぬ「対価」を支払っているように感じてしまう。それゆえに僕が思うのは、データ X に基づいて意思決定問題 Y1 と Y2 が与えられたとき、我々がやるべきことは Y1 と Y2 の中間問題である Y’ を解くことではなく、Y1 と Y2 各々との相互情報量を最大化するような中間表現 Z、すなわち I(Z;Y1|X) と I(Z;Y2|X) の最大化であるような気がしているのだ。これに対して Bob は「おそらくその問題は我々が望むほど明快な形で解くことはできないと思う」と批判する。その真偽は僕には直ちに判断することはできなかった。確かにそうなのかもしれない。一方で、我々が問題を綺麗に解くことに拘泥しすぎているのかもしれないし、もしかすると我々が損失関数という言葉に拘泥しすぎているだけにすぎなくて、例えば情報理論的にはより明快に記述することができるのかもしれない。しかし、Bob の批判も的を得ている感覚はある。たぶんこういうことを考えるとモデル空間に対して相当に介入せざるを得ない。それは果たして僕たちが問題の構造の本質を捉えるために進むべき道なのか自身は持てない。
僕のこうした一連の見方は、僕自身の研究に対する両極的な動機、すなわち一方では Vapnik の原則に基づく徹底的に意思決定ドリブンな予測を行うべきであるという考え方と、もう一方ではコネクショニズム的データの表現空間の有用性に関するミーハーな興味が混在していることに起因する。この両極は明確に僕自身の中でアンビバレントかつ互いに相容れそうにもない動機として確実に存在する。昔知人と雑談していたときにこういうことを話していたことがある。「機械学習の研究者には二通りある。それは知能に興味がある人と、社会に興味がある人だ。」その知人は明確に彼自身「社会に(のみ)興味がある」と言い切った。そして僕が想像するに、Bob も社会に重きを置く研究者に他ならない。しかし僕は立場を明確に取ることのできない浮浪者である。意思決定を中心に据えた問題の定式化に対する明確なベネフィットを認識している点では社会に興味があるとも言えるが、しかし表現学習に対する僕の知的好奇心はまさに知能に対する漠然とした興味の証左でもある。知人との会話から2年強経ったいまなお、僕はこの両極に対する明確な立場を取ることができない。たぶんこれからも未来永劫そんな明確な立場を取ることができる日はこないだろうという直感すらある。どちらかのスタンスに振り切れる人は真摯に羨ましいと思う。どちらつかずの人間の立場は本当に苦しい。知能側の人間からも、社会側の人間からも、双方から自分の思想に対する絶え間な挑戦を受け続ける命運にある。そう、他者から科学的好奇心に基づく率直な挑戦を受けるほど研究者として喜ばしい瞬間はない。それは自分の思想を深化させる契機に他ならない。学者冥利に尽きる体験である。同時にそれは終わりのない思索の道程でもある。考え続けることはときに僥倖であり、ときに災厄である。それは僕たちに課せられた逃げることのできない足枷である。
これを書いているいま、僕はフランクフルトから東京のフライトの中にいる。果たしてテュービンゲンに滞在した時間は本当に僅かに二日だったのだろうか。議論の深さを考えると俄に信じがたい。ひとつひとつの議論のピースは合理的であるにもかかわらず、結局僕はただ自分の思想の甘さを認識する結果に終わった。それが無意味であるとは言わない。しかし、博士課程を終えて早三年も経とうとしているいま、自分の立場を明確に持てないことに対するやり場のない後ろめたさを拭うことができない。何より、僕自身の性質が(ポール・グレアムの言う)「悪しき中庸」に非常に親しいものがある実感を持っており、そしてこの性質を根本的に変えることは絶望的に難しく感じられる以上、どうすれば良いのかいまだ検討がつかない。それでもなお、自分の思想に向き合い続ける必要がある。やや大袈裟に過ぎるきらいがあるかもしれないが、これが僕が自分自身に対して感じる生きる意味だから。