Random thoughts in Japanese. All optinions are my own.

2024/01/31 (Wed.)

  • 先週から起きている時間のほとんどを原稿に費やしている。歩いていても人と話していてもつい「原稿のあそこはどう直せばいいだろうか」と考えてしまう。が、そのおかげでかなり原稿はまとまった。明日投稿予定の自分の2本の論文は(マイナーな修正はできるかもしれないが)自分の心の中では一応完成した気持ちになっている。一旦頭の中から消して、少しは生活に戻りたい。
  • 誤解なきように書いておくと、寝ても覚めても自然に研究のことを考え続けてしまうのは幸せ。それが好きだという証左。ただ、これが続くのは体力的な理由でよくて1ヶ月くらいだろうから、そろそろ自分で自分を律する必要がある。
  • あっという間の2024年最初の一ヶ月だった。研究する時間がよく取れて集中できた一ヶ月だったと思う。理想的には年の三分の一くらいはこうでありたいもの。

2024/01/29 (Mon.)

  • 今期の研究室セミナーは終わり、溜まっていた原稿は一通り確認を終え、ついに最後の一本の原稿に集中することができる。ここ最近(幸せなことでありつつも)常に3〜4本くらいの原稿のことを同時に考えていたので、なかなか気が休まるタイミングがなかった。取り組むべき原稿が1本だけだと頭の中も非常にクリアになる。どちらも必要なフェーズではある。

2024/01/28 (Sun.)

  • Transformer 研究の初稿を埋めきった。締切4日前。こんなギリギリのスケジュール感で本当に良いのか、と思ったりもするが、1週間くらい実験設定を粘ったおかげで解析結果が有意に見えるような設定がきちんと見つかったのと、今日も原稿を埋めている過程で rank collapse と entropy collapse の関係性が頭の中で今一度整理されたので、埋めきった現時点では結果的に整理された結果でかつ面白い内容になったような気がする。残りの時間で原稿が読みやすくできれば十分にチャンスはあるだろう。
  • 書き上げたタイミングで忘れないうちに、この研究をやっていた過程で出てきた課題点を書き残しておきたい。まず1つは、transformer は入力トークンをガウス初期化したパラメータで埋め込むので、入力データのモデリングはトークン同士の離散的な関係性を捉えるのに注力したほうが良くて、その後は実はパラメータのガウス性が利用できるので面白いことが言えそうな気がする。もう1つは、transformer の訓練は思った以上に損失関数や正則化を少し変えただけでは学習曲線が全然変わらず、むしろ optimizer や学習率のスケジューリングが非常に支配的である点。こちらは陰的正則化を経由した目的関数設計の重要性が高まっていると言えると思う。
  • 1月も終盤。原稿のうち3本は共同研究者が整えていたり、再投稿だったりでなんとかなりそう。1本は今日初稿が埋まったので週明けに推敲を頑張る。最後の1本はまだ書き上がってないが、共同研究者が(本業に使うべきだったかもしれないはずの時間を賭してまで、、)必死になって証明の修正と仮定の再整理を行ってくれたので、週明けからは残ったイントロや考察を書けるはず。ギリギリの綱渡りだが、なんとかなりそうな光明が見えている。共同研究者の力に負っているところが大きいし、自分も相当頑張ったとは思う。あと12日。

2024/01/27 (Sat.)

  • 共同研究者が証明の間違いを見つけてしまって、必死に修正しようと試行錯誤しているが、自分よりも圧倒的に数学ができるがために僕は事実上横で眺めていることしかできないのが歯がゆい。僕は自分自身が興味のある問題に数学者が取り組んでいるだけでなく、その試行錯誤の過程を横で見ていられるので、本当に勉強になることしかないのだが、負担をかけすぎてしまっているような気がしていて申し訳無さがある。
  • 一方で transformer の研究は一応の有意な差が見られる実験結果が出たので、なんとか結果をざっとまとめた。埋めただけなので明日頭から推敲しなければ、絶対に論理的には通っていないと思う。それに言語モデリングでモデルも1層の非常にシンプルな設定でしか実験をやっていないので、流石にもう少し実験を増やした方がいいと思う。ただ、一つうまくいく実験設定が見つけられたので、ここからもう少し層数を増やしたりするのはそこまで極端に大変ではないと思う。しかし締切前非常にギリギリになってしまった。
  • 共同研究というのはいとも難しい。結局本質的に作業をするのは誰か一人になってしまいがち。本質的に複数人で研究することの意義は何か。

2024/01/25 (Thu.)

  • 今季で一番そこそこ雪が降った。朝大学に着いたときには薄っすらと 1cm くらいは積もっていた。もしいま学生だったとしたら、朝飛び出して金閣寺か鞍馬に行っていたかもしれない。
  • 朝一番に田中と(たぶん5年ぶりくらいに)話した。大学院生ならではの研究の方向性で悩みを抱えているフェーズのようだったけれども、実際本人がやっている研究は素人の自分にとってはとても面白いものだった。極地の地理的構造だからこそ成り立つ磁場モデルの単純化ゆえに、電子の突入ダイナミクスを解析的なモデルで記述することができるようになる。その問題のエッセンスの抽出の仕方は、どこまでいっても物理をバックグラウンドに持つ人達にかなわないと思ってしまう。
  • 今週前半は来客に伴ってセミナーが多くて慌ただしかったのがようやく落ち着いてきた。共著原稿のコメントをざっと返して自分の研究の作業に集中する。Fairseq & wandb の組み合わせで実験環境としては快適になった。ただ、試しても試しても実験がうまくいかない。単純な正則化項をつけて摂動を加えるだけでは loss curve はびくともしない。どうしたものだろうか。

2024/01/24 (Wed.)

  • NLPer の話を聞いていると、みんな自分が思いもしないような tweak を transformer に対して試して、面白い知見を引き出している。しかもだいたいが言語やニューラルネットに対する直感に基づいた動機があって、あながち見当違いのことをひたすら試しているわけでもない。それに比して我が身を振り返ると、半年くらい transformer のアーキテクチャを数理的な方面から見つめて式やコードを弄ってきた結果、自分の transformer を見る観点の筋が割りと微妙だと思わされる。自分が見ている側面は実際的にそれほど支配的な項でないような気もするし、理論的には既に似たようなことを考えている人たちはいる(ことを直近のサーベイで段々知っている)。つくづく自分のキャッチアップの遅さ、直感の悪さに辟易とする。それでも自分の半年の仕事から全く知見が得られないというわけではないと言えるけれど。並行研究のスタイルは僕には似つかわしくないのだろうか。

2024/01/23 (Tue.)

  • 週末にものすごい勢いで出来上がった共同研究者の証明を読んだ。2か月前 (2023/11/22) に自分で考えていたときは強凸定数や平滑性をうまく扱うために最小値周りの局所近傍を考えたい気持ちはでてきたものの、それを適切な数学の言葉で書くには自分の能力が足りておらず挫折していたのだが、そのあたりの自分の気持ちを数学者が代弁してくれるかのような証明で、あっと言わされた。鍵となるのは測地線と関数列による一様近似。勉強になるし、こういう概念を自分でも適切に扱えるようになりたい。
  • いよいよ時間がなくなってきた。原稿も書き終わってないし実験も終わってない。でもどの研究もエキサイティングなのは研究者冥利につきる。本当に乗り切れるのか、この2週間半。

2024/01/22 (Mon.)

  • 10日くらい fairseq の中身を弄ったりしていたらだいぶわかってきた。損失関数を入れたり興味のある統計量のロギングを追加して wandb につないで損失曲線を眺められる環境が整った。ここまで来れば割りと色々なタスクで transformer を試すことができるようになるはず。折角ライブラリの理解が深まったので、もう少し transformer 関連の研究をしてみたい。
  • 横井さん、大塚さんと企画していた人文系向けの大規模言語モデルトーク。自分もトークナイザーをかけた後の埋め込み表現の「意味」に対する疑問があったので、質問をしたら大塚さんから「文の構成要素として単語が自然種と思うレイヤーと、より細かいトークンを自然種として思うレイヤーの両方があってもおかしくない(文の自然種は自明ではない)」というコメントをもらってハッとしたり。終わった後の夜の部でもミッドステージの研究者のキャリア論とか、ドゥルーズ、パースの著作の話、どれも熱い内容だっただけにかかわらず、自分の忘れかけていた研究の野望、「主観的でしかあり得ない科学(≒ 最適化問題)から客観化できるエッセンスを抽出する」という言語化ができたのは大きい。

2024/01/20 (Sat.)

  • 東京で、名古屋で、家族、友人の元気にしている姿が見れて良い年始だった。30も見えてくると知己の姿を見るのさえも貴重な機会になってくるのだ。
  • 保険の請求資料を見ていたら推定余命換算表なるものがあって、自分の推定余命が49年と書いてあってかなりリアルな数字なだけに変な声が出そうになった。そうか、自分ももう人生を3分の1生きたということになるのか。

2024/01/19 (Fri.)

  • 2日間の領域会議、だいぶ体力を使ったが乗り切った。研究の打ち合わせが思っていたよりもかなり大幅に進んだのが良かった。これで月末の締め切りシーズンをなんとか乗り切れる気がする。後はもう一本の自分の研究の実験を進めるだけか。すべての出張はこれくらい生産的でありたいもの。
  • 神保町なんてコロナ後ひょっとして初めて行ったのではないだろうか。

2024/01/18 (Thu.)

  • なんとサークルの先輩後輩含めて知り合いが三人も育志賞を受賞していた。みんな取る人は取るなりの理由があって人選には納得させられる。自分は二度も学内選考で落ちた (2021/05/31) が、今は素直に素晴らしいと思える。
  • 横井さんとの雑談、相変わらず示唆に溢れていた。分配関数に実はそんな新しい見方がある可能性があるのか。だとしたら数理的にも言語処理的にも相当面白いのではないか。

2024/01/17 (Wed.)

  • 投稿中の論文 (2023/09/28) (2023/11/20)) は通らなかった。最近は意外にも主著論文はずっと通り続けていたので、主著で落ちたのは2年ぶり (2022/01/21) かもしれない。確かにリバッタル中にもまだ理論を改善できるようなできないようなアイデアが湧いていたのは事実なので、もう少しやるべきことはあるという気持ちもあったので、悪くない機会ではある。結局採否通知は昨日の夜寝る直前だったので、布団の中で改善のアイデアを考え続けていた。ただ、起きて半日考えてみたら結局見通しを改善するほどのようなものではなかった。論文の書き方が悪かったところがあるという反省もある。黙って修正して再投稿するしかない。
  • 移動中にマウントレーニアを久しぶりに口にする。昔は好きだったと思うのだが、飲んでみたらあまり好きじゃない。いつからか砂糖入りの飲み物が飲めなくなった。
  • 橋本駅に降り立った。たぶん2015年の春に内見の手伝いで来たとき以来じゃないだろうか。別に一度しか来たことのない駅だし思い入れなんて全く無いはずだったのだけれど、横浜線の改札を抜けた瞬間、9年前と変わらない屋根の低めな駅舎の通路の光景が広がっていて、当時の記憶がにわかにフラッシュバックした。9年。あのときは今の自分を到底想像することはできなかった。良い意味でも悪い意味でも。
  • わざわざ領域会議に前日入りして研究打ち合わせをしにきた甲斐があった。数学者でありながらも自分の課題意識をよく聞いてくれて、自分のお世辞にもうまいと言えない数学的記述を適切に改善する案を一緒に考えてくれている。勉強になることこの上ない。自分もこういう be nice to others を目指したいと思わされる。

2024/01/16 (Tue.)

  • 今月は今のところ研究によく集中できている。出張がなく、セミナーの類も少ない。作業時間が十分にあって体調も悪くない。結局それが大事。
  • と言いつつ明日から年始一発目の出張。共同研究者との打ち合わせ、年が明けてからやや止まっているのでどうなるだろうか。

2024/01/15 (Mon.)

  • 大規模深層学習の実装が億劫になっている大きな理由の一つに、行列積の型を合わせながら適切に転置を取ったりする作業が面倒すぎるという点があった。バッチサイズ、埋め込み次元などが絡まってくると、3次とか4次テンソル同士の演算を考えなければならない。ところが、重い腰を上げて einsum を使ってみたら、小一時間くらいで使い方も理解できて思っていたような行列積が適切に実装できるようになった。これ本当に便利だ。
  • Transformer のコードを触りながら理論を考え直していると、token embedding をモデル化する意義はかなり大きいのではないかという気持ちになってくる。これには二つ理由があって、一つは単純にデータ生成分布をランダムウォークだと思ってしまうと単純すぎるという消極的な理由で、もう一つは token embedding も(ランダムガウス初期値から!)学習可能なのだから実は従来よりもデータ分布のモデル化がしやすくなっているのではないかという積極的な理由。特に後者はアツい。これだけに焦点を当てて、埋め込み空間の時間発展を記述することに価値があるんじゃないかと思えるくらい。

2024/01/14 (Sun.)

  • 谷口先生編著の新刊を読んでいた。編著本としては各章が相互に適度にクロスリファレンスされていて、自分が編著本に携わっている真っ最中の経験からいえばこれは頑張っていると思う。一つ一つの章の内容の妥当性、明晰さは著者に依るところが当然大きいし、正直なところやはり谷口先生本人が喋っていることがその道の人間から見てどれだけ意味が大きいのか、オカルティックなのか、自分には判断がつかない。ただ、本全体を通して段々とサイバネティクスやオートポイエーシスに対する理解が進んできたことは事実だと思う。9章の山中さんの筆致から個人的には得るものが多くて、自身の専門である英語教育の文脈におとしこみつつ、オートポイエーシスを「主体性の回復」と呼ばせしめる論調はわかりやすい。奇しくもサイバネティクスを真正面から語っている論者からではなく、山中さんの論考から、オートポイエーシスと自分が本の原稿で議論していた内容との連関を見出すことができた。
  • サイバネティクス、機械と主体性みたいなトピックに実は自分は興味があるんだと本の原稿を書きながら整理されてきたけれども、いかんせん畑が違いすぎるがゆえに自分の論考をいかにしてこれまでの思潮の中に位置づければ良いのか検討がついておらず悩んでいたのだが、この本はその手がかりを与えてくれたように思う。たぶんオートポイエーシス論はもう少し掘ったほうが良いのだろうと思う。結局ユクスキュル、ウィーナー、マトゥラーナとヴァレラなのだ。
  • 冬の寒空の下、四条周辺で空いているカフェを探して彷徨っていた。知ってはいるのだけど、この辺は本当にカフェは空いていないのだ。最終的に久しぶりの小川コーヒーに来て30分ほど待っていたが、着席して口にしたグアテマラは美味しい。妥協せずに待った甲斐はあった。

2024/01/13 (Sat.)

  • 正月から働き続きっぱなしだったので、今日は少し休む。
  • Tsybakov margin condition を満たす・満たさない例を考えていると、意外にも Tsybakov 条件を「強く」満たさない例を作るのが容易ではないことがわかってきている。例えば最も簡単な等分散ガウス2つを並べた二値分類問題を考えると、これは尤度関数がシグモイドになって、Tsybakov 条件を α = 1 で満たすことがわかる(なぜなら尤度関数 = シグモイドは原点周りでほぼ線形だから)。じゃあもう少し裾が重くなると良いのかと言われると、Laplace 分布を2つ並べても状況は変わらなくて、尤度関数は依然ほぼシグモイドになってしまう。これは指数型分布の肩の係数をいくらいじってもダメで、その限りでは尤度関数がほぼシグモイドで α = 1 よりも弱い分布にならない。

2024/01/12 (Fri.)

  • 正月頃にひょんなことから Simon Du とメッセージのやり取りが始まって、今度京都に来ることになった。この二年、Sanjeev Arora、Tengyu Ma、Jason Lee、Simon Du といったスーパースターたちに(偶然にも自分が京都にいて海外から見えているほぼ唯一の機械学習理論を研究している人物という理由だけで)個人的にコミュニケーションする機会に恵まれているのは幸甚の至りではある。京都にいなかったら多分お鉢は国内の別のもっと著名な研究者に回っていただろうと思う。
  • ただ、いざ Simon Du のトークを企画するとなると、京都界隈で一体誰を呼べばいいのか考えあぐねてしまう。Arora のときはかなり大々的に宣伝して、それこそ東京からも相当人を引っ張ってきたので盛り上がりに足るイベントになったが、京都界隈だけでは人が不足しすぎている。思い返せば、大学院の頃は留学生がたくさんいたのもあって、海外研究者の訪問トーク時には学生だけでもそれなりの人数が集まっていたと思うが、いまの周囲では留学生も少ないし就活に追われている学生が多く、なかなか興味を持ってもらうのは一筋縄ではいかない。Simon Du がわざわざ来るなんて普通は考えられないほど貴重な機会なので、本来なら大学にいるメリットの一貫として享受しても良いものだと思うが、そういうムードを作るのは仮にも教員の端くれである僕の役目なのだろう。

2024/01/11 (Thu.)

  • ついに transformer のコードを動かす日がやってきた。とりあえず fairseq を弄りながら内部のパラメータを取り出したりできないか試行錯誤している。しかし自分がコードを真面目に書かないこの5年の間に深層学習のコードベースは随分と充実したものだなと思う。自分のような素人でも少し出来合いのモデルを引っ張ってくれば介入したりできる。

2024/01/10 (Wed.)

  • Offline fast rate と online-to-batch conversion のレート比較を通じて、マージン条件や online learnability の条件間の比較、強弱について考えていた。Online learning は結局本腰を入れて勉強してこなかったので未だに理解がふわふわしているのだが、full information 設定のせいなのか、暗黙的に mistake bound model を考えていることが多いような気がした。論文中では adversarial setting と書かれているけれども、よくよく読むと*adversarial ではあるものの*realizability の仮定が暗黙のうちに入っていたりとか。いや、きちんと書かれていないので素人の自分には 100% の確信を持って断言はできないのだけれども、どうもそのように読める。みんなどうやってこのあたりの評価指標の正当化をしているのか。論文ではほとんど何も述べられていないので、個人個人に聞いてみたくある。

2024/01/09 (Tue.)

  • 年始からちょうど1週間、ざっと原稿を6ページほど書いた。書いてみると思いの外に論文の体をなしてくるのはいつものこと。コンセプトの大枠はできつつあるので、あとは細かい実験を詰める段階。まだ何も実験をしていないのでここが正念場ではある。
  • 3連休は買い物に出かけたりしたものの、それ以外の多くの時間は原稿書きに使った。けれどまあまあ集中できていたように思う。休日に作業しすぎるのは本当は良くないが、来月アルゼンチンに行くことを決めてしまったので、先に仕事しておく必要がある。

2024/01/07 (Sun.)

  • 3つ研究を同時に進めると流石に忙しい。論文1の共著者から来た質問の答えを考えている間に別の論文の TODO が溜まる。ただ、共同研究者がいることの良い点は、自分ひとりだと湧いてこなかったような疑問を投げつけられること。自分の視野が広がるし、言うても自分と興味が近い人たちとやっているから問題の背景に対する理解が深まる。非常に目まぐるしいけれども同時にエキサイティングではある。

2024/01/06 (Sat.)

  • 誕生日なのと初詣とに託けて北野天満宮まで散歩した。去年の元旦に北野天満宮に初詣したぶり。行きすがらに七本松仁和寺街道のあたりに良いケーキ屋を見つけたので幸先が良い。
  • それ以外の時間は割りと原稿を書いていた。やる気のあるときにやるのが良い。

2024/01/05 (Fri.)

  • 新年初出勤。年末はオフィスの机に座っていても作業する気が全く起きなくて這いつくばっているだけだったのに比べて、今は普段通りに作業できるので、休みが必要なときは潔く休むべきだろう。それにしても結局検査をしなかったので本当にコロナなのかわからない。周りではインフルエンザの人もちらほら見受けられる。

2024/01/04 (Thu.)

  • 自分の中では今日が正月休みの最終日。今日も休みを堪能しつつ、少しずつ原稿を整理していく。ページが埋まっていくと気持ちの上で落ち着くだけでなく、心なしか思考が整理されていく気がする。いつも億劫で紙のノートの上で計算を済ませてなかなか LaTeX に起こさないのだけれども、たぶん面倒くさがらずにちゃんと日頃からやった方が良いんだと思う。

2024/01/03 (Wed.)

  • これだけの規模の震災と航空機事故があっていまだに2桁台の被害者数で納まっているのは、素人目に見ても驚異的なことのように見える。関係者各位の努力の賜物だろうな。過去の災害の教訓を死物狂いで活かそうとしてきた先人の意思を思うと言葉にならない気持ちになる。自分にできることは寄付をすることくらいなので、少しだけだが寄付をしておいた。
  • 1ヶ月ぶりのジムに行った。1ヶ月あくとやはり筋力が落ちている。そういえば今年の目標をちゃんと考えていなかったが、ベンチプレス60kgくらいなら目標として悪くなさそうだ。他には、普段着ているコートが10年ものになってきたのが流石に気になるので、今年なんとか新調したい。
  • あと一つ、研究方面では、最先端に素早くキャッチアップすることを心がけてみたい。自分の研究は、contrastive learning のときは3年遅れくらい、いまやっている attention の研究も LLM の流行からすると1年半遅れくらいになってしまっている。しっかりとアンテナを張って馬力を出して半年くらいで時宜を得た仕事を一本してみるという経験を積んでみたいものだ。

2024/01/02 (Tue.)

  • 無事に家に帰ってきて、朝から掃除に精を出して、新しい原稿を書き始めたりした。悪くないイントロが書けた。イントロを書くのは最近の研究の潮流を自分で整理しながら再定義する作業なので自分のためになるし、何よりまだ自分がやり終えていないアイデアの検証を放置して大言壮語を連ねるのは楽でなんだかすごいことを成し遂げたような気分になる。これからきちんと仕上げないといけない気持ちになるという意味では、ハッタリ療法みたいなものか。
  • これから少しカフェと買い物に出かけよう。年始のゆったりした時間で気ままに作業するのはプレッシャーがなくて良い。

2024/01/01 (Mon.)

  • 新年一日目、朝なんとなく早く目が覚めて布団の中でじっとしているうちに、自分が昔やっていた similarity learning と attention の関係に関してなにか研究ができるような気がしてきた。何かを研究しようとして頑張って考え抜くのではなく、自然と天啓のように降りてくるタイプのアイデアがあると嬉しい気持ちになる。自分も職業研究者をやってていいのかなという気持ちになる。
  • 京都に帰る新幹線に乗ろうとしたら突然緊急地震速報が来て驚いた。速報で流れている画面で次々と建物が土埃を上げながら倒壊していく。津波の画面を見ずに家を出たのでわからないが、北陸はどうなっているのだろうか。12年前のあの日は全く現実味のない映像を目の当たりにしてショックを受けることすらできなかった。とにかく被害が少ないことを祈ることしかできない。