[特別賞]田久保勇志/ジョージア工科大学

cheironinitiative
2022年4月21日
読了時間: 6分

更新日：2022年4月25日

Yuji Takubo, M.D., Ph.D.

[分野11：工学]

Hierarchical Reinforcement Learning Framework for Stochastic Spaceflight Campaign Design

(階層強化学習による不確定性を含む宇宙ミッション設計)

Journal of Spacecraft and Rockets, December 2021

概要

21世紀の月・火星を目指す(有人)宇宙ミッションでは、アポロ計画のような旧来の宇宙ミッションと比して複雑さが格段に高まっている。この背景には(1) 宇宙で利用できる軌道候補や存在しうる建造物(月面基地、月ゲートウェイ etc.)が増加していること、(2) 月・火星・小惑星からの資源採掘(In-situ resource utilization, ISRU)の可能性に伴い、全ての物資を地球から持っていく必要性がないこと、そして (3)複数のミッションを連携させた長期的(数年単位)な運用(Campaignという)が期待されていること、等が挙げられる。

これらを踏まえた宇宙ミッション設計は、(A) 宇宙機の設計、 (B) 地球から運ぶインフラの量、(C) 宇宙機・インフラの具体的な配送計画、を設計変数とする大規模最適化問題となる。上の３つの設計変数はお互いを変数に持つ関数になる(循環参照)ため、同時に最適化を行うことでより効率的な宇宙ミッションのデザインが可能になる。先行研究ではこれを混合整数線形計画(Mixed-Integer Linear Programming, MILP)にモデル化しているが、長期的なCampaignや、不確定性を考慮すると最先端のMILPソルバでも計算時間が発散してしまう課題があった。

本論文ではこの問題を効率的に解くための、階層強化学習に基づく最適化手法を提案した。強化学習は意思決定者(Agent)の行動と、それに伴う環境(Environment)の変化をモデル化することでAgentの利益が最大化されるような学習を行う機械学習の手法である。階層強化学習では複数のAgentを階層的に配置することにより、より複雑な最適化問題を解けるようになっている。設計変数(A)と(B)は、別々の強化学習のAgentから提案され、(A)(B)をパラメータとして、ミッション毎の(C)の最適化(縮小されたMILP)が行われる(＝Environment)。これをCampaignが終了するまで繰り返し、各ミッションデザインを評価していくことでAgentが学習を進めていく。

本研究は、宇宙ミッション設計の最適化問題特有の構造(MILP)に着目し、成長著しい機械学習の分野と組み合わせることで、従来の手法では解くことのできなかった、不確定性を考慮した長期的な有人宇宙ミッション設計を解くことに成功した。複雑な宇宙ミッションにおいては、状況に応じてAdaptiveにミッションデザインを変えていくことが必要不可欠である。機械学習を用いたより自律的でロバストな宇宙ミッション設計への第一歩となることを期待している。

受賞者のコメント

受賞の程、心より嬉しく思っています。学部のうちからこのような賞を頂けて、大変光栄に思います。今後も粛々と研究生活に精を出し、分野に貢献できる人材になりたいです。

審査員のコメント

上田淳先生:

筆者は学部学生であり，学部段階でフルペーパーに相当する研究成果を上げることは滅多になく，まずはその努力と将来性を高く評価したい．本論文では機械学習の手法を宇宙ミッションの最適化に応用している．論文では機械学習の手法とその実装が詳しく記述されており，筆者が問題及び提案手法についてしっかり理解をしていることが分かる．一方で，工学論文として本稿を見た場合，旧来の数値最適化手法の置き換えとして機械学習を導入するアイデアは珍しいことでなく，実装面で数多くのチャレンジがあったであろうことを考慮しても，それのみで新規性を主張するには弱いと考える．宇宙ミッションの計画という特殊な問題であり実証実験が容易にできないことも残念であった．

庄司観先生:

まず、学部生で学術論文を執筆していることを高く評価したい。また、本論文によって階層強化学習が長期宇宙ミッション設計に有効な手法であることが示唆されており、今後、実用化に向けたいくつかの問題点を解決し、実際の現場で使用されることを期待している。

竹井聡先生:

This work proposes a new optimization framework for space exploration campaigns including the logistics management of the designing of hardware and the planning of infrastructure deployment and transport. The authors suggest a multi-tiered approach where different optimization schemes are applied to campaign- and mission-level events. This work nicely lays out the existing optimization architectures and their shortcomings, and quantitatively discusses the advantages of the proposed method. I feel this work has value outside of the aerospace industry and may be applied to the high-tech industry and even politics. The work is quite comprehensive and nicely presented.

エピソード

共著の指導教官との出会いは大きなセレンディピティでした。学部への出願時、彼はGeorgia Techとは別の名門校で教鞭を取っており、日本人の先輩かつ研究分野が非常に面白いということで実は出願前に連絡を取らせてもらったりもしていました。その大学へも出願し合格を貰っていたのですが、結局Georgia Techへコミットする決意したのが春先のことでした。ところが入学前の夏に、指導教官がGeorgia Techに移籍してくるという情報を聞き、入学直後に2度目のコンタクトを取り、結局1年生の1学期から彼との研究を始める運びとなりました。彼との出会いがなければ、ここまで早い内から研究的な生活を行うことはできなかったと思います。この論文はそこから(ジャーナル掲載まで)約2年を費やして完成した最初の論文です。

１）研究者を目指したきっかけ

(大学院にも入学していないので非常に恐縮ですが…) 航空宇宙分野は国籍や永住権の規制がどの国も厳しく、特にアメリカの宇宙産業で外国人が働くためには、(教員になるにせよエンジニアとして就職するにせよ)基本的に博士を持っていないと就活戦線で勝ち上がれないのが現状です。という訳で、自分にとっては学部留学の時点で米国大学院進学はセットで、「どうせ博士課程に進学するのなら、海外大学の優れた研究リソースを学部のうちから始めない手はないな」という気持ちで研究を始めました。

２）現在の専門分野に進んだ理由

宇宙を最初に志したのは、記憶にないほど昔の事で(幼稚園の卒園アルバムに『将来の夢は宇宙飛行士』と書いてあるのを数年前に発掘しましたが、無論覚えている訳もなく…)、そこからゆっくりと工学分野へと興味が絞られていきました。スペースシャトルに対する憧れが非常に強く、機能美の極とも言える航空宇宙機のモノづくりの魅力に引き込まれていったのかなと思います。

３）この研究の将来性

もともと宇宙ミッションは「月へ行って、帰ってくる」という様な非常にシンプルなオペレーションを行なっていたため、「宇宙機のハンドルをどう動かすか(軌道設計)」という思想がミッション設計の頂点に座していました。しかし、今後数十年で我々の行き先は国際宇宙ステーション、月軌道のゲートウェイ、月面、火星、小惑星と飛躍的に増えていきます。この中で、「複雑化する宇宙のネットワークにおける、物流や宇宙での資源採掘、都市計画をもっとちゃんと考えませんか？」という哲学をもとに出発した研究分野を宇宙ロジスティクスと呼び、本論文はこの思想の基に成り立っています。不確実性のある宇宙環境で、持続可能な社会を実現するためのアーキテクチャをこの論文ではデザインしていて、この様な宇宙開発の手法の進化で、将来地球にも還元できることがあればと思いながら研究を続けています。

[特別賞]田久保勇志/ジョージア工科大学

Yuji Takubo, M.D., Ph.D.

[分野11：工学]

Hierarchical Reinforcement Learning Framework for Stochastic Spaceflight Campaign Design

(階層強化学習による不確定性を含む宇宙ミッション設計)

Journal of Spacecraft and Rockets, December 2021

概要

受賞者のコメント

受賞の程、心より嬉しく思っています。学部のうちからこのような賞を頂けて、大変光栄に思います。今後も粛々と研究生活に精を出し、分野に貢献できる人材になりたいです。

審査員のコメント

上田淳先生:

庄司観先生:

竹井聡先生:

エピソード

１）研究者を目指したきっかけ

２）現在の専門分野に進んだ理由

３）この研究の将来性

最新記事

Comentarios

Yuji Takubo, M.D., Ph.D.

[分野11：工学]

Hierarchical Reinforcement Learning Framework for Stochastic Spaceflight Campaign Design

(階層強化学習による不確定性を含む宇宙ミッション設計)

Journal of Spacecraft and Rockets, December 2021

概要

受賞者のコメント

受賞の程、心より嬉しく思っています。学部のうちからこのような賞を頂けて、大変光栄に思います。今後も粛々と研究生活に精を出し、分野に貢献できる人材になりたいです。

審査員のコメント

上田 淳 先生:

庄司観 先生:

竹井聡 先生:

エピソード

１）研究者を目指したきっかけ

２）現在の専門分野に進んだ理由

３）この研究の将来性

Comentarios

上田淳先生:

庄司観先生:

竹井聡先生: