top of page

[奨励賞] 田中 祐太朗 / Dana-Farber Cancer Institute

Yutaro Tanaka

[分野:コンピュータ・情報科学]


論文リンク


論文タイトル

OnSIDES database: Extracting adverse drug events from drug labels using natural language processing models


掲載雑誌名

Med, Cell Press


論文内容

背景:医薬品の有害事象(Adverse Drug Events:ADEs)は、米国で死亡原因の第4位を占め、医療費増大により毎年数十億ドルの損失をもたらしている。しかし、機械可読なADEデータベースは限られており、医薬品安全性を体系的に研究する基盤が不足している。近年、自然言語処理(NLP)の発展により、非構造化テキストから高精度な情報抽出が可能になっている。

方法:本研究では、FDAの処方医薬品添付文書からADE情報を抽出するため、PubMedBERT(生命医科学文献で事前学習されたNLPモデル)を追加学習した。このモデルを全添付文書に適用し、大規模かつ機械可読なADEデータベース「OnSIDES」を構築した。さらに、小児特有のADE「OnSIDES-PED」および日英欧の添付文書に展開した「OnSIDES-INTL」等も構築した。応用例として、ADE類似性による新規薬効・有害事象予測や薬効分類別の副作用解析等を行った。

結果:モデルはADE抽出においてAUROC 0.92の精度を達成した。OnSIDESは約4.7万件の添付文書から3千成分以上に対応する約360万件の「医薬品—有害事象」組み合わせを収録し、2025年5月時点で547万件以上に拡充されている。

結論:OnSIDESは、医薬品副作用において世界最大級のデータベースであり、安全性監視や創薬、薬剤評価等多様な応用が期待される。


受賞者のコメント

この度は奨励賞という栄えある賞をいただき、誠に光栄に存じます。

本受賞を糧に、研究者としてさらなる高みを目指して精進し、微力ながら生命医科学の発展に寄与できるよう努めてまいります。

未熟な一学部生にすぎなかった私を本プロジェクトに抜擢し、辛抱強くご指導いただいた指導教授の先生には、感謝の念に堪えません。あわせて、本賞の審査員の先生方および運営関係者の皆様に、厚く御礼申し上げます。


審査員コメント


中根 啓太先生

これまで有害薬物事象(Adverse Drug Events, ADE)機械可読データベースは少なく薬剤安全性を大規模に研究するのが困難でしたが、この研究ではPubMedBERTモデルを用いることで、処方薬とADEのペアをまとめた OnSIDES データベースを生成しました。この研究において、医薬品ラベルの「Adverse Reactions(副作用)」からADEを抽出する際に、高い精度・再現度で行うことができました(F1=0.9、AUROC=0.92、AUPR=0.95)。 OnSIDESは47,211のラベルから抽出された3,233種類の薬物成分―ADEペアなど3,600,000以上の薬物―ADEペアを含んでいます。このデータベースを活用して、新しい薬剤標的や適応症の予測、薬剤クラスごとのADEの濃縮解析、化合物構造からの新規ADEの予測ができる可能性があり、研究・臨床の観点から有用なツールになると期待されます。


牛島 健太郎先生

本研究は、最先端の自然言語処理技術を活用し、360万件を超える包括的データベースを構築したものです。従来のデータベースを大幅に上回る性能を実現し、四半期ごとの自動更新により持続可能な研究資源となっています。

小児特異的な有害作用や国際的なデータを統合された点は特に価値が高く、多様な患者集団における薬剤安全性評価を可能にしています。薬物標的予測や適応症予測への応用実証も示されており、創薬研究における新たな展開が期待されます。


園下 将大先生

本論文は、有害薬物事象の低減を目指し、医薬品の安全性を取得するためのmachine-readableな有害薬物事象データベースOnSIDESを構築したものです。PubMedBERTモデルの改良や複数の大規模データベースの活用等、自然言語処理を活用した手腕は高く評価されます。新規薬剤標的および適応症の予測や、化合物構造に基づく有害薬物事象の予測に資するリソースとして広く活用される可能性を秘めており、治療戦略の策定の効率化につながる大きな意義を有しています。


兼重 篤謹先生

自然言語処理を用いて医薬品添付文書から有害事象を高精度に抽出したデータベース OnSIDES を構築しており、現在、本データベースのように最新の情報を組み込んだデータベースはなく、有用であり、今後の更なる改良により、臨床で使えるようになることが期待される。


1)研究者を目指したきっかけ

生命医学の研究者である父への憧れを幼少期より原点としつつ、中高生時代には数学やデータサイエンスへの関心も深まり、これらを併せ持ったキャリアを歩みたいと考えるようになりました。

広範な問いに対して自らの興味の赴くままに探究でき、かつ長期的には社会へ貢献できる可能性を秘めた「科学研究」の世界に次第に魅力を感じるようになり、現在に至ります。


2)現在の専門分野に進んだ理由

大学では応用数学を専攻し、数学を軸として情報科学から生物学、哲学まで、領域横断的に学ぶ機会に恵まれました。その中で、自身の強みであるデータ解析や機械学習などの情報科学技術を活かし、医学・生命科学の発展に寄与できる道を模索し続けました。


最終的に学部課程の間所属した研究室には、当初から明確なこだわりがあったわけではありません。しかし、試行錯誤を繰り返しながらテーマを深めていく過程で、尊敬する大学院生の先輩方や研究員の方々の熱意に触れ、いつの間にかこの研究の持つ奥深さに引き込まれていきました。


現在は毛色の異なる、より臨床に近い小児がんの研究室に所属していますが、「情報科学技術を応用し、臨床生命科学の新たな発見を後押しする」という研究テーマは一貫して持ち続けています。


3)この研究の将来性

あらゆる医薬品は、常に副作用のリスクと隣り合わせです。そのため医師は、副作用のリスクと治療効果(ベネフィット)を常に天秤にかけながら処方を行っています。しかし、副作用を網羅的に研究する試みはこれまで多くありませんでした。これは、解析の基盤となるデータが十分に集積されていなかったことに起因しています。


本研究の成果は、医薬品副作用に関する世界最大級のデータベースを構築したことにあります。したがって、特定の医薬品に関する新たな知見を提示するものではありません。しかし、このデータベースの活用により、特定の副作用の検索が容易になるだけでなく、膨大なデータを学習させた機械学習モデルによる未知の副作用の予測や新たな創薬への応用が可能になると期待しています。

コメント


bottom of page