【WT3】教師なし学習の基礎と実践:次元削減とクラスタリング
11.2/13:55〜15:25
原田 和治
東京医科大学 助教
【企画趣旨】
近年は臨床研究においても機械学習の利活用が進んでいます。教師なし学習は機械学習の主要な分野のひとつであり、多くの変数(例:scRNA seq、血液検査、調査票データ等)の相関関係をもとに、データに内在する未知のパターンを探る分析法です。教師なし学習の活用は臨床疫学の分野ではそう多くは見られないものの、2023年の臨床疫学会のシンポジウム「臨床疫学における教師無し機械学習(クラスタリング)の使い方を徹底的に考える」で取り上げられたように、アウトカムの傾向が大きく異なるサブグループの発見など、臨床的意義の大きい結果につながることもあります。本ワークショップの目標は、教師なし学習の主要な枠組みである次元削減とクラスタリングについて、代表的な方法のイメージを掴むとともに、R言語での基本的な実行方法を習得することです。なお時間の都合上、Rでの実践の一部は講師によるデモンストレーションのみとさせて頂く場合があります。
【対象】
中級
【参加要件】
Rおよび RStudioをご自分のPCにインストール済みであること。Rの使用法は今回の内容に含まれませんので、基本的な操作は各自で習得してください。
【事前学習】
事前学習教材として短い動画を提供します。また、事前に配布するRの学習用コードやデータセットを予めご自身のPCで試したり、参考文献に目を通したりしていただくと、当日の内容が理解しやすくなります。
[参考文献]
Rで実践しながら機械学習・データ分析の手法を学べる書籍をいくつか紹介します。
James et al. (2013)は英語ですが、著者らが全文をウェブサイトで公開しています。
- James, G., Witten, D., Hastie, T. and Tibshirani, R. (2021). An Introduction to Statistical Learning with applications in R 2nd ed. Springer US.
- 林賢一 (著),下平英寿(編).(2020).Rで学ぶ統計的データ解析.講談社.
- 金森敬文 (著).(2017).Rによる機械学習入門.オーム社.
Rの基本操作については、以下のwebsiteが参考になります。
【当日行うこと】
- 教師なし学習の概要
- 次元削減の概要とR言語による実践
- クラスタリングの概要とR言語による実践
- 補足的な話題
【略歴】
2016年修士(薬科学)取得後、製薬業界にてデータ分析業務に従事。
2019年に退職し、総合研究大学院大学に進学。2022年に博士(統計科学)を取得。
東京医科大学医療データサイエンス分野にて、統計的因果推論や機械学習モデルの開発といった方法論研究に加え、臨床研究の統計支援を行う。
【モデレーター】
折原 隼一郎
東京医科大学医療データサイエンス分野 助教