到達目標
強化学習の原理を理解し、学習アルゴリズムを作成できることを到達目標とする。
ルーブリック
| 理想的な到達レベルの目安 | 標準的な到達レベルの目安 | 未到達レベルの目安 |
評価項目1 | | | |
評価項目2 | | | |
評価項目3 | | | |
学科の到達目標項目との関係
教育方法等
概要:
この科目では、計算機の知能化を目指す専門的な構成技術の一つとして強化学習について授業を行う。強化学習は、状態、行動と報酬という簡潔なアルゴリズムにより構成されながら、環境との相互作用により、未知な環境においても最適な行動を学習できる特徴から、自律エージェントの意思決定システムとして適している。この授業では、強化学習の基本的なアルゴリズムの理解と応用できることを期待する。
授業の進め方・方法:
本授業は確率統計とコンピュータプログラミングを基礎知識とする。理解を深めるため、合計約15回のプログラミング課題および演習問題を与えられる。試験1回による評価を7割、レポートによる評価を3割として合否判定点を算出し、60点合否判定を行う。合否判定点で不合格となった場合は、試験前日までに全レポートを提出していたことを受験条件とした上で、合格点60点で再試験を行う。レポート評価は個別のレポート課題にて指示された項目を全て満たしていれば100点とするが、不十分な項目がある場合1項目につき-10点とする。1)課題は必ず理解し、日限までに提出すること。2)勉強をしても不明な点は教員室まで聞きに来ること。
注意点:
授業の属性・履修上の区分
授業計画
|
|
週 |
授業内容 |
週ごとの到達目標 |
前期 |
1stQ |
1週 |
ガイダンス、シラバス、強化学習の基礎と構成要素 |
強化学習の基礎と構成要素を理解できる。
|
2週 |
目標、報酬、収益、価値関数の定義 |
目標、報酬、収益、価値関数の定義を理解できる。
|
3週 |
目標、報酬、収益、価値関数の定義 |
目標、報酬、収益、価値関数の定義を理解できる。
|
4週 |
マルコフ決定過程 |
マルコフ決定過程を理解できる。
|
5週 |
マルコフ決定過程 |
マルコフ決定過程を理解できる。
|
6週 |
強化学習の実装 |
強化学習アルゴリズムをC言語で実装できる。
|
7週 |
強化学習の実装 |
強化学習アルゴリズムをC言語で実装できる。
|
8週 |
強化学習の実装 |
強化学習アルゴリズムをC言語で実装できる。
|
2ndQ |
9週 |
モンテカルロ法 |
モンテカルロ法を理解し、アルゴリズムを書ける。
|
10週 |
モンテカルロ法 |
モンテカルロ法を理解し、アルゴリズムを書ける。
|
11週 |
TD法 |
TD法を理解し、アルゴリズムを書ける。
|
12週 |
TD法 |
TD法を理解し、アルゴリズムを書ける。
|
13週 |
Q学習アルゴリズム |
Q学習を理解し、アルゴリズムを書ける。
|
14週 |
Q学習アルゴリズム |
Q学習を理解し、アルゴリズムを書ける。
|
15週 |
Q学習アルゴリズム |
Q学習を理解し、アルゴリズムを書ける。
|
16週 |
後期期末試験:実施する |
|
モデルコアカリキュラムの学習内容と到達目標
分類 | 分野 | 学習内容 | 学習内容の到達目標 | 到達レベル | 授業週 |
評価割合
| 試験 | 発表 | 相互評価 | 態度 | ポートフォリオ | その他 | 合計 |
総合評価割合 | 70 | 0 | 0 | 0 | 30 | 0 | 100 |
基礎的能力 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
専門的能力 | 70 | 0 | 0 | 0 | 30 | 0 | 100 |
分野横断的能力 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |