【オンライン配信のみ】第140回 「ロボットのための強化学習/深層強化学習」
開催日 | 2022年5月10日(火)10:00~17:00 |
---|---|
開催地 | オンライン配信で実施いたします |
会場 アクセス | 配信システム:zoomを使用予定。 |
定員 | オンライン配信200名(定員になり次第締め切ります) |
参加費 (税込) | 参加費・システム手数料共に税込み価格です. 2022年度の賛助会員招待券・優待券(有効期限:2022/12/31)は2月下旬までにご担当者様へ発送いたしました。 ご利用の場合は、各種券がお手元に到着次第お申込みくださいますようお願いいたします。 |
主催 | 一般社団法人 日本ロボット学会 |
協賛 | 計測自動制御学会,産業技術連携推進会議 医療福祉技術分科会,システム制御情報学会,情報処理学会,人工知能学会,精密工学会,電気学会,電子情報通信学会,土木学会,日本感性工学会,日本機械学会,日本シミュレーション学会,日本神経回路学会,日本設計工学会,日本時計学会,日本人間工学会,日本バーチャルリアリティ学会,日本ロボット工業会,農業食料工学会,バイオメカニズム学会(以上20団体 協賛予定) |
セミナーレポート | セミナーレポート |
口 上:
強化学習は,報酬最大化という目的の下,環境の中で自律的にデータを取得しつつ方策を最適化していく能動的な機械学習アルゴリズムである.その考え方は,各データのインスタンスに対して付与されたラベルを正しく予測するモデルを最適化により獲得する教師付き学習とは一線を画する自律的なアルゴリズムであり注目を集めてきた.近年では,本来教師付き学習の一つである深層学習と強化学習を組み合わせた技術が,ゲームの世界で進展したことにより,画像を入力として直接ロボット動作方策を学習できるなど,ロボットの動作学習においても大きな進展が見られる.本セミナーでは,強化学習の基礎を振り返るとともに,強化学習をロボット分野に応用してこられた講師から,各強化学習のアルゴリズムの応用に関する勘所や応用例を紹介頂く.これらにより,今後,強化学習/深層強化学習をロボットに活用しよう考える研究者・エンジニアへのわかりやすい概観を提供する.
オーガナイザー:井尻 善久(LINE株式会社)
講演内容:
10:00-10:10 <開会挨拶・講師紹介>
10:10-11:00 第1話 強化学習の基本と概観
株式会社Preferred Networks 前田 新一
本発表では,強化学習を理解するのに必要な基礎概念と,強化学習が用いられる典型的な問題設定とその代表的なアルゴリズムについて初歩から解説を行う.強化学習アルゴリズムについては,様々なものが提案されているが,価値ベースの手法と方策ベースの手法の二つに大別し,それぞれ,どういった考え方で導出されるかについて述べる.さらに深層強化学習アルゴリズムでは,ニューラルネットワークがどのように用いられているかについて述べる.最後に,最近の応用事例や発展的な研究を紹介する.
11:00-11:10 <休憩>
11:10-12:00 第2話 ロボットにおける深層強化学習の最新研究動向
ソニーグループ株式会社 有木 由香
強化学習はロボティクスにおいてもいくつかの著しい発展を収めている一方で,実践的なロボティクスに応用するためにはタスク・環境を限定,あるいはロボット自体の自由度を制限するといった制約を設ける必要があった.これらの制約は,強化学習アルゴリズムが複雑さの問題,すなわち状態と行動に依存するメモリの複雑さ,行動数による計算の複雑さ,サンプル効率の問題に依る.一方近年,画像分野などでは強力な関数近似特性と表現学習特性をもつ深層学習が注目を浴び著しく発展している.この深層学習はこれまでの制限が必要であった強化学習の表現能力を著しく向上させ,高次元の状態・行動空間を持つ問題に適用可能な深層強化学習という新しい強化学習の分野を生み出した.近年ロボティクス分野において深層強化学習は行動計画・制御技術に広く応用されている.本発表ではロボットの行動計画・制御を中心に深層強化学習の最新の研究動向をモデルフリー,モデルベースドの観点からまとめ,モデルベースドの特に内部ダイナミクス表現に注目し整理すると共に筆者らの行動計画の研究とその関連応用を述べる.
12:00-13:00<休憩(昼食)>
13:00-13:50 第3話 動的環境下に置ける動作生成
三菱電機株式会社 太田 佳
本講演では,ロボットが動的環境下において障害物と接触しない動作を生成する手法について,次の3つの研究を中心に紹介する.1) 古典的経路生成手法と強化学習を組み合わせ,少ないデータ数で滑らかな動作を生成する方法,2) 経路生成手法の出力を教師あり学習で模倣し,動的環境下において環境の変化に反応し直ちに障害物と接触しない経路を生成し,それを追従する動作を生成する方法,3) ロボットの動力学を考慮した経路を生成し,ロボットの経路追従性を向上させる方法.
13:50-14:00 <休憩>
14:00-14:50 第4話 階層型強化学習と目的関数の多峰性
九州工業大学 長 隆之
階層型強化学習は,異なる複数の挙動を同時に学習し,それらを使い分ける方法を学習するという,強化学習の手法の一つである.階層型強化学習は,状態行動空間を分割することで問題を効率よく解くアプローチとして解釈でき,ロボットよるマニピュレーションのタスクなどへの適用がこれまでに試みられている.また階層型強化学習は,強化学習における目的関数の多峰性とも関係が深いと考えられ,理論的にも興味深いアプローチである.本講演では,階層型強化学習の概要を解説するとともに,目的関数の多峰性との関係なども紹介する.
14:50-15:00<休憩>
15:00-15:50 第5話 深層強化学習による実世界ロボット制御
奈良先端科学技術大学院大学 松原 崇充
深層強化学習は,複雑な方策を獲得するために膨大なサンプルデータを必要とするため,サンプルコスト(サンプル収集に要する時間と費用)が高い実世界のロボットシステムへの適用は容易ではない.本講演では,実世界ロボットシステムへの応用に向けて,近年研究を進めてきた,方策を滑らかに更新することでサンプル効率や学習安定性を高めた深層強化学習手法を紹介する.さらに,不定形物操作ロボット,化学プラント,FPGA実装エッジロボットなど,一連の適用事例についても紹介する.
15:50-16:00<休憩>
16:00-16:50 第6話 柔軟要素を持つロボットのモデルベース学習
オムロン サイニックエックス株式会社 濵屋 政志
柔軟要素を持つロボットは,柔軟要素が変形し対象物体になじむことで,ロボットの非常停止などの失敗が起きにくいため,部品組立など接触を多く含む作業に適している.一方で,対象のダイナミクスが複雑となるため,手動でモデルや制御戦略を設計するのは依然として困難である.そのため学習によるアプローチが望まれるが,接触を多く含む作業におけるデータ収集コストは無視できないほど大きい.本講演では,柔軟要素を持つロボットの制御戦略を,少ない試行回数で獲得できるモデルベース学習手法について,我々の研究成果を紹介する.
16:50-17:00 <閉会挨拶>
参加申込方法
必ず参加申込みおよび参加費のお支払い方法のご案内ページをご確認の上,下記よりお申し込みください.
※運用方法(オンライン配信のタイムシフト配信(見逃し配信)の実施)の変更により、第132回セミナーより申込後のキャンセルは一切不可と致します。
本セミナーオンライン参加希望の場合,下記よりお申込み,参加費支払のお手続きをお願いします.
優待券(有料)をご利用の場合もこちらからお申込みください.
申込締切:5月9日(月)18:00.受付を終了しました。お申込みありがとうございました。
オンライン配信の概要についてはオンライン配信のご案内をご参照ください.
※本セミナーは2022年度の賛助会員優待券(有効期限:2022/12/31)をご利用いただけます。2月下旬までに発送完了いたしました。お手元に到着後にお申込みくださいますようお願いいたします。
賛助会員招待券や学生の特別優待券等,無料参加券をご利用の場合は下記よりお申し込みください.
申込締切:5月9日(月)10:00.受付を終了しました。お申込みありがとうございました。
セミナー参加に関する注意事項
- 会場,講師,日時等は都合により変更になる可能性がございますのでご了承下さい.最新の情報は学会ロボット工学セミナーHPに掲載されます.
- 台風等警報発令時のセミナー開催中止判断については「災害時における中止判断」のページをご確認ください.
- 当日,参加者の理解を深めるためテキストを配布致します.2020年度より電子データで配布となり,会場参加/オンライン参加ともにメールにて事前に配信を行います.また,テキストの後日販売は行いません.
- 参加者の撮影・録音行為は禁止させて頂きます。なお、撮影・録音を含む取材をご希望の場合は必ず事前に学会事務局までお問い合わせください。