Z240748:Vision Transformerの仕組み | 技術セミナーの開催・書籍出版　サイエンス＆テクノロジー＜Ｓ＆Ｔ＞

研究・技術・事業開発のためのセミナー/書籍

セミナーセミナー番号:Z240748(Vision Transformer)

エレクトロニクス

ホーム
/ セミナー

セミナー印刷

Vision Transformerの仕組み

～物体検出、自己教師あり学習、BEV Perception等のコンピュータビジョン最前線～

受講可能な形式：【Live配信】のみ

このセミナーの受付は終了致しました。

日時	2024年7月18日（木） 10:00～16:00
会場	オンライン配信	会場地図
講師	藤吉弘亘（ふじよしひろのぶ）　氏　中部大学　工学部　情報科学科　/　大学院工学研究科情報工学専攻　教授（博士（工学））＜略歴＞　　1997年　中部大学大学院博士後期課程了　1997～2000年　米国カーネギーメロン大学ロボット工学研究所　Postdoctoral Fellow 　2000年　中部大学　講師　2004年　中部大学　准教授　2005～2006年　米国カーネギーメロン大学　ロボット工学研究所　客員研究員　2010年　中部大学　教授　2014年　名古屋大学　客員教授　　現在に至る＜学会＞　　電子情報通信学会、情報処理学会、ロボット学会、IEEE ＜主な受賞＞　　ロボカップ研究賞（2005年）　情報処理学会論文誌CVIM優秀論文賞（2009年）　情報処理学会山下記念研究賞（2009年）　画像センシングシンポジウム優秀学術賞（2010, 2013, 2014年）　電子情報通信学会情報・システムソサイエティ論文賞（2013年）＜研究＞　　計算機視覚、動画像処理、パターン認識・理解の研究に従事
受講料(税込) 各種割引特典	53,900円 ( E-Mail案内登録価格 53,900円 ) S&T会員登録とE-Mail案内登録特典について定価：本体49,000円＋税4,900円 E-Mail案内登録価格：本体49,000円＋税4,900円
受講料(税込) 各種割引特典	お１人様受講の場合　53,900円（49,000円＋税4,900円） 1口でお申込の場合　 66,000円（60,000円＋税6,000円／1口（3名まで受講可能）） ※S&T E-Mail案内登録価格 S&T複数同時申込み割引対象外 ※開催7日前に請求書を発送します。 ※開催日から9日前以降のキャンセルは受講料全額を申受けます。但し、セミナー終了後テキストを郵送します。　一旦、納入された受講料はご返金できません。当日ご都合のつかない場合は代理の方がご出席下さい。 ※サイエンス＆テクノロジーが設定しているアカデミー価格・キャンセル規定対象外のセミナーです。
主催	(株)トリケップス
オンライン配信	★本セミナーは、Zoomウェビナーを使用して行います。　受講者の通信回線にセキュリティなどの制限がある場合は参加できないことがあるため、　事前に当日ご利用予定の通信回線にて、　Zoom公式ページ（https://zoom.us）にアクセスできることをご確認していただくようお願いします。　または、Zoomのテストミーティング（http://zoom.us/test）にアクセスできることをご確認ください。　Zoomをダウンロードしている方はマイクとスピーカーのテストも可能です。　※こちらは接続テスト用のミーティングです。実際のセミナー参加者画面とは異なります。 ★インターネット経由でのライブ中継ため、回線状態などにより、画像や音声が乱れる場合があります。　講義の中断、さらには、再接続後の再開もありますが、予めご了承ください。 ★受講中の録音・撮影等は固くお断りいたします。 ※開催5日前までに主催会社(株)トリケップスから参加者に当日必要なURLとパスワードをメールにてお知らせします。
備考	★受講申込者が必要定員に満たないセミナーは中止・延期させていただく場合があります。　その場合は開催1週間前にご連絡します。 ★1口でお申込の場合　代表受講者を定めて下さい。請求書発送等の連絡は代表受講者へ行います。　申込時に参加者全員の氏名・所属が明記されていない場合、ご参加できない場合があります。

このセミナーは終了しました。

このセミナーへの問合せ（再開催・社内研修）

セミナー趣旨

　自己注意機構を活用したニューラルネットワークであるTransformerは、機械翻訳タスクでSoTAを達成し実用化を加速させている。このTransformerをコンピュータビジョンタスクに適用したモデルがVision Transformerであり、2019年以降、急速に応用と改良が加えられている。Vision Transformerは、CNNとは異なる新たな特徴表現獲得が可能となり、テクスチャノイズに対してロバストな認識が可能となっている。
　本セミナーではVision Transformerについて従来の手法と対比しながらその仕組みと特長について解説し、コンピュータビジョン応用として物体検出、セマンティックセグメンテーション、自己教師あり学習について紹介する。また、自動運転技術に欠かせないTransformerベースのBEV Perceptionの最前線についても紹介する。

セミナー講演内容

　1　再帰型ニューラルネットワークの仕組み
　　1.1　再帰型ニューラルネットワーク（RNN）
　　1.2　LSTM
　　1.3　Seq2seq、Attention Seq2seq

　2　Transformerの仕組み
　　2.1　Transformer
　　2.2　大規模言語モデル

　3　Vision Transformerの仕組み
　　3.1　特徴表現獲得の変遷
　　3.2　VIsion Transformer（ViT)
　　3.3　ViTによる画像認識
　　3.4　ViTによる特徴表現獲得
　　3.5　ViTベースの物体検出、セマンティックセグメンテーション
　　3.6　ViTの自己教師あり学習

　4　ViTの最新動向
　　4.1　ViTの派生手法（Swin Transformer、ConvNeXtなど）
　　4.2　ViTの派生手法の傾向

　5　TransformerによるBEV Perception
　　5.1　Bird’s-Eye-View（BEV）空間
　　5.2　BEVベースの3D物体検出：BEVFormer, BeVerse
　　5.3　BEVベースの自動運転：UniAD

このセミナーは終了しました。

このセミナーへの問合せ（再開催・社内研修）

エレクトロニクス

化学・材料

エネルギー・環境・機械

ビジネススキル・新規事業

医薬品

医療機器

化粧品

Vision Transformerの仕組み

セミナー趣旨

セミナー講演内容

お知らせ

サイトリニューアルをしました。

クールビスのお知らせ

夏季休暇のお知らせ

サイトマップ

サイエンス&テクノロジー