Výsledky vyhledávání - "Girshick, Ross"

Report

PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators

Autor: Zeng, Kuo-Hao, Zhang, Zichen, Ehsani, Kiana, Hendrix, Rose, Salvador, Jordi, Herrasti, Alvaro, Girshick, Ross, Kembhavi, Aniruddha, Weihs, Luca

We present PoliFormer (Policy Transformer), an RGB-only indoor navigation agent trained end-to-end with reinforcement learning at scale that generalizes to the real-world without adaptation despite being trained purely in simulation. PoliFormer uses

Externí odkaz: http://arxiv.org/abs/2406.20083

Zobrazit plný text záznamu

Report

Segment Anything

Autor: Kirillov, Alexander, Mintun, Eric, Ravi, Nikhila, Mao, Hanzi, Rolland, Chloe, Gustafson, Laura, Xiao, Tete, Whitehead, Spencer, Berg, Alexander C., Lo, Wan-Yen, Dollár, Piotr, Girshick, Ross

We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over 1 billion masks on 11M l

Externí odkaz: http://arxiv.org/abs/2304.02643

Zobrazit plný text záznamu

Report

The effectiveness of MAE pre-pretraining for billion-scale pretraining

Autor: Singh, Mannat, Duval, Quentin, Alwala, Kalyan Vasudev, Fan, Haoqi, Aggarwal, Vaibhav, Adcock, Aaron, Joulin, Armand, Dollár, Piotr, Feichtenhofer, Christoph, Girshick, Ross, Girdhar, Rohit, Misra, Ishan

This paper revisits the standard pretrain-then-finetune paradigm used in computer vision for visual recognition tasks. Typically, state-of-the-art foundation models are pretrained using large scale (weakly) supervised datasets with billions of images

Externí odkaz: http://arxiv.org/abs/2303.13496

Zobrazit plný text záznamu

Report

Exploring Plain Vision Transformer Backbones for Object Detection

Autor: Li, Yanghao, Mao, Hanzi, Girshick, Ross, He, Kaiming

We explore the plain, non-hierarchical Vision Transformer (ViT) as a backbone network for object detection. This design enables the original ViT architecture to be fine-tuned for object detection without needing to redesign a hierarchical backbone fo

Externí odkaz: http://arxiv.org/abs/2203.16527

Zobrazit plný text záznamu

Report

Revisiting Weakly Supervised Pre-Training of Visual Perception Models

Autor: Singh, Mannat, Gustafson, Laura, Adcock, Aaron, Reis, Vinicius de Freitas, Gedik, Bugra, Kosaraju, Raj Prateek, Mahajan, Dhruv, Girshick, Ross, Dollár, Piotr, van der Maaten, Laurens

Model pre-training is a cornerstone of modern visual recognition systems. Although fully supervised pre-training on datasets like ImageNet is still the de-facto standard, recent studies suggest that large-scale weakly supervised pre-training can outp

Externí odkaz: http://arxiv.org/abs/2201.08371

Zobrazit plný text záznamu

Report

Benchmarking Detection Transfer Learning with Vision Transformers

Autor: Li, Yanghao, Xie, Saining, Chen, Xinlei, Dollar, Piotr, He, Kaiming, Girshick, Ross

Object detection is a central downstream task used to test if pre-trained network parameters confer benefits, such as improved accuracy or training speed. The complexity of object detection methods can make this benchmarking non-trivial when new arch

Externí odkaz: http://arxiv.org/abs/2111.11429

Zobrazit plný text záznamu

Report

PyTorchVideo: A Deep Learning Library for Video Understanding

Autor: Fan, Haoqi, Murrell, Tullie, Wang, Heng, Alwala, Kalyan Vasudev, Li, Yanghao, Li, Yilei, Xiong, Bo, Ravi, Nikhila, Li, Meng, Yang, Haichuan, Malik, Jitendra, Girshick, Ross, Feiszli, Matt, Adcock, Aaron, Lo, Wan-Yen, Feichtenhofer, Christoph

We introduce PyTorchVideo, an open-source deep-learning library that provides a rich set of modular, efficient, and reproducible components for a variety of video understanding tasks, including classification, detection, self-supervised learning, and

Externí odkaz: http://arxiv.org/abs/2111.09887

Zobrazit plný text záznamu

Report

Masked Autoencoders Are Scalable Vision Learners

Autor: He, Kaiming, Chen, Xinlei, Xie, Saining, Li, Yanghao, Dollár, Piotr, Girshick, Ross

This paper shows that masked autoencoders (MAE) are scalable self-supervised learners for computer vision. Our MAE approach is simple: we mask random patches of the input image and reconstruct the missing pixels. It is based on two core designs. Firs

Externí odkaz: http://arxiv.org/abs/2111.06377

Zobrazit plný text záznamu

Vyhledávací nástroje:

Upřesnit hledání