Výsledky vyhledávání - "Bao, Jianmin"

Report

SynChart: Synthesizing Charts from Language Models

Autor: Liu, Mengchen, Li, Qixiu, Chen, Dongdong, Chen, Dong, Bao, Jianmin, Li, Yunsheng

With the release of GPT-4V(O), its use in generating pseudo labels for multi-modality tasks has gained significant popularity. However, it is still a secret how to build such advanced models from its base large language models (LLMs). This work explo

Externí odkaz: http://arxiv.org/abs/2409.16517

Zobrazit plný text záznamu

Report

FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation

Autor: Mu, Xinzhi, Chen, Li, Chen, Bohan, Gu, Shuyang, Bao, Jianmin, Chen, Dong, Li, Ji, Yuan, Yuhui

Recently, the application of modern diffusion-based text-to-image generation models for creating artistic fonts, traditionally the domain of professional designers, has garnered significant interest. Diverging from the majority of existing studies th

Externí odkaz: http://arxiv.org/abs/2406.08392

Zobrazit plný text záznamu

Report

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Autor: Abdin, Marah, Aneja, Jyoti, Awadalla, Hany, Awadallah, Ahmed, Awan, Ammar Ahmad, Bach, Nguyen, Bahree, Amit, Bakhtiari, Arash, Bao, Jianmin, Behl, Harkirat, Benhaim, Alon, Bilenko, Misha, Bjorck, Johan, Bubeck, Sébastien, Cai, Martin, Cai, Qin, Chaudhary, Vishrav, Chen, Dong, Chen, Dongdong, Chen, Weizhu, Chen, Yen-Chun, Chen, Yi-Ling, Cheng, Hao, Chopra, Parul, Dai, Xiyang, Dixon, Matthew, Eldan, Ronen, Fragoso, Victor, Gao, Jianfeng, Gao, Mei, Gao, Min, Garg, Amit, Del Giorno, Allie, Goswami, Abhishek, Gunasekar, Suriya, Haider, Emman, Hao, Junheng, Hewett, Russell J., Hu, Wenxiang, Huynh, Jamie, Iter, Dan, Jacobs, Sam Ade, Javaheripi, Mojan, Jin, Xin, Karampatziakis, Nikos, Kauffmann, Piero, Khademi, Mahoud, Kim, Dongwoo, Kim, Young Jin, Kurilenko, Lev, Lee, James R., Lee, Yin Tat, Li, Yuanzhi, Li, Yunsheng, Liang, Chen, Liden, Lars, Lin, Xihui, Lin, Zeqi, Liu, Ce, Liu, Liyuan, Liu, Mengchen, Liu, Weishung, Liu, Xiaodong, Luo, Chong, Madan, Piyush, Mahmoudzadeh, Ali, Majercak, David, Mazzola, Matt, Mendes, Caio César Teodoro, Mitra, Arindam, Modi, Hardik, Nguyen, Anh, Norick, Brandon, Patra, Barun, Perez-Becker, Daniel, Portet, Thomas, Pryzant, Reid, Qin, Heyang, Radmilac, Marko, Ren, Liliang, de Rosa, Gustavo, Rosset, Corby, Roy, Sambudha, Ruwase, Olatunji, Saarikivi, Olli, Saied, Amin, Salim, Adil, Santacroce, Michael, Shah, Shital, Shang, Ning, Sharma, Hiteshi, Shen, Yelong, Shukla, Swadheen, Song, Xia, Tanaka, Masahiro, Tupini, Andrea, Vaddamanu, Praneetha, Wang, Chunyu, Wang, Guanhua, Wang, Lijuan, Wang, Shuohang, Wang, Xin, Wang, Yu, Ward, Rachel, Wen, Wen, Witte, Philipp, Wu, Haiping, Wu, Xiaoxia, Wyatt, Michael, Xiao, Bin, Xu, Can, Xu, Jiahang, Xu, Weijian, Xue, Jilong, Yadav, Sonali, Yang, Fan, Yang, Jianwei, Yang, Yifan, Yang, Ziyi, Yu, Donghan, Yuan, Lu, Zhang, Chenruidong, Zhang, Cyril, Zhang, Jianwen, Zhang, Li Lyna, Zhang, Yi, Zhang, Yue, Zhang, Yunan, Zhou, Xiren

We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi

Externí odkaz: http://arxiv.org/abs/2404.14219

Zobrazit plný text záznamu

Report

VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder

Autor: Tang, Zhicong, Gu, Shuyang, Wang, Chunyu, Zhang, Ting, Bao, Jianmin, Chen, Dong, Guo, Baining

This paper introduces a pioneering 3D volumetric encoder designed for text-to-3D generation. To scale up the training data for the diffusion model, a lightweight network is developed to efficiently acquire feature volumes from multi-view images. The

Externí odkaz: http://arxiv.org/abs/2312.11459

Zobrazit plný text záznamu

Report

Towards More Unified In-context Visual Understanding

Autor: Sheng, Dianmo, Chen, Dongdong, Tan, Zhentao, Liu, Qiankun, Chu, Qi, Bao, Jianmin, Gong, Tao, Liu, Bin, Xu, Shengwei, Yu, Nenghai

The rapid advancement of large language models (LLMs) has accelerated the emergence of in-context learning (ICL) as a cutting-edge approach in the natural language processing domain. Recently, ICL has been employed in visual understanding tasks, such

Externí odkaz: http://arxiv.org/abs/2312.02520

Zobrazit plný text záznamu

Report

MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation

Autor: Wang, Yanhui, Bao, Jianmin, Weng, Wenming, Feng, Ruoyu, Yin, Dacheng, Yang, Tao, Zhang, Jingxu, Zhao, Qi Dai Zhiyuan, Wang, Chunyu, Qiu, Kai, Yuan, Yuhui, Tang, Chuanxin, Sun, Xiaoyan, Luo, Chong, Guo, Baining

We present MicroCinema, a straightforward yet effective framework for high-quality and coherent text-to-video generation. Unlike existing approaches that align text prompts with video directly, MicroCinema introduces a Divide-and-Conquer strategy whi

Externí odkaz: http://arxiv.org/abs/2311.18829

Zobrazit plný text záznamu

Report

PersonMAE: Person Re-Identification Pre-Training with Masked AutoEncoders

Autor: Hu, Hezhen, Dong, Xiaoyi, Bao, Jianmin, Chen, Dongdong, Yuan, Lu, Chen, Dong, Li, Houqiang

Pre-training is playing an increasingly important role in learning generic feature representation for Person Re-identification (ReID). We argue that a high-quality ReID representation should have three properties, namely, multi-level awareness, occlu

Externí odkaz: http://arxiv.org/abs/2311.04496

Zobrazit plný text záznamu

Report

CCEdit: Creative and Controllable Video Editing via Diffusion Models

Autor: Feng, Ruoyu, Weng, Wenming, Wang, Yanhui, Yuan, Yuhui, Bao, Jianmin, Luo, Chong, Chen, Zhibo, Guo, Baining

In this paper, we present CCEdit, a versatile generative video editing framework based on diffusion models. Our approach employs a novel trident network structure that separates structure and appearance control, ensuring precise and creative editing

Externí odkaz: http://arxiv.org/abs/2309.16496

Zobrazit plný text záznamu

Report

InstructDiffusion: A Generalist Modeling Interface for Vision Tasks

Autor: Geng, Zigang, Yang, Binxin, Hang, Tiankai, Li, Chen, Gu, Shuyang, Zhang, Ting, Bao, Jianmin, Zhang, Zheng, Hu, Han, Chen, Dong, Guo, Baining

We present InstructDiffusion, a unifying and generic framework for aligning computer vision tasks with human instructions. Unlike existing approaches that integrate prior knowledge and pre-define the output space (e.g., categories and coordinates) fo

Externí odkaz: http://arxiv.org/abs/2309.03895

Zobrazit plný text záznamu

Report

AltFreezing for More General Video Face Forgery Detection

Autor: Wang, Zhendong, Bao, Jianmin, Zhou, Wengang, Wang, Weilun, Li, Houqiang

Existing face forgery detection models try to discriminate fake images by detecting only spatial artifacts (e.g., generative artifacts, blending) or mainly temporal artifacts (e.g., flickering, discontinuity). They may experience significant performa

Externí odkaz: http://arxiv.org/abs/2307.08317

Zobrazit plný text záznamu

Vyhledávací nástroje:

Upřesnit hledání