Yawen Zeng

moc.liamg@11gnezneway :liamE

Biography

Hello, thanks for stopping by! I am a casual player focusing on Large Vision Language Models, General Agents, and Multi-Modal Applications. Due to my adventures in studying, interning, and working, I have collaborated with various institutions, including Hunan University, South China University of Technology, Tencent, and ByteDance, etc. I have had the privilege of publishing my research in esteemed academic conferences such as CVPR, ICCV, AAAI, WWW, SIGIR, ICLR, TNNLS, and TMM.

News

(2025-08) Our paper is accepted as EMNLP 2025 findings.
(2025-07) We won the ACM MM 2025 Grand Challenge (Rank 1st🏅).
(2025-07) Two papers are accecpted by ACM MM 2025.
(2025-06) Our work is accecpted by ICCV 2025.
(2025-04) Our work is accecpted by SIGIR 2025 as an Oral paper.
(2025-01) Two papers are accecpted by WWW 2025 as Oral papers.
(2025-01) One paper is accecpted by ICLR 2025.

more news

(2024-01) One paper is accecpted by WWW 2024.
(2024-01) One paper is accecpted by ICLR 2024.
(2023-12) Our work is accecpted by AAAI 2024.
(2023-08) Our work is accecpted by TMM 2023.
(2023-04) Our work is accecpted by SIGIR 2023.
(2023-02) I am awarded Excellent New Employee in ByteDance AI Lab.
(2022-11) Our work is accecpted by AAAI 2023.
(2022-10) Our work is accecpted by EMNLP 2022 as an Oral paper.
(2022-04) Two papers are accecpted by ICMR 2022 as Oral papers.
(2022-04) Our work is accecpted by TNNLS 2022.
(2022-04) Our work is accecpted by SIGIR 2022.
(2021-07) One paper is accecpted by ACM MM 2021 as an Oral paper.
(2021-03) Our work is accecpted by CVPR 2021.
(2020-10) I am awarded National Scholarship for Postgraduate.
(2020-07) Two papers are accecpted by ACM MM 2020, one of which is an Oral paper.

Selected Publications

(*: equal contribution, ☨: correspondence)

QuantAgents: Towards Multi-agent Financial System via Simulated Trading

Xiangyu Li*, Yawen Zeng*, Xiaofen Xing, Jin Xu, Xiangmin Xu

EMNLP, 2025

MVISU-Bench: Benchmarking Mobile Agents for Real-World Tasks by Multi-App, Vague, Interactive, Single-App and Unethical Instructions

Zeyu Huang, Juyuan Wang, Longfeng Chen, Boyi Xiao, Leng Cai, Yawen Zeng☨, Jin Xu☨

ACM MM, 2025

Refining Contrastive Learning and Homography Relations for Multi-Modal Recommendation

Shouxing Ma, Yawen Zeng, Shiqing Wu, Guandong Xu

ACM MM, 2025

COME: Dual Structure-Semantic Learning with Collaborative MoE for Universal Lesion Detection Across Heterogeneous Ultrasound Datasets

Lingyu Chen*, Yawen Zeng*, Yue Wang, Peng Wan, Guo-chen Ning, Hongen Liao, Daoqiang Zhang, Fang Chen

ICCV, 2025

IVCR-200K: A Large-Scale Multi-Turn Dialogue Benchmark for Interactive Video Corpus Retrieval

Ning Han*, Yawen Zeng*, Shaohua Long, Chengqing Li, Sijie Yang, Dun Tan, Jianfeng Dong, Jingjing Chen

SIGIR, 2025

DataMan: Data Manager for Pre-training Large Language Models

Ru Peng, Kexin Yang, Yawen Zeng, Junyang Lin, Dayiheng Liu, Junbo Zhao

ICLR, 2025

HedgeAgents: A Balanced-aware Multi-agent Financial Trading System

Xiangyu Li*, Yawen Zeng*, Xiaofen Xing, Jin Xu, Xiangmin Xu

WWW, 2025

RTBAgent: A LLM-based Agent System for Real-Time Bidding

Leng Cai, Junxuan He, Yikai Li, Junjie Liang, Yuanping Lin, Ziming Quan, Yawen Zeng☨, Jin Xu☨

WWW, 2025

Energy-based Automated Model Evaluation

Ru Peng, Heming Zou, Haobo Wang, Yawen Zeng, Zenan Huang, Junbo Zhao

ICLR, 2024

FinReport: Explainable Stock Earnings Forecasting via News Factor Analyzing Model

Xiangyu Li, Xinjie Shen, Yawen Zeng, Xiaofen Xing, Jin Xu

WWW, 2024

Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based Person Re-Identification

Yajing Zhai*, Yawen Zeng*, Zhiyong Huang, Zheng Qin, Xin Jin, Da Cao

AAAI, 2024

VideoCoT: A Video Chain-of-Thought Dataset with Active Annotation Tool

Yan Wang, Yawen Zeng☨, Jingsheng Zheng, Xiaofen Xing, Jin Xu, Xiangmin Xu

ACL, 2024 (workshop)

HindRec: Aligning User Preferences for Recommendation via Hindsight Fine-tuning

Yawen Zeng*, Huanwen Wang*, Lingyu Chen, Wenshu Chen, Ran Chen, Hao Chen

KDD, 2024 (workshop)

RetrievalMMT: Retrieval-Constrained Multi-Modal Prompt Learning for Multi-Modal Machine Translation

Yan Wang*, Yawen Zeng*, Junjie Liang, Xiaofen Xing, Jin Xu, Xiangmin Xu

ICMR, 2024

Temporally Language Grounding with Multi-modal Multi-Prompt Tuning

Yawen Zeng, Ning Han, Keyu Pan, Qin Jin

TMM, 2023

Do LLMs Possess a Personality? Making the MBTI Test an Amazing Evaluation for Large Language Models

Keyu Pan, Yawen Zeng

arXiv preprint, 2023

RewardTLG: Learning to Temporally Language Grounding from Flexible Reward

Yawen Zeng, Keyu Pan, Ning Han

SIGIR, 2023

Multi-Modal Knowledge Hypergraph for Diverse Image Retrieval

Yawen Zeng, Qin Jin, Tengfei Bao, Wenfeng Li

AAAI, 2023

Contrastive Topic-enhanced Network for Video Captioning

Yawen Zeng, Yiru Wang, Dongliang Liao, Gongfu Li, Jin Xu, Bo Liu, Xiangmin Xu, Hong Man

ESWA, 2023

BiC-Net: Learning Efficient Spatio-Temporal Relation for Text-Video Retrieval

Ning Han, Yawen Zeng, Chuhao Shi, Guangyi Xiao, Hao Chen, Jingjing Chen

TOMM, 2023

Better Sign Language Translation with Monolingual Data

Ru Peng, Yawen Zeng, Junbo Zhao

arXiv preprint, 2023

Keyword-Based Diverse Image Retrieval with Variational Multiple Instance Graph

Yawen Zeng, Yiru Wang, Dongliang Liao, Gongfu Li, Weijie Huang, Jin Xu, Da Cao, Hong Man

TNNLS, 2022

Point Prompt Tuning for Temporally Language Grounding

Yawen Zeng

SIGIR, 2022

Distill the Image to Nowhere: Inversion Knowledge Distillation for Multimodal Machine Translation

Ru Peng*, Yawen Zeng*, Junbo Zhao

EMNLP, 2022

HybridVocab: Towards Multi-Modal Machine Translation via Multi-Aspect Alignment

Ru Peng*, Yawen Zeng*, Junbo Zhao

ICMR, 2022

TriReID: Towards Multi-Modal Person Re-Identification via Descriptive Fusion Model

Yajing Zhai*, Yawen Zeng*, Da Cao, Shaofei Lu

ICMR, 2022

Fine-grained cross-modal alignment network for text-video retrieval

Ning Han, Jingjing Chen, Guangyi Xiao, Hao Zhang, Yawen Zeng, Hao Chen

ACM MM, 2021

Moment is Important: Language-Based Video Moment Retrieval via Adversarial Learning

Yawen Zeng, Da Cao, Hanling Zhang, Jiao Xu, Zheng Qin

TOMM, 2021

Multi-Modal Relational Graph for Cross-Modal Video Moment Retrieval

Yawen Zeng, Da Cao, Xiaochi Wei, Meng Liu, Zhou Zhao, Zheng Qin

CVPR, 2021

Adversarial Video Moment Retrieval by Jointly Modeling Ranking and Localization

Da Cao, Yawen Zeng, Xiaochi Wei, Liqiang Nie, Richang Hong, Zheng Qin

ACM MM, 2020

STRONG: Spatio-Temporal Reinforcement Learning for Cross-Modal Video Moment Localizationn

Da Cao, Yawen Zeng, Meng Liu, Xiangnan He, Meng Wang, Zheng Qin

ACM MM, 2020

Awards

HEAR: A Holistic Extraction and Agentic Reasoning Framework for Document Understanding

Longfeng Chen, Zheng Xiao, Juyuan Wang, Zeyu Huang, Yawen Zeng☨, Jin Xu☨

ACM Multimedia 2025 Grand Challenge (Rank 1st🏅)

SYSUpporter Team at BEA 2025 Shared Task: Class Compensation and Assignment Optimization for LLM-generated Tutor Identification

Longfeng Chen, Zeyu Huang, Zheng Xiao, Yawen Zeng☨, Jin Xu☨

ACL 2025 BEA Shared Task (Rank 2nd🥈)

Academic Service

Conference Reviewer for CVPR, ICCV, ECCV, ACL, EMNLP, KDD, WWW, NeurIPS, AAAI.

Journal Reviewer for TPAMI, TNNLS, TMM, TKDE, TKDD, TOMM.