알리바바, 텍스트 렌더링 강화된 20B 이미지 모델 공개

Investing.com — 알리바바는 복잡한 텍스트 렌더링 및 정밀한 이미지 편집 기능을 크게 향상시킨 20B MMDiT 이미지 파운데이션 모델인 Qwen-Image를 출시했습니다.
새로운 모델은 "이미지 생성"을 선택하여 Qwen Chat을 통해 액세스할 수 있으며, 다중 라인 레이아웃, 단락 수준의 의미, 세밀한 세부 사항을 처리하는 뛰어난 텍스트 렌더링 기능을 제공합니다. 영어와 같은 알파벳 언어와 중국어와 같은 표의 문자 언어를 모두 높은 충실도로 지원합니다.
Qwen-Image는 또한 향상된 다중 작업 훈련 패러다임을 통해 일관된 이미지 편집 기능을 제공하여 편집 작업 중 의미론적 의미와 시각적 사실성을 모두 보존하는 데 탁월한 성능을 제공합니다.
알리바바에 따르면 이 모델은 GenEval, DPG, OneIG-Bench, GEdit, ImgEdit, GSO를 포함한 생성 및 편집 작업 모두에 대한 여러 공용 벤치마크에서 기존 솔루션보다 뛰어난 성능을 보입니다. 특히 LongText-Bench, ChineseWord, TextCraft와 같은 텍스트 렌더링 벤치마크에서 뛰어난 성능을 보이며 현재 최고 수준의 모델보다 훨씬 뛰어납니다.
이 회사는 다양한 시나리오에서 복잡한 텍스트를 렌더링하는 기능을 보여주는 다양한 예시를 통해 Qwen-Image의 기능을 시연했습니다. 여기에는 적절한 피사계 심도를 가진 상점 표지판에 중국어 문자를 정확하게 생성하고, 책 표지 및 정보 슬라이드에 자세한 영어 텍스트를 만들고, 이중 언어 콘텐츠를 쉽게 처리하는 기능이 포함됩니다.
텍스트 처리 외에도 Qwen-Image는 사진과 같은 사실적인 장면에서 인상주의 그림에 이르기까지 광범위한 예술 스타일을 지원하고 스타일 전송, 추가, 삭제, 세부 사항 향상, 텍스트 편집, 캐릭터 포즈 조정 등 다양한 편집 작업을 제공합니다.
알리바바는 Qwen-Image가 이미지 생성 발전을 촉진하고 시각적 콘텐츠 제작에 대한 기술적 장벽을 낮추며 혁신적인 애플리케이션에 영감을 주는 것을 목표로 한다고 밝혔습니다. 회사는 "개방적이고 투명하며 지속 가능한 생성 AI 생태계"를 구축하기 위해 커뮤니티 참여 및 피드백을 요청하고 있습니다.
이 모델은 2025년 8월에 출시될 예정입니다.
이 기사는 인공지능의 도움을 받아 번역됐습니다. 자세한 내용은 이용약관을 참조하시기 바랍니다.
-
등록일 04:40
-
등록일 04:24
-
등록일 04:22
-
등록일 04:18