시각-언어 모델 ‘속성 인식력’ 높인 프롬프트 학습 기법 개발
이석주 켄텍 교수 연구팀 성과…자율주행·로봇 분야 활용 기대
입력 : 2025. 11. 13(목) 11:05
본문 음성 듣기
이석주 켄텍 교수 연구팀이 개발한 프롬프트 학습 기법 개념도
한국에너지공과대학교(켄텍)는 최근 이석주 교수 연구팀이 데이터 다양화 과정에서 생길 수 있는 시각적 왜곡을 분석해 비전-언어 모델(Vision-Language Model·VLM)이 이미지의 본질적인 속성(attribute)만 학습하도록 설계한 새로운 프롬프트 학습 기법을 개발했다고 13일 밝혔다.

기존의 비전-언어 모델은 이미지와 텍스트를 결합해 사물의 의미를 이해할 수 있지만 세밀한 속성 구분이 필요한 상황에서는 한계가 있었다.

이러한 문제를 해결하기 위해 연구팀은 ‘델타 메타 토큰(Delta Meta Token)’을 도입했다.

이 토큰은 이미지 간의 상대적 변화를 학습해 속성 차이를 정교하게 구분하도록 돕는다. 이를 통해 모델은 데이터 변화에 덜 민감하게 반응하면서도 대상의 클래스에 의미 있는 속성만 학습해 시각적으로 유사한 대상도 속성 단서에 기반해 구별할 수 있다.

기존 방식이 ‘강아지’라는 클래스 정보만 학습했다면, 제안된 기법은 귀, 눈, 털 등 강아지의 공통된 속성을 함께 학습한다. 강아지의 종류나 배경이 달라져도, 본질적인 속성을 인식해 도메인이 다른 데이터에서도 안정적인 성능을 유지한다.

특히 사전 학습된 모델에 최소한의 파라미터만 추가하는 경량 구조임에도 11개 벤치마크 데이터셋에서 기존 프롬프트 학습 방법을 능가하며 높은 일반화 성능을 보인다.

연구팀은 새로운 클래스나 도메인이 주어져도 안정적인 인식을 유지해 자율주행·로봇 비전·산업 영상 이상 검출 등 속성 기반 시각 인식이 요구되는 다양한 분야에 활용될 것으로 기대하고 있다.

공동 제1저자인 김가현 연구원은 “켄텍연구실의 자율적이고 협력적인 연구 환경에서 새로운 아이디어를 적극적으로 도전할 수 있는 분위기가 큰 도움이 됐다”며 “앞으로 AI 에이전트 협업 연구를 통해 자율형 지능 로봇의 확장 가능성을 탐구할 계획이다”고 밝혔다.

해당 연구(논문명:Decoupling Augmentation Bias in Prompt Learning for Vision-Language Models)는 산업통상자원부와 한국연구재단의 지원을 받아 수행됐으며, 컴퓨터 비전 및 기계 학습 분야의 국제 저명 학술지 ‘Pattern Recognition (Elsevier)’에 지난달 23일 온라인 게재됐다.
이산하 기자 goback@gwangnam.co.kr
혁신도시 최신뉴스더보기

기사 목록

광남일보 PC버전
검색 입력폼