DAC: A Dynamic Attention-aware Approach for Task-Agnostic Prompt Compression 리뷰

Zhao, Yi, et al. "DAC: A dynamic attention-aware approach for task-agnostic prompt compression." Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2025.

https://arxiv.org/abs/2507.11942

Abstract

기존 프롬프트 압축법은 정보 엔트로피에 의존하는데, 이는 ‘(1) 토큰의 어텐션 정보를 간과함 (2) 압축 시 정보 엔트로피의 분포가 이동됨’의 두가지 사실을 간과한다. 본 논문에서는 이를 해결하기 위해 Dynamic Attention-Aware approach for task-agnostic prompt compression(DAC)를 제안한다. 이는 정보 엔트로피와 어텐션을 통합하여 압축 메트릭 점수 계산에 사용하고, 세밀한 압축을 위해 압축했을 때의 분포 이동을 고려한다.

Introduction

프롬프트 압축은 연산을 줄이고 정보를 밀집되게 한다. 문제는 중요 어텐션 토큰과 정보 엔트로피의 이동을 간과하는 것이다. Efficient LLM 분야는 효율적인 LLM을 만드는 것을 목표로 하는데, API만 접근이 가능한 black-box LLM은 모델 내부 구조에 접근하는 것이 어렵다. 따라서 prompt compression으로 문제를 해결하는데, 입력을 통해서만 프롬프트를 압축한다. 기존 방식은 LLM 모델을 통해 얻은 최종 logits만 사용하고 모델 내부 레이어에서의 세밀한 어텐션 정보를 사용하지 않는다. 추가로 기존 방법은 압축 시의 엔트로피의 분포 이동을 고려하지 못한다. 본 논문의 DAC는 엔트로피와 어텐션을 통합하며, 어텐션을 고려한 압축을 진행한다. 또한 압축 시마다 토큰별 엔트로피 이동을 확인할 수 있게 한다. 이를 통해 압축된 프롬프트의 정보 손실을 줄이고자 한다.

문맥 이해(LongBench), 추론(GSM8K, BBH)용 데이터셋을 사용하며 다른 도메인에서도 높은 성능을 얻는다. 또한 Qwen2 ~ LLaMA3와 같은 여러 LLM 백본에 대해서도 일관성 있는 성능을 보인다.

Related Work

Prompt Compression

soft prompt : 스페셜 토큰, 임베딩 등으로 압축하는 방식이다.
- 사람이 못 읽는 형태이며 압축된 컨텐츠를 이해, 분석하기 어렵다.
- 모델 사전학습, 파인튜닝을 요구한다. (black-box LLM에는 적용 불가)
hard prompt : 원본에서 정보가 낮은 부분을 제거하는 방식이다.
- 정보 엔트로피를 활용해서 압축하는 방식이 많다.
- 어텐션을 통해 얻은 모든 정보를 사용하지 않고, 압축 시 엔트로피 이동을 고려하지 못한다.

DAC는 엔트로피 기반 hard prompt 방법론이지만 어텐션을 사용하고, 압축 후에도 정보가 적은 부분을 찾는 후 처리 과정을 거친다.

KV Cache Compression

LLM이 토큰을 생성할 때 이전 토큰의 Key, Value를 캐시에 저장한다. KV 캐시 압축은 메모리를 절약하기 위해 덜 중요한 토큰의 KV를 제거하는 것이다. 관련된 선행 연구는 다음과 같은 통찰을 이끌어냈다.

생성 과정에서 소수의 토큰만 높은 어텐션을 받는다.
초기의 생성 단계에서 높은 어텐션을 받은 토큰은 나중에도 높은 어텐션을 받는다.
깊은(후반) 레이어의 경우 중복이 더 많다.

이를 기반으로 DAC에서는 프롬프트 압축 방식에 어텐션 기법을 활용하기로 판단했다.

Preliminaries

3.1 Problem Formultation

목적은 원본 프롬프트의 생성 결과와 비교가능한 성능의, 입력 토큰의 부분집합을 찾는 방법을 찾는 것이다.

KL divergence로 두가지 분포를 비교한다.

$\min_{x,\tau}\mathcal{D}(P(\tilde{y}|\tilde{x}), P(y|x))$

3.2 Information Entropy

정보 이론에서 효과적인 압축 방법은 정보 손실을 줄이는 것이다. 정보 엔트로피는 autoregressive 생성의 출력 분포로 구할 수 있다. 모델이 예측할 확률이 높은 토큰은 정보 엔트로피가 낮으며, 정보를 적게 가지므로 유력한 압축 후보가 된다.

$I_t(x)=-\log_2 P(x_t|x_0, x_1, ..., x_{t-1})$

3.3 Attention Scores

어텐션은 모델이 입력 시퀀스의 중요한 부분에 집중하게 하며, 토큰 거리에 상관없이 서로 참조가 가능하다. i번째 레이어, j번째 헤드의 정규화된 어텐션 행렬은 다음과 같다. $Softmax\left(\frac{Q_{ij}K_{ij}^\top}{\sqrt{d_h}}\right) \in \mathbb{R}^{n \times n}$

i번째 레이어, j번째 헤드의 하나의 토큰 v에 대한 다른 전체 토큰의 어텐션(중요도) 점수는 다음과 같이 표현한다.

$s_v^{ij} = \sum_{u=1}^n q_{uv}$

또한 모든 토큰에 대한 어텐션 점수는 다음과 같이 표현한다.

$F_{score}^{ij} = (s_1^{ij}, s_2^{ij}, \dots, s_n^{ij})$

모든 레이어의 모든 헤드에 대해 이를 계산하는 경우, 최종적으로 각 토큰마다 하나의 누적 어텐션 점수를 얻게 된다.

$\overline{F_{score}} = \frac{1}{MN} \cdot \sum_{i=1}^N \sum_{j=1}^M F_{score}^{ij} = (\overline{s_1}, \overline{s_2}, \dots, \overline{s_n})$

Method

Observation 1 : Attention-critical Token Matter

누적된 어텐션 점수가 높은 토큰이라고 정보 엔트로피가 높지 않다.

따라서 정보 엔트로피 기반으로 압축하는 경우, 어텐션 점수가 높은 토큰들을 간과하게 된다. 추가로 여러 QA 데이터(NarrativeQA, QASPER, MultiFieldQA)로 압축률 0.9 (10% 토큰압축)의 Ablation 실험을 진행했다. 정보 엔트로피 압축(어텐션 고려하지 않음)이 무작위 압축보다 F1 score가 더 낮았다. 이는 효과적인 압축을 위해 어텐션 점수도 같이 고려해야함을 의미한다.

Observation 2 : Entropy Shift during Compression

압축 시 토큰의 분포가 크게 변한다.

실험에서 적은 압축률에도 다수의 토큰의 분포가 상당한 수치로 이동한다**.** 이는 분포 변화를 체크하지 않은 과거의 방식에서 압축 효과가 손상되었음을 암시한다. 또한 압축 시 큰 변화를 보이는 토큰 대부분이, 압축 과정에서 이전 토큰이 제거(압축)되었다. 그리고 원본 토큰과 압축된 토큰 엔트로피의 Pearson 상관계수 확인 시, 압축률에 따라 상관계수가 크게 떨어지는 것이 확인된다. 압축률에 따라 분포가 크게 변하므로 효과적인 압축을 위해서는 엔트로피를 계속 확인해야한다.

Dynamic Attention-aware Compression

관찰 1을 기반으로 프롬프트 압축 기준에 정보 엔트로피와 누적 어텐션 점수를 같이 사용한다. 더하는 방식($M_t^a = (1 - \alpha) \cdot I_t(x) + \alpha \cdot \overline{s_t}$) 또는 곱하는 방식($M_t^m = I_t(x) \cdot \overline{s_t}$)을 사용한다. 더하는 방식에서 비율($\alpha$)은 뒤의 실험을 통해 결정된다.

관찰 2를 기반으로 동적 프롬프트 압축을 진행한다. 전체 토큰을 한번에 압축하지 않고, 단계별로 정보 엔트로피 계산 후 압축하는 전략을 반복한다. 또한 앞선 토큰이 압축되었을 때 분포 변화가 큰 것을 고려하여, 연속된 토큰의 압축을 제한한다. 이 전략은 두가지 이점이 있는데, 앞선 토큰이 압축되었을 때 분포 변화를 고려하지 않고 다음 토큰이 압축되는 것을 예방하며 단계별로 압축률이 조절되게 한다.

$\varDelta \tau = \tau^{1/D} + \varDelta P$

$\varDelta \tau$ : 이번 단계 압축률
$D$ : 압축 반복 횟수
$\varDelta P$ : 이전 단계에서 압축하지 못한 비율

최종 압축률 $\tau$를 얻기 위해 각 단계에서 추가로 압축해야하는 비율을 $\varDelta P$로 보충한다. 각 토큰의 점수를 오름차순으로 나열하여 전체 중 $\varDelta \tau$ 비율의 토큰을 임계점으로 한다. 임계점보다 높은 점수 또는 앞선 토큰이 압축된 토큰들을 선택해서 압축 결과로 활용한다. 이를 여러번 반복한다.

Experiments

다음 2가지 작업에 대해 압축이 잘되는지 다른 방법론과 비교했다.

문맥 이해(Contextual Understanding)
- 단일 문서 QA, 다중 문서 QA, 요약, few-shot Learning
추론, 프롬프트 이행 능력(Reasoning and In-context Learning)
- GSM8K, Big Bench Hard(BBH)

평가 지표 : EM
압축률 : 0.5, 0.2 (20% 남김)
BackBone : SLM(Qwen2-0.5B), LLM(Qwen2-7B)
LLM call : (SLM) 최대 15번 + (LLM) 1회

먼저 압축 메트릭을 정하기 위해 사전 single QA 실험을 진행했다. 실험 결과 엔트로피와 어텐션의 가중합($\alpha = 0.8$)에서 가장 높은 F1 score를 보인다. (어텐션 : 정보 엔트로피 = 8 : 2) 따라서 모든 실험에서 가중합($\alpha = 0.8$) 방식을 사용한다.

Main Results

LongBench에 대해 실험했을 때 DAC는 Single-Doc QA, Summarization, Few-shot Learning에서 다른 베이스라인을 넘어선다. Multi-Doc QA에서는 LLMLingua-2가 더 성능이 높지만 전체 카테고리에 대한 평균으로는 DAC가 더 성능이 높다.

또한 GSM8K, BBH에 대해 실험했을 때 BBH($\tau=0.5$)에서는 LLMLingua보다 성능이 떨어지지만 BBH($\tau=0.2$)에서는 압축 방법론 중 가장 높은 성능을 보인다. 이는 압축을 많이하는 경우 토큰 분포 변화가 더 많으므로 (이를 고려하는) DAC가 더 유리해짐을 보인다. LLMLingua2의 경우 특정 데이터셋으로 학습한 작은 모델을 사용하므로, 처음보는 데이터(GSM8K, BBH)에서는 성능이 감소한다.

Ablation

w/o Attention-aware Metric : 누적 어텐션 점수 미사용
w/o Dynamic Procedure : 여러번 압축하지 않음
w/o Limiting Consecutive Compression : 앞선 토큰이 압축되도 압축 후보에서 제외하지 않음

실험 시 어텐션을 고려하지 않은 경우 가장 QA 성능이 감소했다. 그리고 동적 압축과 앞선 토큰을 고려하는 방법론을 제거했을 때 성능이 감소하므로 모든 컴포넌트가 유의미함이 입증되었다.

Other Experiments

Different BackBone : (LongBench 데이터셋) 백본을 Llama3으로 사용했을 때도 Qwen2과 유사하게 DAC가 더 평균적으로 높은 성능을 보인다.
Overhead : (GovReport 데이터셋) 여러번 압축하는 방법론이므로, 추론 시 압축 시간이 다른 압축 기법보다 길다. (다른 베이스라인보다 3~5배 오래 걸림) 하지만 원본 프롬프트 사용했을 때보다 전체 추론 시간은 짧다.
More Compression Rates : (GSM8K 데이터셋) 2배 압축까지 성능이 유사하며, 이후에 성능이 떨어지나 많은 압축이 요구되는 경우 8배까지는 압축 가능할 것으로 예상된다.

Conclusion

Contribution

정보 엔트로피와 누적된 어텐션 점수를 모두 압축할 프롬프트를 구별하는 메트릭으로 사용한다.
SLM으로 단계별 정보 엔트로피 분포 변화를 다시 계산해서 압축하는 multi-stage 방식이다.
단계 내 연속된 토큰 압축을 제한해서 정보 엔트로피 분포 변화를 고려하게 한다.

Limitation

압축 반복 횟수에 한계가 있으므로 프롬프트가 너무 길면 세밀함이 떨어져서 성능 저하가 커진다.

'Research > MHQA (자연어 기반)' 카테고리의 다른 글

LongLLMLingua: Accelerating and Enhancing LLMs in Long ContextScenarios via Prompt Compression 리뷰 (0)	2026.03.29
Compressing Context to Enhance Inference Efficiency of Large Language Models 리뷰 (0)	2026.03.16
Cooperative Retrieval-Augmented Generation for Question Answering: Mutual Information Exchange and Ranking by Contrasting Layers 리뷰 (0)	2026.03.06
MAGNET: Augmenting Generative Decoders with Representation Learningand Infilling Capabilities 리뷰 (0)	2026.02.28
One Token Can Help! Learning Scalable and Pluggable Virtual Tokensfor Retrieval-Augmented Large Language Models 리뷰 (0)	2026.02.23

Abstract

Introduction

Related Work

Prompt Compression

KV Cache Compression

Preliminaries

3.1 Problem Formultation

3.2 Information Entropy

3.3 Attention Scores

Method

Observation 1 : Attention-critical Token Matter

Observation 2 : Entropy Shift during Compression

Dynamic Attention-aware Compression

Experiments

Main Results

Ablation

Other Experiments

Conclusion

Contribution

Limitation

'Research > MHQA (자연어 기반)' 카테고리의 다른 글

티스토리툴바