HiFi-Codec: Group-residual Vector quantization for High Fidelity Audio Codec
Audio codec models are widely used in audio communication as a crucial technique for compressing audio into discrete representations. Nowadays, audio codec models are increasingly utilized in generation fields as intermediate representations. For instance,
arxiv.org
Abstract
- 오디오 코덱은 generation fileds에서도 주로 사용되게 되었지만 (Soundstream, Encodec...) 2가지 문제가 있음
- 1) 훈련하기 어려움. (데이터와 많은 GPU가 필요로 함)
- 2) 많은 코드북이 필요로 함.
해당 논문에서는 Group-Residual Vector Quantization (GRVQ)를 도입해서 더 적은 코드북을 사용해서 Hifidelity audio codec을 개발함.
Method (GRVQ)
이외의 구조는 soundstream과 encodec과 동일하므로 가장 핵심인 GRVQ에 대해서 설명하겠다.
Residual Vector Quantization
입력 z를 vector quatization을 하고 입력과 code vector의 residual을 계속해서 quatization하는 방법. 오차를 계속해서 quantization을 함으로써 오차를 줄여나가는 방법이다. Vector quantization보다 적은 bit로 좋은 성능을 뽑아냈다. (soundstream 참조)
GRVQ는 단지 RVQ를 그룹을 나누어서 진행한 것이다. 입력 z를 2그룹으로 나누어서 각각 RVQ를 해주는 것이다. 이에 대한 motivation은 아래와 같다.
1) RVQ는 첫 번째 quantization 결과에 의존적이다. (residual을 계속해서 quantization하기 때문)
2) RVQ의 첫 번째 quantization은 가장 많은 정보를 지니고 있다. 이는 첫번째가 가장 coarse하고 갈수록 fine한 정보를 갖고 있음으로 생각된다.
GRVQ의 알고리즘은 위와 같으며, 이를 사용해서 적은 bit 사용으로 높은 품질을 생성했다고 한다. 자세한 내용은 논문을 읽어보길 바랍니다.