개요

아이디어

PTQ를 하기 위해서는 우선 weight 의 data 분포를 알면 좋을 것 같다.
데이터 전처리를 수행할 때 양 끝 값이 얼마인지 체크해 봐야겠다 → ~~pandas 를 통해 분포 확인하기~~
결국에는 BNB (bitsandbytes)를 통해서 원하는 방법을 찾았다.
수행방법
hugging face에서 linear 4bit quant 에 대한 자료를 찾았음 https://huggingface.co/docs/bitsandbytes/reference/nn/linear4bit
1. PTQ 방식을 선택하였으므로, 우선 모델을 학습시킨다.
2. 학습한 모델의 parameter를 양자화 하는 모델로 옮긴다. load_state_dict(torch.load(parameter 위치))
3. 해당 모델을 device에 올린다. model.to(device)
4. 이후 속도 및 정확도를 체크

MNIST 라서 그런지 생각보다 더더욱 정확도 감소율이 낮았다.