deep-learning
-
Large Model Memory 효율적 사용하는 방법 (huggingface 기준)deep-learning 2024. 3. 10. 20:06
Large Model Memory 효율적 사용하는 방법 (huggingface 기준) 최근 나오는 LLM 모델들의 경우 메모리 사용량이 많은데 메모리 사용을 효율적으로 사용 할 수 있는 방법들 기록 항상 성능과 효율의 적정선을 찾기 위해 노력해야함 Model load 시에 8bit 로 로딩 AutoModelForCausalLM.from_pretrained() 의 옵션으로 load_in_8bit=True 모델의 가중치와 활성화 함수의 출력이 8 bit 정밀도로 저장되어 처리 활성화 함수의 출력이란? => ReLU, Sigmoid 등의 활성화 함수가 입력 신호를 받아 처리한 결과 기존 학습된 32 bit(float) 형식에 비해 8 bit 정밀도로 로드시 메모리 사용량이 감소 => 데이터 전송 속도가 빨라지..
-
[엔지니어의 논문 리뷰] QLORA: Efficient Finetuning of Quantized LLMsdeep-learning 2024. 2. 27. 23:38
# [엔지니어의 논문 리뷰] QLORA: Efficient Finetuning of Quantized LLMs * 논문 주소: https://arxiv.org/abs/2305.14314 ## 요약 * QLoRA = LoRA 방식 + 양자화 * 4비트 양자화된 사전 훈련된 언어 모델을 통해 그래디언트를 역전파를 이용하여 LoRA 로 전달하여 가중치 갱신 * LoRA 란? * 간단히 기존 모델의 파라미터는 고정시키고 각 계층에 저랭크 분해 행렬(Low-Rank)을 삽입해 훈련 가능한 매개변수의 수를 줄여 매개변수의 효율성을 가져오는 기법 * LoRA 정리 * https://wotres.tistory.com/entry/%EC%97%94%EC%A7%80%EB%8B%88%EC%96%B4%EC%9D%98-%EB%8..
-
[엔지니어의 논문 리뷰] LoRA: Low-Rank Adaptation of Large Language Models 논문 리뷰deep-learning 2024. 2. 18. 19:40
# [엔지니어의 논문 리뷰] LoRA: Low-Rank Adaptation of Large Language Models 논문 리뷰 * 논문 주소: https://arxiv.org/abs/2106.09685 ## 요약 * LoRA는 Transformer 아키텍처에서 사전 훈련된 모델의 가중치를 고정하고 각 계층에 저랭크 분해 행렬(Low-Rank)을 삽입해 훈련 가능한 매개변수의 수를 줄여 매개변수의 효율성을 개선 * 전체 학습되야할 파라미터 수를 10,000 배 줄이고 GPU 메모리를 3배 줄일 수 있음 * RoBERTa, DeBERTa, GPT-2, GPT-3 등의 모델의 fine-tuning 방법과 비교해도 비슷하거나 더 나은 성능을 보여줌 ## 리뷰 * LLM (Large Language model..