본문 바로가기
Dev/Research

2개의 GPU로 BERT SQuAD2.0 fine-tuning training 하기

by 아임웬디 2020. 5. 21.

연구실 PC를 Titan RTX (24GB) GPU를 사용해서 하는데 기존 레퍼지토리에서 가이드로 제공하는 것보다 2배의 RAM인데, batch size 2배로 돌리면 OOM 에러가 뜬다.. 그래서 Titan RTX GPU를 하나 더 받아, 더 큰 배치사이즈로도 돌려보기로 하였다.

 

우선 나에겐 GPU PC가 처음이었고 낯설어 multi gpu를 사용하기 위해서 새로이 학습하고 찾아봐야했다.

찾아보았을 때 Horovod를 사용하여 multi gpu를 주로 사용한다고 하여 이를 따라보기로 했다.

 

What is Horovod ?

 * Motivation : single-GPU 학습 스크립트를 쉽게 가져오고 이를 성공적으로 scalable하게 여러 GPU에서 병렬적으로 학습할 수 있도록 하는 것

  - 프로그램을 배포하려면 얼마나 수정해야 하고, 얼마나 쉽게 실행할 수 있는가?
  - 분산 모드에서 얼마나 더 빨리 실행될 것인가?

 

* Horovod는 Uber에서 만든 Multi GPU 학습을 도와주는 프레임 워크로, 규모에 맞게 학습 스크립트를 작성한 후에는 추가 코드 변경 없이 single-GPU, multi-GPUs 또는 여러 호스트에서 실행할 수 있다. 그리고 Tensorflow, Keras, Pytorch, MXNet에서의 실행을 모두 지원한다.

 

https://github.com/horovod/horovod/blob/master/docs/gpus.rst

 

horovod/horovod

Distributed training framework for TensorFlow, Keras, PyTorch, and Apache MXNet. - horovod/horovod

github.com

Install

1. Install NCCL 2 following these steps.

https://docs.nvidia.com/deeplearning/nccl/install-guide/index.html

 

Installation Guide :: NVIDIA Deep Learning NCCL Documentation

If you are using NCCL 1.x and want to move to NCCL 2.x, be aware that the APIs have changed slightly. NCCL 2.x supports all of the collectives that NCCL 1.x supports, but with slight modifications to the API. In addition, NCCL 2.x also requires the usage o

docs.nvidia.com

2. Install Open MPI or another MPI implementation following these steps.

 

FAQ: Building Open MPI

Table of contents: How do I build Open MPI? Wow — I see a lot of errors during configure. Is that normal? What are the default build options for Open MPI? Open MPI was pre-installed on my machine; should I overwrite it with a new version? Where should I

www.open-mpi.org

3. Install Tensorflow with g++-4.8.5 or g++-4.9

(알고보니 나는 g++ 버전이 맞지 않았고 tensorflow 맞게 재설치!)

1) gcc 버전 추가 설치해서 바꿔주기 (기존은 그대로 두고 대신 우선순위를 낮게)

sudo apt install gcc-4.8
sudo apt install g++-4.8
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-7 20
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-4.8  30
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-7 20
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-4.8  30

 

https://blog.koriel.kr/gcc-g-dareun-beojeon-cugahago-paekiji-gwanrihagi/https://promobile.tistory.com/377

 

[Ubuntu]gcc, g++ 다른 버전 추가 및 패키지 관리

■ gcc, g++ 다른 버전 추가 및 패키지 관리 사용 OS : Ubuntu 16.04 LTS Ubuntu 에서 개발을 진행하다보면, gcc 및 g++ 버전을 변경해야 하는 경우가 자주 발생 하게 됩니다. 특히, 오픈소스를 활용해야 하는

promobile.tistory.com

2) Tensorflow 설치

pip install tensorflow-gpu=1.14

 

4. Install the horovod pip package

HOROVOD_GPU_OPERATIONS=NCCL pip install --no-cache-dir horovod

 

코드 수정

우선 BERT run_squad.py 같은 실행코드나 optimaztion.py 또한 horovod 사용하여 돌릴 수 있도록 코드를 수정해야한다.

아래 lambda labs라는 곳에서 수정한 소스코드를 오픈하고 있으니 이를 그대로 가져다 쓰면 된다! (개이득!)

 

https://github.com/lambdal/bert

 

lambdal/bert

TensorFlow code and pre-trained models for BERT. Contribute to lambdal/bert development by creating an account on GitHub.

github.com

SQuAD 2.0 실행해보기 (fine-tuning training) with 2 GPU

 

mpirun -np 2 \
   -H localhost:2 \
   -bind-to none -map-by slot \
   -x NCCL_DEBUG=INFO -x LD_LIBRARY_PATH -x PATH \
   -mca pml ob1 -mca btl ^openib \
   python bert_files/run_squad_hvd.py \
   --vocab_file=pretrained_files/vocab.txt \
   --bert_config_file=pretrained_files/bert_config.json \
   --init_checkpoint=pretrained_files/bert_model.ckpt \
   --do_train=True \
   --train_file=squad_files/train-v2.0.json \
   --do_predict=True \
   --predict_file=squad_files/dev-v2.0.json \
   --train_batch_size=12 \
   --learning_rate=3e-5 \
   --num_train_epochs=2.0 \
   --max_seq_length=384 \
   --doc_stride=128 \
   --output_dir=output/multi12/squad2.0/ \
   --version_2_with_negative=True

evaluation도 잘된다 :)

 

python squad_files/squad2.0/evaluate-v2.0.py squad_files/squad2.0/dev-v2.0.json output/multi12/squad2.0/predictions.json
"exact": 74.52202476206519,
  "f1": 77.73910220339856,
  "total": 11873,
  "HasAns_exact": 69.53441295546558,
  "HasAns_f1": 75.9777936000255,
  "HasAns_total": 5928,
  "NoAns_exact": 79.49537426408747,
  "NoAns_f1": 79.49537426408747,
  "NoAns_total": 5945

 

Reference :

https://lambdalabs.com/blog/bert-multi-gpu-implementation-using-tensorflow-and-horovod-with-code/#demohttps://github.com/lambdal/bert#squad1.1

 

Multi-GPU enabled BERT using Horovod

This blog is about running BERT (Google's SOTA pre-trained language representation) with multiple GPUs and Horovod.

lambdalabs.com

https://y-rok.github.io/deep%20learning/2019/12/19/horovod-tensorflow.html

 

Horovod를 활용하여 Tensorflow에서 Multi GPU로 학습하기 (BERT Distributed Training 해보기)

이번 포스트에서는 Horovod란 무엇이고 Multi-GPU로 Deep Learning 모델을 학습하는 Distributed Training에 대해 소개하고자 합니다. 이를 위해, Horovod에서 제공하는 Benchmark 소스를 활용하여 가지고 있는 서버

y-rok.github.io

http://solarisailab.com/archives/2627

 

32. 텐서플로우(TensorFlow)와 Horovod를 이용한 Multi-GPU 및 Distributed Training | 솔라리스의 인공지능 연구

이번 시간에는 텐서플로우(TensorFlow)와 Horovod를 이용해서 Multi-GPU 및 Distributed Training을 진행하는 방법을 알아보자. [1] Horovod Horovod는 Uber[2]에서 만든 Multi-GPU 및 분산 학습을 손쉽고 최적화된 형태��

solarisailab.com

 

댓글