반응형
트랜스포머(Transformer)란?
- 인공신경망 알고리즘은 크게, 합성곱 신경망(CNN), 순환 신경망(RNN), 트랜스포머(Transformer) 3가지로 나눠집니다.
- 이 중 트랜스포머는, 2017년 구글이 발표한 논문인 "Attention is all you need"에서 나온 모델로,
- 셀프 에텐션(Self-Attention)이라는 방식을 사용하는 모델입니다.
- 트랜스포머는, 이러한 어텐션 방식을 사용해, 문장 전체를 병렬구조로 번역할 뿐만 아니라, 멀리 있는 단어까지도 연관성을 만들어 유사성을 높였으며, RNN의 한계를 극복했습니다.
- 또한, 이미지나 언어 번역에 폭넓게 쓰이고 있으며, GPT-3, BERT 등이 가장 관심을 많이 받고 있는 모델입니다.
Hugging Face 란?
- '허깅 페이스’는, 자연어 처리 스타트업이 개발한,
- 다양한 트랜스포머 모델(transformer.models)과 학습 스크립트(transformer.Trainer)를 제공하는 모듈입니다.
- 허깅 페이스를 사용한다면, 트랜스포머 모델 사용시 layer, model 등을 선언하거나 학습 스크립트를 구현해야하는 수고를 덜 수 있습니다.
- 참고 링크
- https://github.com/huggingface/transformers
- 일반적인 layer.py, model.py 는 transformer.models 로,
- train.py 는 transformer.Trainer 로 대응해서 사용할 수 있습니다.
transformers.models
- 트랜스포머 기반의 다양한 모델을 pytorch, tensorflow 로 각각 구현해놓은 모듈입니다.
- 각 모델에 맞는 tokenizer 도 구현되어 있습니다.
transformers.Trainer
- 딥러닝 학습 및 평가에 필요한 optimizer, weight updt, learning rate schedul, ckpt, tensorbord, evaluation 등을 수행하는 모듈입니다.
- Trainer.train 함수를 호출하면, 이 모든 과정이, 사용자가 원하는 arguments에 맞게 실행됩니다.
- pytorch lightning 과 비슷하게, 공통적으로 사용되는 학습 스크립트를 모듈화 하여 편하게 사용할 수 있다는 점이 장점입니다.
결론
- 기존 pytorch 학습 스크립트에서 반복되는 부분(optimizer, lr schedul, tensorbord, gpu 병렬 처리,..)을 따로 구현하지 않고, arguments 로 편하게 통제할 수 있습니다.
- 다양한 트랜스포머 기반 모델 구현체들을, 손쉽게 당겨 쓸 수 있습니다.
- high level로 모듈화 되어 있기 때문에, 커스터마이징이 비교적 어렵습니다.
- 커스터마이징은 소스코드를 참고하여 원하는 class를 상속 받아 overiding 하면 됩니다.
참고
반응형
'🌔Developers' 카테고리의 다른 글
셀레니움 및 크롬드라이버 115이상 버전오류 해결하기 (6) | 2024.09.30 |
---|---|
[Git] 깃허브 Token 발급받기 (0) | 2023.07.10 |
구로미톡 카톡테마 개인정보처리방침 (0) | 2023.04.14 |
[Dev] 트위터 추천 알고리즘 핵심 소스코드 분석 + 일론 머스크의 소스 공개 (0) | 2023.04.07 |
[Kotlin/Java] 안드로이드 스튜디오 프로젝트 폴더 파일 열기 (0) | 2023.02.22 |