Hello world!

Natural Language Processing

Multi-task deep neural networks for natural language understanding

xyz1 2023. 6. 8. 13:37

Background

  • 2019년도에 발표된 논문
  • Multi-Task Learning
    • 이론 가정: 스키를 타던 사람은 타지 않았던 사람보다 스케이팅을 더 잘 탈 것이다.
    • 특정 task에 overfitting을 방지해주며, regularization 효과를 줄 것이다.
  • GLUE Benchmark
    • 인간의 언어 능력을 인공지능이 얼마나 따라왔는지 정량적 성능지표를 만든 것이 GLUE (General Language Understanding Evaluation) Benchmark라고 할 수 있다.
    • 여러가지 테스크(Textual Entailment, Sentiment Analysis, QA ..)들이 존재한다.

Keyword

  • Shared Layers
    • 여러 테스크들 학습시에 공유되는 layers
  • Task Specific layers
    • 여러 테스크별로 따로 존재하는 layers

Contribution

  • Multi-Task Learning 기법과 Language model pretraining 방식의 이점들을 합쳤다.
    • BERT-LARGE의 pretrained parameter를 가져와서 활용할 수 도 있다.
  • 2019년도 기준으로 GLUE tasks(9가지) 중에 8가지 task 에서 sota 갱신.

 

순서대로 본다면,

  1. input X(word sequence)는 embedding vectors로 반환
  2. Transformer Encoder는 self-attention을 통해 각 단어 별로 contextual information 파악하여 context embedding vectors를 반환
  3. 각 데이터는 테스크 목적에 맞게 학습이 진행된다

  • 모든 데이터 셋을 shuffling 하여 mini-batch 형태로 학습을 진행한다

Conclusion

  • GLUE benchmark의 9가지 테스크중 8가지는 sota(2019년도 기준)

  • 인간의 역량보다 뛰어났던 task도 존재(파란색 글씨)
  • Multi-task learning 접근법과 language model pre-training 접근법을 결합함으로써 Benchmark 데이터셋에 좋은 성능을 보였다.

Reference

https://gluebenchmark.com/leaderboard

https://velog.io/@raqoon886/GLUE

https://arxiv.org/pdf/1901.11504.pdf