Project Overview
이 프로젝트에서는 어텐션 연산의 효율성을 증진시켜 긴 시퀀스를 처리하는 문서요약 과제의 효율성을 제고시키기 위한 Sparse Attention에 대한 일련의 연구를 진행합니다.
  1.   Introduction
- Description
- Objective
- Sparse Attention으로 구성된 Transformer 모델 구현
- Sparse Attention Transformer의 성능 및 효율성 증진 확인
이 프로젝트에서는 Transformer의 핵심 연산인 Attention을 Sparse Attention으로 대체하며 효율성을 증대시키기 위한 실험을 진행합니다.
  2.   Background
- Full Attention
- -
- -
- -
- Sparse Attention
- -
- -
- -
  3.   Architecture
- Standard Transformer
- Sparse Transformer
-
-
  4.   Experimental Setup
- Data Setup
- Dataset: Conala
- Dialogue Task: Daily Dialogue
- Summarization Task: CNN Daily
- Tokenizer: AlBERT Tokenizer
- Train Data Volumn: 50,000
- Valid Data Volumn: 5,000
- Test Data Volumn: 100
- Vocab Size: 10,000
- Model Setup
- PLE Architecture: AlBERT
- PLE Name: albert-v2
- Input Dim: 10,000
- Output Dim: 10,000
- Embedding Dim: 512
- Hidden Dim: 512
- Model Params: 000
- Model Size: 000
- Training Setup
- Num Epochs: 10
- Batch Size: 32
- Learning Rate: 5e-4
- LR Scheduler: pleature
- Optimizer: AdamW
- Gradient Accumulation Steps: 4
- Teacher Forcing Ratio: 0.5
  5.   Result
- Result Table
- Result Analysis
-
  5.   Conclusion
-