Portfolio

Trustworthy Dialogue Framework

Project Overview

이 프로젝트에서는 어텐션 연산의 효율성을 증진시켜 긴 시퀀스를 처리하는 문서요약 과제의 효율성을 제고시키기 위한 Sparse Attention에 대한 일련의 연구를 진행합니다.

1. Introduction
2. Background
3. Framework
4. Experimental Setup
5. Results
6. Conclusion
7. Reference

1. Introduction

Description

이 프로젝트에서는 Transformer의 핵심 연산인 Attention을 Sparse Attention으로 대체하며 효율성을 증대시키기 위한 실험을 진행합니다.

Objective
- Sparse Attention으로 구성된 Transformer 모델 구현
- Sparse Attention Transformer의 성능 및 효율성 증진 확인

2. Background

Full Attention
- -
- -
- -

Sparse Attention
- -
- -
- -

3. Architecture

Standard Transformer

-

Sparse Transformer

-

4. Experimental Setup

Data Setup
- Dataset: Conala
- Dialogue Task: Daily Dialogue
- Summarization Task: CNN Daily
- Tokenizer: AlBERT Tokenizer
- Train Data Volumn: 50,000
- Valid Data Volumn: 5,000
- Test Data Volumn: 100
- Vocab Size: 10,000

Model Setup
- PLE Architecture: AlBERT
- PLE Name: albert-v2
- Input Dim: 10,000
- Output Dim: 10,000
- Embedding Dim: 512
- Hidden Dim: 512
- Model Params: 000
- Model Size: 000

Training Setup
- Num Epochs: 10
- Batch Size: 32
- Learning Rate: 5e-4
- LR Scheduler: pleature
- Optimizer: AdamW
- Gradient Accumulation Steps: 4
- Teacher Forcing Ratio: 0.5

5. Result

Result Table

Result Analysis

-

5. Conclusion

-

Characteristic Framework Transformer Balance