Portfolio

Trustworthy  Dialogue  Framework


Project Overview

  이 프로젝트에서는 어텐션 연산의 효율성을 증진시켜 긴 시퀀스를 처리하는 문서요약 과제의 효율성을 제고시키기 위한 Sparse Attention에 대한 일련의 연구를 진행합니다.


  1.   Introduction

  • Description
  •   이 프로젝트에서는 Transformer의 핵심 연산인 Attention을 Sparse Attention으로 대체하며 효율성을 증대시키기 위한 실험을 진행합니다.

  • Objective
    • Sparse Attention으로 구성된 Transformer 모델 구현
    • Sparse Attention Transformer의 성능 및 효율성 증진 확인

  2.   Background

  • Full Attention
    • -
    • -
    • -
  • Sparse Attention
    • -
    • -
    • -

  3.   Architecture

  • Standard Transformer
  •   -

  • Sparse Transformer
  •   -

  4.   Experimental Setup

  • Data Setup
    • Dataset:   Conala
    • Dialogue Task:   Daily Dialogue
    • Summarization Task:   CNN Daily
    • Tokenizer:   AlBERT Tokenizer
    • Train Data Volumn:   50,000
    • Valid Data Volumn:   5,000
    • Test Data Volumn:   100
    • Vocab Size:   10,000
  • Model Setup
    • PLE Architecture:   AlBERT
    • PLE Name:   albert-v2
    • Input Dim:   10,000
    • Output Dim:   10,000
    • Embedding Dim:   512
    • Hidden Dim:   512
    • Model Params:   000
    • Model Size:   000
  • Training Setup
    • Num Epochs:   10
    • Batch Size:   32
    • Learning Rate:   5e-4
    • LR Scheduler:   pleature
    • Optimizer:   AdamW
    • Gradient Accumulation Steps:   4
    • Teacher Forcing Ratio:   0.5

  5.   Result

  • Result Table
  • Result Analysis
  •   -

  5.   Conclusion

-