Multi-Lingual Translation

Project Objective

이 프로젝트에서는 다언어 번역 과제 해결에 효과적인 모델 디자인을 탐구합니다. 모델 디자인의 변인으로는 Unbalanced, Evolved Hybrid, KoBERT Fusion 모델들을 사용해 AI HUB의 한국어 번역 데이터셋에서의 성능을 통해 각 모델 별 효용성을 검증합니다.

1. Introduction
2. Background
3. Architecture
4. Experimental Setup
5. Results
6. Conclusion
7. Reference

1. Introduction

Description

기계 번역은 가장 유명한 자연어 생성과제중 하나입니다. 덕분에 단일 언어 번역 과제에서의 성능을 향상시키기 위한 모델 관점에서의, 학습법 관점에서의 다양한 연구들이 있습니다. 하지만, 다언어 번역을 위한 모델링 및 학습 방식에 대한 연구는 상대적으로 부족합니다. 이 프로젝트에서는 다언어 번역 모델에 대한 연구가 부족하다는 문제점을 직접 해결하려 합니다. 다언어 번역도 크게 세 가지로 나누어볼수 있습니다. 다언어를 이해하고, 하나의 언어로 변환하는 모델. 하나의 언어를 이해하고, 다언어로 표현할 수 있는 모델. 다언어를 이해하고, 다언어로 변환할 수 있는 모델. 각 모델은 인코더 혹은 디코더의 무게중심이 상이합니다. 첫번째는 인코더의 성능이, 두번째는 디코더의 성능이, 마지막은 인코더와 디코더가 모두 중요하게 작용합니다.

Objective
- 다언어 번역을 위한 깊은 이해 증진
- 인코더와 디코더의 디자인 밸런스 조정을 통해 목적에 맞는 모델 디자인 적합성 확인
- 다언어 모델링의 가능성을 다양한 방면에서 확인

2. Background

Multi Lingual Machine Translation

최근 다양한 LLM에서 다언어 번역 기능을 지원하며, 딥러닝 모델을 통한 다양한 번역 모델링의 성공적 가능성을 보여주고 있습니다. 하지만, Foundation 모델 단에서 다언어 기계 번역을 위한 연구는 상대적으로 부족합니다. 이 프로젝트에서는 ...

Prompt Training

학습 방법론에서는 T5에서의 Prompting 방식을 활용해서, 번역을 원하는 언어쌍에 따라 다른 시그널을 모델이 인식할 수 있도록 합니다.

3. Architecture

Unbalanced Transformer
- Encoder-Wide,

Evolved Hybrid Transformer
- 이전 Transformer Variants에서 좋은 성능을 보였던, Evolved Hybrid Transformer 모델 구조

KoBERT Fusion Transformer
- 한국어와 더불어 영어에 대한 사전학습이 되어있는 KoBERT라는 사전학습 인코더를 활용한 모델 구조

4. Experimental Setup

Data Setup
- Dataset: Conala
- Dialogue Task: Daily Dialogue
- Summarization Task: CNN Daily
- Tokenizer: AlBERT Tokenizer
- Train Data Volumn: 50,000
- Valid Data Volumn: 5,000
- Test Data Volumn: 100
- Vocab Size: 10,000

Model Setup
- PLE Architecture: AlBERT
- PLE Name: albert-v2
- Input Dim: 10,000
- Output Dim: 10,000
- Embedding Dim: 512
- Hidden Dim: 512
- Model Params: 000
- Model Size: 000

Training Setup
- Num Epochs: 10
- Batch Size: 32
- Learning Rate: 5e-4
- LR Scheduler: pleature
- Optimizer: AdamW
- Gradient Accumulation Steps: 4
- Teacher Forcing Ratio: 0.5

5. Result

En-Ko Translation

Model Type	Eval Score	Epoch Time	Avg GPU	Max GPU
Standard Transformer	2.86	0m 41s	0.20GB	0.85GB
Unbalanced Transformer	1.81	0m 41s	0.18GB	0.82GB
Evolved Hybrid Transformer	0.00	0m 40s	0.19GB	0.78GB
KoBERT Fusion Transformer	0.00	0m 40s	0.19GB	0.78GB

Ko-En Translation

Model Type	Eval Score	Epoch Time	Avg GPU	Max GPU
Standard Transformer	2.86	0m 41s	0.20GB	0.85GB
Unbalanced Transformer	1.81	0m 41s	0.18GB	0.82GB
Evolved Hybrid Transformer	0.00	0m 40s	0.19GB	0.78GB
KoBERT Fusion Transformer	0.00	0m 40s	0.19GB	0.78GB

Result Analysis

...

6. Conclusion

000 모델 구조의 Foundation Model로써의 효용성 확인

...

7. Reference

Attention Is All You Need
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Transformer Balance
Transformer Variants
Transformer Fusion

IntelliGEN Multi-Turn Dialogue Generation