본문 바로가기
머신러닝

[머신러닝] 미리 학습된 언어 모델과 트랜스포머

by whdgus928 2023. 2. 17.

최근 BERT, GPT 같은 모델이 주목받게 된 이유는 성능 때문이다. 미리학습된 프리 트레인 모델이기 때문에 이 모델들을 사용하면 어떤 태스크든지 점수가 이전과 비교해 좋은 결과를 얻을 수 있다.

 

언어 모델

단어 시퀀스에 확률을 부여하는 모델, 단어 시퀀스를 입력 받아 해당 시퀀스가 얼마나 그럴듯한지 확률을 출력하는 모델이다. 잘 학습된 한국어 모델이 있다면 P(무모, 운전)보다는 P(난폭, 운전)의 확률이 크다.

 

순방향 언어 모델

- 이전 단어들이 주어졌을 때 다음 단어를 맞히기

- 문장 앞부터 뒤로 사람이 이해하는 순서대로 계산하는 모델

- 어제 카페라는 단어가 주어졌다면 그 다음에 올 단어들을 추려 '갔었어'를 리턴하는것이다

 

역방향 언어 모델

- 문장 뒤부터 앞으로 계산
- 많더라 단어가 주어졌을 때 앞에 올 단어를 유추해 사람 많더라와 같이 만드는것이다

 

트랜스포머

구글이 제안한 시퀀스-투-시퀀스(특정 속성을 지닌 시퀀스를 다른 속성의 시퀀스로 변환하는 작업) 모델

시퀀스: 단어 같은 무언가의 나열

ex) 어제, 카페, 갔었어 -> I, went, to, the, cafe

 

인코더와 디코더

시퀀스투시퀀스 과제를 수행하는 모델은 인코더와 디코더 2개 파트로 구성됩니다.

인코더: 소스 시퀀스의 정보를 압축해 디코더로 보내는 역할

디코더: 인코더가 보내준 소스 시퀀스 정보를 받아서 타깃 시퀀스를 생성

반응형

댓글