최근 BERT, GPT 같은 모델이 주목받게 된 이유는 성능 때문이다. 미리학습된 프리 트레인 모델이기 때문에 이 모델들을 사용하면 어떤 태스크든지 점수가 이전과 비교해 좋은 결과를 얻을 수 있다.
언어 모델
단어 시퀀스에 확률을 부여하는 모델, 단어 시퀀스를 입력 받아 해당 시퀀스가 얼마나 그럴듯한지 확률을 출력하는 모델이다. 잘 학습된 한국어 모델이 있다면 P(무모, 운전)보다는 P(난폭, 운전)의 확률이 크다.
순방향 언어 모델
- 이전 단어들이 주어졌을 때 다음 단어를 맞히기
- 문장 앞부터 뒤로 사람이 이해하는 순서대로 계산하는 모델
- 어제 카페라는 단어가 주어졌다면 그 다음에 올 단어들을 추려 '갔었어'를 리턴하는것이다
역방향 언어 모델
- 문장 뒤부터 앞으로 계산
- 많더라 단어가 주어졌을 때 앞에 올 단어를 유추해 사람 많더라와 같이 만드는것이다
트랜스포머
구글이 제안한 시퀀스-투-시퀀스(특정 속성을 지닌 시퀀스를 다른 속성의 시퀀스로 변환하는 작업) 모델
시퀀스: 단어 같은 무언가의 나열
ex) 어제, 카페, 갔었어 -> I, went, to, the, cafe
인코더와 디코더
시퀀스투시퀀스 과제를 수행하는 모델은 인코더와 디코더 2개 파트로 구성됩니다.
인코더: 소스 시퀀스의 정보를 압축해 디코더로 보내는 역할
디코더: 인코더가 보내준 소스 시퀀스 정보를 받아서 타깃 시퀀스를 생성
반응형
'머신러닝' 카테고리의 다른 글
[머신러닝] 자연어 처리: 문장을 작은 단위로 쪼개기 (2) | 2023.02.14 |
---|---|
[머신러닝] 자연어 처리 유사도 분석 (0) | 2023.02.13 |
[머신러닝] 자연어 처리 개요 (0) | 2023.02.10 |
댓글