반응형 바이트페어인코딩1 [머신러닝] 자연어 처리: 문장을 작은 단위로 쪼개기 자연어 문장을 작은 단위인 토큰으로 분석하는 과정을 학습합니다. 토큰화: 문장을 토큰 시퀀스로 나누는 과정 토크나이저: 토큰화를 수행하는 프로그램 단어 단위 토큰화 - ex) 어제 카페 갔었어 -> 어제, 카페, 갔었어 - 어휘 집합의 크기가 매우 커질 수 있다 - 갔었어, 갔었는데요 같이 살짝만 바뀌어도 어휘 집합에 다 포함시켜야한다 문자 단위 토큰화 - ex) 어제 카페 갔었어 -> 어,제, 카,페, 갔,었,어 - 해당 언어의 모든 문자를 어휘 집합에 포함하므로 미등록 토큰 문제로부터 자유롭습니다 - 각 문자 토큰은 의미 있는 단위가 되기 어렵습니다 서브워드 단위 토큰화 - 단어와 문자 단위 토큰화의 중간에 있는 형태로 토큰화 - 대표적인 방법으로 바이트 페어 인코딩 바이트 페어 인코딩(BPE): 원.. 2023. 2. 14. 이전 1 다음 728x90