본문 바로가기

머신러닝4

[머신러닝] 미리 학습된 언어 모델과 트랜스포머 최근 BERT, GPT 같은 모델이 주목받게 된 이유는 성능 때문이다. 미리학습된 프리 트레인 모델이기 때문에 이 모델들을 사용하면 어떤 태스크든지 점수가 이전과 비교해 좋은 결과를 얻을 수 있다. 언어 모델 단어 시퀀스에 확률을 부여하는 모델, 단어 시퀀스를 입력 받아 해당 시퀀스가 얼마나 그럴듯한지 확률을 출력하는 모델이다. 잘 학습된 한국어 모델이 있다면 P(무모, 운전)보다는 P(난폭, 운전)의 확률이 크다. 순방향 언어 모델 - 이전 단어들이 주어졌을 때 다음 단어를 맞히기 - 문장 앞부터 뒤로 사람이 이해하는 순서대로 계산하는 모델 - 어제 카페라는 단어가 주어졌다면 그 다음에 올 단어들을 추려 '갔었어'를 리턴하는것이다 역방향 언어 모델 - 문장 뒤부터 앞으로 계산 - 많더라 단어가 주어졌을.. 2023. 2. 17.

[머신러닝] 자연어 처리: 문장을 작은 단위로 쪼개기 자연어 문장을 작은 단위인 토큰으로 분석하는 과정을 학습합니다. 토큰화: 문장을 토큰 시퀀스로 나누는 과정 토크나이저: 토큰화를 수행하는 프로그램 단어 단위 토큰화 - ex) 어제 카페 갔었어 -> 어제, 카페, 갔었어 - 어휘 집합의 크기가 매우 커질 수 있다 - 갔었어, 갔었는데요 같이 살짝만 바뀌어도 어휘 집합에 다 포함시켜야한다 문자 단위 토큰화 - ex) 어제 카페 갔었어 -> 어,제, 카,페, 갔,었,어 - 해당 언어의 모든 문자를 어휘 집합에 포함하므로 미등록 토큰 문제로부터 자유롭습니다 - 각 문자 토큰은 의미 있는 단위가 되기 어렵습니다 서브워드 단위 토큰화 - 단어와 문자 단위 토큰화의 중간에 있는 형태로 토큰화 - 대표적인 방법으로 바이트 페어 인코딩 바이트 페어 인코딩(BPE): 원.. 2023. 2. 14.

[머신러닝] 자연어 처리 유사도 분석 문장 유사도 분석: 단어와 단어 사이, 문장과 문장 사이에 얼마나 유사성이 있는지 벡터 유사도: Cosin Metric ※ 벡터: 크기와 방향이 있는 성분 벡터의 내적과 norm [1,1,0] [1,0,-1] 내적: 1*1 + 1*0 + 0*(-1) = 1 norm(제곱해서 합): root(1+1+0), root2 둘의 유사도 : 1=root2 * root2 * cos, cos=0.5 Python np linalg norm 함수 있다 예제 1. I love apple 2. Apple is delicious which I love too 3. I want a delicious food, but not an apple 4. Deep learning is difficult want, not, difficult.. 2023. 2. 13.

[머신러닝] 자연어 처리 개요 기계의 자연어 처리 영화 추천 프로젝트에 앞서 자연어 처리에 대해 학습해본다. 기계가 사람 말을 알아듣게 하기 위해서는 모델을 사용해야한다. 모델은 입력을 받아 어떤 처리를 수행하는 함수이다. 즉 사람 말을 알아듣는 모델을 만들면 되는것이다. 자연어 처리 모델에서 입력은 사람 말, 즉 자연어고 출력은 해당 입력이 특정 범주일 확률이다. 예를 들어 영화 리뷰에서 한 문장을 입력시키면 내부 계산 과정을 거처 해당 문장이 긍정일 확률, 부정일 확률을 출력한다. 요즘 가장 인기 있는 모델 종류는 딥러닝인데 그 가운데서도 BERT와 GPT 모델이 주목받고 있다. 딥러닝 모델 학습 딥러닝 자연어 처리 모델을 만들기 위해서는 먼저 각 문장에 긍정인지, 부정인지와 같은 '감성'이라는 레이블이 달려있는 학습 데이터를 준.. 2023. 2. 10.

이전 1 다음

728x90

티스토리툴바