Search

NLP(자연어 처리)

인간의 언어를 컴퓨터가 이해하고, 처리하며, 생성할 수 있도록 하는 인공지능의 한 분야입니다. 텍스트 분석, 기계 번역, 감정 분석, 질의응답 시스템, 챗봇 등 다양한 응용 분야를 포함

대표 NLP 모델들

1. 전통적인 통계 기반 모델

N-gram : 연속된 N개의 단어/문자 시퀀스를 기반으로 다음 단어/문자를 예측
Hidden Markov Models (HMM): 품사 태깅 등에 사용됨
TF-IDF (Term Frequency-Inverse Document Frequency): 문서에서 단어의 중요도를 계산

2. 초기 신경망 기반 모델

Word2Vec (2013): 단어를 벡터 공간에 매핑하는 단어 임베딩 모델
GloVe (2014): 전역 단어 벡터 표현을 학습하는 단어 임베딩 모델
RNN (Recurrent Neural Networks): 순차적 데이터 처리에 특화된 모델
LSTM/GRU: 장기 의존성 문제를 해결한 RNN의 변형

3. 트랜스포머 기반 모델

BERT (2018): 양방향 인코더 표현 트랜스포머, 문맥을 고려한 단어 임베딩
GPT 시리즈 (2018~): 자기회귀적 언어 모델링에 기반한 생성형 모델
T5 (2019): 텍스트-투-텍스트 모델로 다양한 NLP 태스크를 통합
ELECTRA (2020): 효율적인 사전 학습 방법을 도입한 모델

최근 각광받는 모델

1. 초대형 언어 모델(LLM)

규모의 확장: 수천억~수조 개의 매개변수를 가진 모델들(GPT-4, Claude, Llama 등)
학습 데이터: 인터넷에서 수집된 방대한 양의 텍스트 데이터 사용
다중 모달 능력: 텍스트뿐만 아니라 이미지, 오디오 등 다양한 형식의 입력 처리 가능
맥락 이해(In-context learning): 별도의 미세 조정 없이 몇 가지 예시만으로 새로운 작업 수행
추론 능력: 복잡한 추론 과정을 통해 문제 해결

2. 트랜스포머 아키텍처의 발전

주의 메커니즘(Attention mechanism): 입력 시퀀스의 모든 요소 간의 관계를 고려
병렬 처리: RNN과 달리 병렬 계산이 가능해 학습 및 추론 속도 개선
위치 인코딩: 순서 정보를 유지하면서 병렬 처리를 가능하게 함

3. 최신 트렌드

매개변수 효율성: MoE(Mixture of Experts)와 같은 기술로 계산 효율성 개선
RLHF(Reinforcement Learning from Human Feedback): 인간 피드백을 통한 강화학습으로 모델 정렬
도구 사용 능력(Tool use): 외부 도구와 API를 활용해 문제 해결 능력 확장
자기 지도 학습(Self-supervised learning): 레이블이 없는 대규모 데이터에서 효과적으로 학습