* 코드잇의 자연어 처리 강의를 참고하여 작성함
1. 자연어처리 (Natural Language Processing)
자연어처리 (Natural Language Processing)은 컴퓨터가 인간이 사용하는 자연어를 이해하고 처리하는 분야이다.
언어는 인공어(프로그래밍 언어 등) 와 자연어(한글, 영어, 불어 등) 로 분류 가능하며, 사람이 쓰는 일상어는 모두 자연어라 볼 수 있다.
자연어처리는 언어의 다양한 차원에서 이루어질 수 있고 주요 단계는 아래와 같다.
- 어휘 분석 (Lexical Analysis) : 텍스트를 문장을 구성하는 토큰(token)이라는 최소 의미단위로 구분하여 분석.
- 구문 분석 (Syntactic Analysis) : 텍스트를 구문 단위로 구분하여 문장의 구조를 분석. 각 토큰의 역할, 문장의 문법적 구조 파악 등을 포함.
- 의미 분석 (Semantic Analysis) : 텍스트에서 문장 전체의 의미를 이해하고 해석하여 분석. 단어와 구절의 의미, 문맥을 고려하여 문장이 전체적으로 전달하는 의미를 파악하는 데에 중점둠.
- 화용 분석 (Pragmatic Analysis) : 텍스트가 현실에서 사용되는 방식을 이해하고 분석. 텍스트 발화자의 의도와 상황을 고려하여, 문장이 어떤 의도로 사용되고 활용되는지를 파악하는 데에 중점둠.
- 통합 분석 (Disclosure Integration) : 앞선 모든 단계의 텍스트 분석을 통합하여 텍스트의 전체적인 의도와 의미를 파악하는 분석.
2. 자연어 이해(NLU)와 자연어 생성(NLG)
자연어처리의 주요 기술로 자연어 이해와 자연어 생성이 있다.
1) 자연어이해 (Natural Language Understanding) : 컴퓨터가 주어진 자연어 문장의 의미를 이해하는 기술을 말한다. 이는 텍스트 분류, 정보추출, 의미분석 등의 작업을 포함한다.
2) 자연어생성 (Natural Language Generation) : 컴퓨터가 주어진 정보로부터 자연어로 문장이나 텍스트를 생성하는 기술을 말한다. 이는 텍스트를 새로 생성하는 요약, 번역, 질의응답, 대화 시스템 등의 작업을 포함한다.
3. 규칙 (Rule-based Approach) 과 통계 (Statistical Approach)적 방법
자연어를 처리하는 주요 방법으로 크게 두가지, 규칙 기반 접근 방법과 통계 기반 접근 방법이 있다.
1) 규칙 기반 접근 (Rule-based Approach) : 정해진 규칙을 통해 자연어를 처리하는 것으로, 일정 패턴을 가지는 자연어에 대해서 안정적으로 좋은 성능을 낼 수 있는 방법
2. 통계 기반 접근 (Statistical Approach) : == ML Approach. 자연어에 정해진 규칙이 없는 경우가 많다는 점에서 출발, 일괄 패턴 파악이 어려운 경우에도 유의미한 정보를 찾을 수 있도록 확률적으로 접근하는 방법.
ex. 문서의 가장 중요한 핵심 키워드 추출 - 자주 등장하는 단어, 해당 문서에서의 사용 빈도 등을 고려하여 통계적으로 중요도를 파악
* 참고 문헌
- https://www.geeksforgeeks.org/natural-language-processing-nlp-tutorial/
- https://medium.com/friendly-data/machine-learning-vs-rule-based-systems-in-nlp-5476de53c3b8
'NLP | LLM' 카테고리의 다른 글
[주가예측] Lag-Llama Transformers (0) | 2024.06.21 |
---|---|
시계열 SOTA (0) | 2024.06.07 |
[세미나] VESSL AI - 2024 MLOps Now — LLM in Production (0) | 2024.05.16 |