[NLP] 자연어처리 기본 개념

NLP | LLM

[NLP] 자연어처리 기본 개념

mlslly 2024. 5. 1. 23:30

* 코드잇의 자연어 처리 강의를 참고하여 작성함

1. 자연어처리 (Natural Language Processing)

자연어처리 (Natural Language Processing)은 컴퓨터가 인간이 사용하는 자연어를 이해하고 처리하는 분야이다.

언어는 인공어(프로그래밍 언어 등) 와 자연어(한글, 영어, 불어 등) 로 분류 가능하며, 사람이 쓰는 일상어는 모두 자연어라 볼 수 있다.

자연어처리는 언어의 다양한 차원에서 이루어질 수 있고 주요 단계는 아래와 같다.

어휘 분석 (Lexical Analysis) : 텍스트를 문장을 구성하는 토큰(token)이라는 최소 의미단위로 구분하여 분석.
구문 분석 (Syntactic Analysis) : 텍스트를 구문 단위로 구분하여 문장의 구조를 분석. 각 토큰의 역할, 문장의 문법적 구조 파악 등을 포함.
의미 분석 (Semantic Analysis) : 텍스트에서 문장 전체의 의미를 이해하고 해석하여 분석. 단어와 구절의 의미, 문맥을 고려하여 문장이 전체적으로 전달하는 의미를 파악하는 데에 중점둠.
화용 분석 (Pragmatic Analysis) : 텍스트가 현실에서 사용되는 방식을 이해하고 분석. 텍스트 발화자의 의도와 상황을 고려하여, 문장이 어떤 의도로 사용되고 활용되는지를 파악하는 데에 중점둠.
통합 분석 (Disclosure Integration) : 앞선 모든 단계의 텍스트 분석을 통합하여 텍스트의 전체적인 의도와 의미를 파악하는 분석.

2. 자연어 이해(NLU)와 자연어 생성(NLG)

자연어처리의 주요 기술로 자연어 이해와 자연어 생성이 있다.

1) 자연어이해 (Natural Language Understanding) : 컴퓨터가 주어진 자연어 문장의 의미를 이해하는 기술을 말한다. 이는 텍스트 분류, 정보추출, 의미분석 등의 작업을 포함한다.

2) 자연어생성 (Natural Language Generation) : 컴퓨터가 주어진 정보로부터 자연어로 문장이나 텍스트를 생성하는 기술을 말한다. 이는 텍스트를 새로 생성하는 요약, 번역, 질의응답, 대화 시스템 등의 작업을 포함한다.

3. 규칙 (Rule-based Approach) 과 통계 (Statistical Approach)적 방법

자연어를 처리하는 주요 방법으로 크게 두가지, 규칙 기반 접근 방법과 통계 기반 접근 방법이 있다.

1) 규칙 기반 접근 (Rule-based Approach) : 정해진 규칙을 통해 자연어를 처리하는 것으로, 일정 패턴을 가지는 자연어에 대해서 안정적으로 좋은 성능을 낼 수 있는 방법

2. 통계 기반 접근 (Statistical Approach) : == ML Approach. 자연어에 정해진 규칙이 없는 경우가 많다는 점에서 출발, 일괄 패턴 파악이 어려운 경우에도 유의미한 정보를 찾을 수 있도록 확률적으로 접근하는 방법.

ex. 문서의 가장 중요한 핵심 키워드 추출 - 자주 등장하는 단어, 해당 문서에서의 사용 빈도 등을 고려하여 통계적으로 중요도를 파악

* 참고 문헌

- https://www.geeksforgeeks.org/natural-language-processing-nlp-tutorial/

Natural Language Processing (NLP) Tutorial - GeeksforGeeks

A Computer Science portal for geeks. It contains well written, well thought and well explained computer science and programming articles, quizzes and practice/competitive programming/company interview Questions.

www.geeksforgeeks.org

- https://medium.com/friendly-data/machine-learning-vs-rule-based-systems-in-nlp-5476de53c3b8

Machine Learning vs. Rule Based Systems in NLP

One of the most exciting applications of NLP technology is enabling non-technical users to interact with large databases using natural…

medium.com

'NLP | LLM' 카테고리의 다른 글

[주가예측] Lag-Llama Transformers (0)	2024.06.21
시계열 SOTA (0)	2024.06.07
[세미나] VESSL AI - 2024 MLOps Now — LLM in Production (0)	2024.05.16

현재글[NLP] 자연어처리 기본 개념

Tech blog