자연어 전처리란?
데이터를 깔끔하게 전처리 하는건 데이터 분석에서 굉장히 중요한 단계인데요. 자연어 데이터를 사용할 때도 마찬가지입니다. 전처리를 어떻게 하냐에 따라 분석 결과가 크게 달라집니다.
먼저, 자연어 전처리가 필요한 예시를 한번 살펴볼게요.
● Oh, Hi helo. Nice to meetyou.
위 문장은 딱 보기에도 좋은 자연어 데이터라고 하기 어렵습니다. 먼저, 맞춤법과 띄어쓰기에 오류가 있네요. 이런 부분들은 올바른 표기로 변경해야 합니다.
● Oh, Hi hello. Nice to meet you.
그리고 문장의 의미를 표현하는데 크게 기여하지 않는 단어는 삭제하는게 좋습니다.
● Oh, Hi hello. Nice to meet you.
Hi와 hello처럼 비슷한 의미가 중첩되어 사용된 경우에도 둘 중 하나를 제거하는 게 좋습니다.
● Hi hello. Nice to meet you.
다음으로, 분석의 목적에 따라서는 컴퓨터가 자연어를 잘 이해할 수 있도록 하기 위해 각 단어에 숫자 인덱스를 부여하는게 필요하기도 합니다.
● {'Hi':0, 'Nice':1, 'to':2, 'meet':3, 'you':4}
이렇게 데이터를 정제해서 분석에 활용하기 좋은 형태로 다듬는 과정을 자연어 전처리라고 합니다.
자연어 전처리 과정들
자연어 전처리에는 다음과 같은 단계들이 있습니다.
● 토큰화: 자연어 데이터를 분석을 위한 작은 단위(토큰)로 분리합니다.
● 정제: 분석에 큰 의미가 없는 데이터들을 제거합니다.
● 정규화: 표현 방법이 다르지만 의미가 같은 단어들을 통합시킵니다.
● 정수 인코딩: 컴퓨터가 이해하기 쉽도록 자연어 데이터에 정수 인덱스를 부여합니다.
참고로 자연어 전처리 방법에는 정해진 표준이 없습니다. 분석의 목적과 활용할 자연어 데이터의 특성에 따라 적용해야 하는 전처리 단계가 다 다르고, 각 단계를 적용하는 순서에도 차이가 생길 수 있죠. 그리고 원하는 전처리의 결과물이 어떤 형태여야 하는지도 분석하는 상황에 따라 다 다릅니다.
그래서 기본적인 자연어 전처리 방법들에 대해서 익힌 다음에, 적용은 상황에 맞춰 융통성 있게 해야 합니다. 이번 포스팅은 각 전처리 단계들에 대해서 잘 설명해 드리는 것이 목적이니, 반드시 이 순서와 방법대로 자연어 처리를 해야하는 것은 아니라는 점 참고해 주세요.
'Data Analysis > Natural Language Processing(NLP)' 카테고리의 다른 글
정제(Cleaning) (2) | 2023.06.06 |
---|---|
단어 토큰화 실습 (0) | 2023.06.06 |
단어 토큰화(Word Tokenization) (0) | 2023.06.06 |
자연어 처리가 어려운 이유 (11) | 2023.06.05 |
자연어 처리란? (0) | 2023.06.05 |