자연어 전처리란? 데이터를 깔끔하게 전처리 하는건 데이터 분석에서 굉장히 중요한 단계인데요. 자연어 데이터를 사용할 때도 마찬가지입니다. 전처리를 어떻게 하냐에 따라 분석 결과가 크게 달라집니다. 먼저, 자연어 전처리가 필요한 예시를 한번 살펴볼게요. ● Oh, Hi helo. Nice to meetyou. 위 문장은 딱 보기에도 좋은 자연어 데이터라고 하기 어렵습니다. 먼저, 맞춤법과 띄어쓰기에 오류가 있네요. 이런 부분들은 올바른 표기로 변경해야 합니다. ● Oh, Hi hello. Nice to meet you. 그리고 문장의 의미를 표현하는데 크게 기여하지 않는 단어는 삭제하는게 좋습니다. ● Oh, Hi hello. Nice to meet you. Hi와 hello처럼 비슷한 의미가 중첩되어 사..
컴퓨터가 자연어 데이터를 처리하도록 하는건 쉽지 않은데요. 자연어가 가진 몇 가지 특성 때문에 그렇습니다. 본격적인 학습 전에 자연어 처리에 어떤 어려움이 있는지 간단하게 살펴보겠습니다. 같은 자연어가 두 개 이상의 의미를 가지는 경우 아래와 같이 형태가 같더라도 여러 의미를 가지는 단어가 있습니다. ● She had the lead in a new film. ● She found lead. 위 문장에서 공통으로 사용된 단어 lead는 '이끈다'와 '납'이라는 두 가지 의미를 가지는데요. 어떤 문장에서 어떤 의미로 사용되었는지가 표면적으로 나타나지 않기 때문에 문장의 정확한 의미를 모호하게 만듭니다. 만약에 lead를 이끈다라는 의미로만 알고 있다면 납이라는 뜻으로 사용된 문장의 의미는 제대로 해석하기 ..
자연어 처리란? 언어는 크게 인공어와 자연어로 나눌 수 있습니다. 인공어는 정보 전달을 위해 인위적으로 만들어진 언어입니다. 대표적으로 사람과 컴퓨터의 소통을 위해 만들어진 프로그래밍 언어가 있습니다. 반대로 사람들의 일상 생활에서 자연 발생된 언어를 자연어라고 합니다. 한국어, 영어, 중국어 등 사람들이 일상에서 사용하는 모든 언어는 자연어에 속합니다. 자연어에는 다양한 정보들이 담겨있습니다. 그래서 잘 활용하면 재밌는 분석을 할 수 있는데요. 하지만 컴퓨터가 자연어의 의미를 제대로 파악하도록 하는건 쉽지 않습니다. 컴퓨터는 인공어로만 소통하기 때문에 자연어를 다루려면 별도의 처리 과정이 필요합니다. 그 과정을 자연어 처리(NLP; Natural Language Processing)라고 합니다. 자연어..