지금까지 영어 자연어를 중심으로 배운 내용들은 한국어 데이터 분석에서도 충분히 활용 가능한데요. 한국어 데이터에 배운 내용들을 적용하려면 몇 가지 절차가 추가로 필요합니다. 그 중 하나가 띄어쓰기 교정입니다.
띄어쓰기 교정
한국어는 띄어쓰기를 잘 지키지 않아도 문장의 의미를 이해할 수 있습니다. 예를 들어, 아래와 같은 문장이 있다고 해볼게요.
- 나는오늘티스토리블로그에글을올렸다.
이해하는데 불편하긴 하지만 그래도 어떤 의미인지 파악은 할 수 있죠? 이런 특성 때문에 보통의 한국어 코퍼스에는 띄어쓰기가 잘 지켜지지 않는 경우가 많습니다.
그리고 이렇게 띄어쓰기가 어긋난 데이터로 분석을 진행하면 전처리의 토큰화 과정부터 오류가 발생할 수 있습니다. 이러한 오류의 가능성 때문에 자연어 전처리 단계를 시작하기 전에 띄어쓰기를 미리 교정하는게 필요합니다.
무료로 공개된 다양한 띄어쓰기 교정 도구들을 사용하면 쉽게 교정이 가능한데요. 해당 작업에 사용할 수 있는 도구 중 하나인 py-hanspell에 대하여 간단하게 소개하겠습니다.
py-hanspell 사용해보기
py-hanspell은 네이버 맞춤법 검사기를 이용한 파이썬용 한글 맞춤법 검사 라이브러리입니다. 띄어쓰기 교정을 포함한 여러 맞춤법 오류를 교정해 줍니다. 사용 방법은 간단합니다.
먼저, py-hanspell을 설치해야 합니다. 설치는 아래 명령어로 할 수 있습니다.
pip install py-hanspell
py-hanspell로 맞춤법 교정을 하려면 spell_checker가 필요합니다. 한번 불러와 볼게요.
from hanspell import spell_checker
spell_checker의 check() 함수에 파라미터로 교정하려는 코퍼스를 넣으면 띄어쓰기가 교정됩니다. 교정 후 코퍼스는 checked로 확인할 수 있습니다.
text = "아버지가방에들어가신다나는오늘코딩을했다"
hanspell_sent = spell_checker.check(text)
print(hanspell_sent.checked)
교정이 잘 되었네요.
py-hanspell에 대한 더 자세한 정보가 궁금하다면 링크를 참고해 주시고, 혹시 py-hanspell 이외의 띄어쓰기 교정 도구가 필요하신 분들은 아래 내용을 참고해 주세요.
- soyspacing: 형태소 분석, 품사 판별, 띄어쓰기 교정 모듈 등을 제공하는 soynlp의 띄어쓰기 교정 모듈입니다. 이 띄어쓰기 교정 모듈은 대량의 코퍼스에서 띄어쓰기 패턴을 학습한 모델을 생성 한 후, 학습한 모델을 통해 패턴대로 띄어쓰기를 교정합니다.
- PyKoSpacinb: 전희원님이 개발한 띄어쓰기 교정기입니다. 대용량 코퍼스를 학습하여 만들어진 띄어쓰기 딥러닝 모델로 뛰어난 성능을 가지고 있습니다.
'Data Analysis > Natural Language Processing(NLP)' 카테고리의 다른 글
형태소 분석 (0) | 2023.07.05 |
---|---|
py-hanspell 설치하기 (0) | 2023.07.05 |
VADER 감성 분석 실습 (0) | 2023.07.05 |
VADER (0) | 2023.07.05 |
SentiWordnet 감성 분석 실습 (0) | 2023.07.05 |