KoNLPy는 한국어 자연어 처리를 위한 파이썬 패키지입니다. 한국어 자연어 처리를 위한 여러 작업(문장 분리, 형태소 분석, 어간 추출, 의미역 추출, 개체명 인식 등)을 손쉽게 할 수 있도록 해 줍니다.
KoNLPy에 있는 대부분의 도구들은 Java를 기반으로 만들어졌습니다. 그래서, Python으로 자연어 처리를 할 때 KoNLPy를 사용하기 위해선 컴퓨터에 Java가 설치되어 있어야 하는데요. 맥북에는 기본적으로 Java가 설치되어 있기 때문에 그냥 pip install konlpy 커맨드만 실행해도 설치가 잘 됩니다.
하지만 m1 맥북의 경우에는 별도로 Java를 설치하고, 환경을 설정하는 과정이 필요합니다. 이번 튜토리얼을 통해 안내해 드릴게요.
KoNLPy 설치하기
JDK 설치하기
KoNLPy는 Java 기반의 자연어 처리 도구들을 사용할 수 있도록 해 주는 패키지이기 때문에, 기본적으로 Java를 사용할 수 있는 환경이 준비돼야 합니다. 이를 위해 JDK를 설치해 볼게요.
JDK는 Java Development Kit의 약자로, Java 개발을 위해 필요한 환경을 제공하는 소프트웨어입니다. JDK는 여러 종류가 있는데요, 저희는 Oracle에서 제공하는 JDK를 설치해 보겠습니다. 특별히, 최신 버전이 아니라 Java 8 버전을 설치해 볼게요. 최신 버전은 m1과의 호환이 잘 안되는 문제가 있기 때문에, 일부러 낮은 버전의 Java를 설치해 주겠습니다. 이 링크로 접속해서 설치 파일을 다운로드해 주세요.
낮은 버전을 다운로드하기 위한 링크이기 때문에, 가장 위에는 최신 버전에 대한 다운로드 링크와 안내가 나옵니다. 스크롤을 조금 내리시면 다음과 같이 Java 8 다운로드 화면이 나오는데요.
macOS 버전의 x64 DMG Installer를 누르면 Oracle 로그인 화면이 나옵니다. 간단한 절차로 회원가입을 하고, 로그인을 한 다음에 설치를 진행해 주세요.
환경 변수 설정하기
설치한 Java를 개발 환경에서 인식할 수 있도록 환경 변수를 설정해야 합니다. 환경 변수란 ‘실행되고 있는 프로그램이 참조할 수 있는, 현재 실행 환경에서 제공되는 변수들'을 의미하는데요. 아래 방법으로 환경 변수를 변경해 주겠습니다.
먼저, 터미널을 켜고 open ~/.zshrc을 입력해 주세요. 그러면 아래와 같은 환경 설정 창이 나오는데요.
이 곳에서 환경 변수를 추가해 줄 수 있습니다. 맨 아래에 다음과 같이 JAVA_HOME이라는 환경 변수를 추가해 줄게요.
export JAVA_HOME=/Library/Java/JavaVirtualMachines/zulu-15.jdk/Contents/Home
export PATH=${PATH}:$JAVA_HOME/bin:
이 상태로 환경변수 설정창을 저장(cmd+s)하고 종료하면 환경 변수 설정이 완료됩니다. 환경 변수 저장 후에 터미널에 source ~/.zshrc까지 입력해 주시면 환경 변수 설정이 완료됩니다.
KoNLPy 설치해보고 사용해보기
Java 설치와 환경 변수 설정이 완료됐으면, 다음으론 KoNLPy를 설치해 보겠습니다. 터미널에 아래 명령어를 입력해서 설치를 진행해 주세요.
pip install konlpy
여기까지 하면 모든 설치가 완료됩니다. 실제로 잘 동작하는지도 확인해 보기 위해 아주 간단한 형태소 분석을 진행해 볼게요. 주피터 노트북을 켜고 아래 명령어를 따라서 입력해 주세요.
import konlpy
from konlpy.tag import Kkma, Komoran, Okt, Hannanum
okt = Okt()
text = '코드잇에 오신 걸 환영합니다'
print(okt.morphs(text))
결과가 잘 확인되네요. KoNLPy가 잘 설치되었습니다.
출처 코드잇
'Data Analysis > Natural Language Processing(NLP)' 카테고리의 다른 글
양질의 데이터 확보하기 (0) | 2023.07.05 |
---|---|
KoNLPy 설치하기(Windows) (0) | 2023.07.05 |
형태소 분석 (0) | 2023.07.05 |
py-hanspell 설치하기 (0) | 2023.07.05 |
띄어쓰기 교정 (0) | 2023.07.05 |