KoNLPy는 한국어 자연어 처리를 위한 파이썬 패키지입니다. 한국어 자연어 처리를 위한 여러 작업(문장 분리, 형태소 분석, 어간 추출, 의미역 추출, 개체명 인식 등)을 손쉽게 할 수 있도록 해 줍니다.
KoNLPy에 있는 대부분의 도구들은 Java를 기반으로 만들어졌습니다. 그래서, Python으로 자연어 처리를 할 때 KoNLPy를 사용하기 위해선 컴퓨터에 Java가 설치되어 있어야 하고, Python에서 Java로 만들어진 클래스를 호출하기 위한 JPype1도 설치되어 있어야 합니다. 해당 과정을 한번 진행해 볼게요.
참고로, 저희는 아나콘다 환경에서 KoNLPy를 설치하는 과정을 살펴볼 건데요.
KoNLPy 설치하기
JDK 설치하기
KoNLPy는 Java 기반의 자연어 처리 도구들을 사용할 수 있도록 해 주는 패키지이기 때문에, 기본적으로 Java를 사용할 수 있는 환경이 준비돼야 합니다. 이를 위해 JDK를 설치해 볼게요.
JDK는 Java Development Kit의 약자로, Java 개발을 위해 필요한 환경을 제공하는 소프트웨어입니다. Oracle에서 제공하고 있으며, 링크를 통해 다운로드 받을 수 있습니다.
해당 페이지에서 Windows용 installer를 다운로드해 주세요.
다운로드된 설치 파일을 실행해서 JDK를 설치해 주세요. 참고로, 다음 단계에서 환경 변수를 설정할 때 JDK 설치 경로가 필요하니 잘 확인해 두시기 바랍니다.
환경 변수 설정
설치한 Java를 개발 환경에서 인식할 수 있도록 환경 변수를 설정해야 합니다. 환경 변수란 ‘실행되고 있는 프로그램이 참조할 수 있는, 현재 실행 환경에서 제공되는 변수들'을 의미하는데요. 아래의 방법으로 환경 변수를 변경해 주겠습니다.
먼저, ‘시스템 환경 변수 편집’을 검색해서 실행해 주세요.
그러면 아래와 같은 시스템 속성 창이 확인되는데요. 우측 하단에 ‘환경 변수’라는 버튼이 보이죠? 이 버튼을 클릭해 주세요.
여기에서 새로운 환경 변수를 시스템 변수에 추가해 주겠습니다. 아래 이미지에서 ‘시스템 변수’라는 부분에 있는 ‘새로 만들기’를 눌러 주세요.
누르면 아래와 같이 ‘변수 이름’과 ‘변수 값’을 적어주는 ‘시스템 변수 편집’창이 보이는데요. 변수 이름에는 JAVA_HOME을, 변수 값에 jvm.dll이라는 파일이 설치된 곳의 경로를 넣어 주시고 확인을 눌러주세요. 참고로 jvm.dll 파일은 Program Files > java > jdk-19 > bin > server 폴더에 있습니다.
사용자 변수 목록에 JAVA_HOME이 잘 추가된 것이 확인됩니다.
JPype 설치하기
다음으로 JPype를 설치해야 합니다. 앞서서 JDK를 설치한 게 KoNLPy가 Java 기반의 형태소 분석기들을 Python에서 사용할 수 있도록 하기 위해서라고 했죠? 그래서 개발 환경에 Java를 추가로 설치한 건데요. JPype는 설치한 Java 기반 라이브러리들을 실제로 Python에서 사용할 수 있게 해 줍니다.
설치는 간단합니다. 아나콘다 환경에서 아래 명령어를 실행해 주시기만 하면 됩니다.
conda install -c conda-forge jpype1
KoNLPy 설치하기
여기까지 설치가 됐다면 그 다음에는 KoNLPy를 설치하면 됩니다. KoNLPy는 아래 명령어로 설치할 수 있습니다.
pip install konlpy
설치가 잘 된 거 같은데요. 실제로 잘 동작하는지도 확인해 보기 위해 아주 간단한 형태소 분석을 진행해 볼게요. 주피터 노트북을 켜고 아래 명령어를 따라서 입력해 주세요.
import konlpy
from konlpy.tag import Kkma, Komoran, Okt, Hannanum
okt = Okt()
text = '코드잇에 오신 걸 환영합니다'
print(okt.morphs(text))
결과가 잘 확인되네요. KoNLPy가 잘 설치되었습니다.
출처 코드잇
'Data Analysis > Natural Language Processing(NLP)' 카테고리의 다른 글
네이버 자연어 키워드 분석 (1) | 2023.07.27 |
---|---|
양질의 데이터 확보하기 (0) | 2023.07.05 |
KoNLPy 설치하기(M1) (0) | 2023.07.05 |
형태소 분석 (0) | 2023.07.05 |
py-hanspell 설치하기 (0) | 2023.07.05 |