품질이 좋은 데이터를 충분한 양으로 확보하는 것은 어려운데요. 한국어 데이터를 확보하는 것은 특히 더 어렵습니다. 거기에는 몇 가지 이유가 있는데요.
먼저 한국어는 영어, 중국어, 스페인어 등과 같은 다른 언어에 비해 한국어를 구사하는 사람이 많지 않아 리소스 자체가 적습니다. 사용하는 사람이 적기 때문에 당연하게도 해당 언어로 된 좋은 데이터가 많이 만들어지지 않은 것입니다.
또 다른 이유는 한국어의 독특한 특징들 때문입니다. 앞선 레슨들에서 한국어 자연어 처리를 더 어렵게 만드는 특징들을 알아보았습니다. 한국어의 복잡하고 어려운 특징은 전처리 작업을 까다롭게 만들기 때문에 품질이 좋은 데이터를 생산하기가 쉽지 않습니다.
이러한 어려움에도 불구하고 최근 한국어 자연어 처리에 대한 연구가 활발해지면서, 여러 기업이 양질의 한국어 데이터를 만들어 공개하고 있습니다. 몇 군데를 소개해 드릴테니, 참고해서 한국어 자연어 전처리도 한번 연습해 보시기 바랍니다.
KorQuAD
KorQuAD(Korean Questions and Answers Dataset)는 2018년에 LG CNS에서 구축하여 공개한 한국어 질의응답 데이터셋입니다. 위키피디아와 전통적인 인쇄 및 전자 출판물 자료를 기반으로 질문과 그에 대한 답 형식의 자연어 데이터 세트가 구성되어 있는데요. 현재 약 10만 건의 데이터가 있으며, 버전이 업데이트 될 때마다 질의 응답 쌍이 계속 추가되고 있습니다(KorQuAD 2.0은 KorQuAD 1.0에서 질의응답 쌍 2만개가 더 추가되었습니다).
KorQuAD 데이터셋은 질의응답 모델의 평가를 위해 많이 사용되는데요. 해당 데이터가 궁금하신 분들은 아래 링크를 참고해주세요.
- KorQuAD 데이터 바로가기
네이버 영화 리뷰
네이버 영화 페이지의 영화 리뷰들을 평점과 함께 모아둔 데이터입니다. 감성 지수에 대한 레이블이 함께 기록되어 있어서 한국어 감성 분석을 연습해 보기 좋습니다. 데이터는 20만 개가 있으며 10만 개가 긍정, 나머지 10만 개가 부정 데이터입니다.
해당 데이터가 궁금하신 분들은 아래 링크를 참고해주세요.
- 네이버 영화 리뷰 데이터 바로가기
한국어 위키 백과
한국어로 작성된 위키 백과입니다. 위키 백과는 누구나 자유롭게 수정하고 편집할 수 있는 인터넷 백과사전이며, 현재 한국어 코퍼스 중 가장 많은 양의 데이터를 가지고 있습니다
하지만 위키 백과는 자연어 데이터를 쉽게 다운로드 받을 수 있도록 하지 않고 있는데요. 따라서 해당 서비스에서 분석에 활용할 자연어 데이터를 확보하기 위해서는 크롤링을 해야 합니다.
한국어 위키 백과는 아래 링크로 접속할 수 있습니다.
- 한국어 위키 백과 바로가기
'Data Analysis > Natural Language Processing(NLP)' 카테고리의 다른 글
네이버 자연어 키워드 분석 (1) | 2023.07.27 |
---|---|
KoNLPy 설치하기(Windows) (0) | 2023.07.05 |
KoNLPy 설치하기(M1) (0) | 2023.07.05 |
형태소 분석 (0) | 2023.07.05 |
py-hanspell 설치하기 (0) | 2023.07.05 |