최근 자연어 처리 분야에서 사용되는 여러 패키지들은 자연어 전처리 과정부터 모델 적용, 후처리까지 모든 기능을 한 번에 제공하는 경우가 많습니다. 그런 패키지들을 사용할 때에는 코퍼스를 단어 토큰으로 나눈 형태가 아니라, 토큰화되기 전 코퍼스 원래의 형태로 활용해야 할 수 있습니다.
그래서 경우에 따라 전처리한 토큰들을 하나의 코퍼스로 통합하는 과정이 필요한데요. 이번 포스팅을 통해 그 과정을 소개해 드릴게요.
먼저 자연어 전처리 적용 II 레슨에서 정제 작업을 완료했던 데이터 df['cleaned_tokens']를 확인해 볼게요.
df[['cleaned_tokens']]
각 로우에는 코퍼스를 구성하는 단어 토큰들이 저장된 리스트가 값으로 들어있네요. 해당 리스트들을 토큰 구분이 없는 하나의 코퍼스로 통합해 보겠습니다.
먼저, 토큰들을 통합하는 combine() 함수를 만들어 볼게요. 참고로 리스트의 요소들을 하나로 합칠 때에는 join() 함수를 '구분자'.join(리스트) 형태로 사용합니다. 각 단어 토큰들을 띄어쓰기로 구분하기 위해 구분자를 공백(' ')으로 하겠습니다.
def combine(sentence):
return ' '.join(sentence)
위에서 살펴본 df['cleaned_tokens']에 combine() 함수를 적용해 볼게요.
df['combined_corpus'] = df['cleaned_tokens'].apply(combine)
df[['combined_corpus']]
단어 토큰들을 구분 짓던 콤마가 사라지고 원하는 형태로 잘 통합됐습니다.
'Data Analysis > Natural Language Processing(NLP)' 카테고리의 다른 글
정수 인코딩 실습 (0) | 2023.06.15 |
---|---|
정수 인코딩(Integer Encoding) (0) | 2023.06.15 |
자연어 전처리 적용 II (0) | 2023.06.14 |
표제어 추출 실습 (0) | 2023.06.10 |
표제어 추출(Lemmatization) (0) | 2023.06.10 |