Text Processing(4) - 한장 요약

2019. 1. 23. 02:51Udacity Nanodegree/Natural Language Processing

Text Processing은 다음과 같은 절차로 이루어진다



  1. 마침표나 쉼표같은 punctuation 제거
  2. 문장을 단어 단위로 분할(Tokenization)
  3. Stop word 제거
  4. Stemming / Lemmatization - 한쪽만 쓰이는 것이 아닌 둘다 쓰는 경우가 보통이다. (Lemmatization → Stemming)