Text Processing(2) - 데이터 전처리(Text Preprocessing)
Text Normalization텍스트의 복잡도를 낮추기 위한 작업영어에서는 문장의 첫 글자는 대문자이다스타일 이슈때문에 단어를 모두 대문자로 쓰는 경우도 있다사람 입장에서는 이러한 차이를 두는 것이 충분히 근거가 있지만 기계가 단어를 보고 해석하기에는 이러한 차이를 두는 것은 의미가 없다.따라서 텍스트 처리를 위해 보통 모든 문자를 소문자로 두곤 한다.NLP의 목적에 따라 punctuation을 없애버리기도 한다. 마침표, 쉼표, 느낌표 등등이러한 방법은 문서 분류(document classification), 군집화(clustering)와 같이 세부적인 디테일이 그렇게 중요하지 않은 경우에 사용한다정규 표현식을 다음과 같이 사용한다. text = re.sub(r"[^a-zA-Z0-9]", " ", t..
2019. 1. 23. 00:24