텍스트를 머신러닝 알고리즘에 사용하기 위해선 수치로 변환하는 과정이 필요하다. 수치로 나타내는 방법은 여러가지가 있는데 해당 포스팅에선 4가지 표현을 소개하고자 한다. ▶ 원-핫 표현 원핫 표현은 문장을 단어 단위로 나눈 토큰들을 어휘 사전으로 등록하고, 문장에 등장하는 단어는 1로 문장에 등장하지 않는 단어는 0으로 설정하는 방식이다. 다음과 같은 corpus가 있다고 해보자. 해당 코퍼스에서 만들어지는 어휘사전의 개수는 time, flies, like, an, a, arrow, banana, fruite로 8개이다. 여기서 'Time flies like' 코퍼스를 원핫벡터로 표현하면 다음과 같다. time flies like an a arrow banana fruite 1 0 0 0 0 0 0 0 0..