형태소분석비교1 Tokenizer 비교 실험 (형태소 분석, word piece) * Environment : Ubuntu 18.04, Python 3.8.3 * Dataset : Korean Wikipedia 토크나이저의 방식은 크게 두가지 방식으로 볼 수 있다. Word piece 혹은 subword segmentation으로 한 단어를 세부 단어로 분리하는 방식과 형태소 분석 방식이 있다. 영어를 기반으로 발전되었기에 word piece 방식이 다양하고 속도측면에서 빠르지만, 한국어의 특성상 형태소 분석 방식이 좀 더 적합하기는 하다. 그래서 두가지 tokenizing 방식에 대해 (미루고 미루던) 비교 실험을 진행해보았다! 간략하게 정리하자면, 공개된 패키지 기반으로 각 방식마다 알려진 것은 표에 정리해두었다. Word piece Morphology BPE (ACL 2015, .. 2020. 8. 6. 이전 1 다음