AI

[NLP] 워드 임베딩은 왜 기계 번역에 불리한가?

Alex Han 2024. 7. 22. 22:03
반응형

 

 

 

 

먼저 Word embedding의 특성을 떠올려보자.


워드 임베딩의 강점

 

1. 의미적 유사성 반영:

Word Embedding은 단어를 벡터 공간에 매핑하여, 의미적으로 유사한 단어들이 가까운 위치에 배치되도록 학습됩니다. 예를 들어, “king”과 “queen”, “Paris”와 “France” 같은 단어 쌍은 유사한 의미 관계를 가지기 때문에 벡터 공간에서도 가까운 위치에 있게 됩니다.

 

2. 유사 단어 탐색:

특정 단어에 대해 유사한 의미를 가진 다른 단어들을 쉽게 찾을 수 있습니다. 이는 시소러스 구축이나 어휘 확장 작업에 매우 유용합니다.

 

3. 단어 관계 학습:

Word Embedding은 단어 간의 다양한 관계를 학습할 수 있습니다. 예를 들어, “man”과 “woman”의 관계는 “king”과 “queen”의 관계와 유사하다는 것을 벡터 연산으로 나타낼 수 있습니다. 이를 통해 단어 간의 복잡한 의미 관계를 효과적으로 모델링할 수 있습니다.


 

 

 

 

 

이러한 강점을 가짐에도 불구하고 기계 번역에는 엄청나게 유리하지 않다고 배웠다. 그 이유는 무엇일까?


기계 번역에서 워드 임베딩의 한계

 

1. 단어의 다의성 처리 문제:

앞서 언급했듯이, Word Embedding은 각 단어에 고정된 벡터를 할당합니다. 그러나 많은 단어들이 문맥에 따라 여러 의미를 가질 수 있는데, 고정된 벡터는 이러한 다의성을 잘 반영하지 못합니다. 기계 번역에서는 문맥에 맞는 단어의 의미를 정확히 선택하는 것이 중요한데, Word Embedding은 이 점에서 한계가 있습니다.

예를 들어, “bank”라는 단어는 “금융 기관”과 “강둑”이라는 두 가지 다른 의미를 가질 수 있지만, Word Embedding에서는 이 두 의미를 구분하지 않고 하나의 벡터로만 표현됩니다. 따라서, 문맥에 따라 단어의 의미가 달라져야 하는 상황에서 고정된 벡터는 정확한 의미를 반영하지 못합니다. 이는 기계 번역에서 중요한 문제가 됩니다. 문맥에 따라 적절한 의미를 선택해야 하는 번역 작업에서, 단어의 고정된 벡터는 이러한 유연성을 제공하지 못합니다.

 

2. 구문적 정보 부족:

Word Embedding은 단어 간의 유사성에 집중하며, 문장의 구조적 정보를 충분히 반영하지 않습니다. 기계 번역에서는 문장의 문법적 구조와 단어 간의 구문적 관계를 이해하고 번역하는 것이 매우 중요합니다. Word Embedding만으로는 이러한 복잡한 구조를 제대로 처리하기 어렵습니다.

“The cat sat on the mat”과 “The mat sat on the cat”은 단어는 동일하지만, 의미는 완전히 다릅니다. Word Embedding은 단어의 유사성만을 반영하기 때문에, 이러한 문장 구조의 차이를 충분히 반영하지 못합니다.

 

3. 비대칭 정보 문제:

번역 과정에서 원문 언어와 목표 언어 간의 정보가 비대칭적일 수 있습니다. 예를 들어, 영어의 한 단어가 다른 언어에서는 여러 단어로 번역될 수 있습니다. Word Embedding은 이러한 비대칭성을 처리하는 데 한계가 있습니다.


 

 

 

즉, 워드 임베딩은 특정 단어들 사이에서 얼마나 많이 긴밀하게 사용되는지를 분석하여 단어들간의 유사성을 학습한다. 단어들 사이에서 쓰임에 관한 연관성을 학습할 뿐, 본연의 의미로 번역을 하는 것에는 한계가 보인다. 이를 보완하여 대표적으로 Transformer 기반 모델들이 문맥 정보를 반영하고 단어의 다의성을 효과적으로 처리할 수 있어, 기계 번역을 담당한다. 따라서, Word Embedding의 장점은 유지하면서도 그 한계를 보완한 기술들이 기계 번역에서 주로 사용된다.

반응형