Linguistic tuple segmentation in n-gram-based statistical machine translation

Adrià de Gispert, José B. Mariño

Published: 2006, Last Modified: 13 Dec 2024INTERSPEECH 2006EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Ngram-based Statistical Machine Translation relies on a standard Ngram language model of tuples to estimate the translation process. In training, this translation model requires a segmentation of each parallel sentence, which involves taking a hard decision on tuple segmentation when a word is not linked during word alignment. This is especially critical when this word appears in the target language, as this hard decision is compulsory.