Это частая проблема для многих сервисов OCR (оптического распознавания символов). Я работаю с подобной системой уже пару лет и могу сказать, что во многом точность распознавания зависит от качества предварительной обработки изображений. Например, если у вас плохо отсканирован документ, стоит попробовать улучшить сначала его качество с помощью фильтров и коррекции изображений. Также четкая разметка документов заранее позволяет повысить успешность распознавания. Если хотите наилучшего результата, то советую использовать этот сервис распознавания документов
https://smartengines.ru/intelligent-doc ... cognition/