Как отредактировать текст в отсканированном PDF
Все мы так или иначе работаем с документами. Одни занимаются этим весь день в офисе, другие «от случая к случаю» или для учебы. Чаще всего обмен документацией осуществляется в формате PDF, так как он удобен в использовании и экономичен в потреблении трафика. Но зачастую присланный файл PDF оказывается собран из нескольких отсканированных изображений. Что же делать, если вам нужно внести туда свои корректировки? Без редактора PDF не обойтись.

Отредактировать PDF можно даже из отсканированного файла
Можно, конечно, перепечатать текст, однако этот способ актуален разве что для одной-двух страниц документа. Да и все равно он очень трудозатратный, не говоря о потере большого количества времени. А уж если мы имеем дело с файлом на 50-100 страниц, перепечатывать его придется целую вечность. На помощь приходят сторонние решения для Mac и Windows, которые позволяют отредактировать файл, даже если в вашем распоряжении оказался PDF в графическом формате.
Если интересующий вас файл содержит отсканированный текст, в который нужно внести правки, для начала этот текст необходимо распознать. Для этого можно загрузить приложение PDFelement 7 из Mac App Store или с сайта разработчика. Нас интересует функция OCR — оптическое распознавание символов.

Запустить оптическое распознавание можно в один клик
Вы открываете необходимый файл и в разделе «Инструменты» в боковом меню нажимаете на кнопку «Выполнить OCR». Кстати, распознавание в программе осуществляется в большом количестве языков, в том числе в русском. Стоит отметить, что нас приятно удивило качество то, как эта программа смогла распознать текст.

По времени процесс занимает около минуты — все зависит от размера файла
После выполнения распознавания текста документ сохранится в папке, в которой у вас по умолчанию хранятся документы. Чтобы продолжить работу с текстом, открываем сохраненный файл в PDFelement 7 и приступаем к правкам. С документом вы можете делать все, что угодно: править текст, добавлять пометки и примечания, вставлять рисунки, выделять некоторые участки, удалять страницы, вставлять колонтитулы и многое другое.

Документ успешно распознан, можно его редактировать

Есть множество возможностей продвинутого редактирования
Удобно, что полученный файл можно экспортировать в один из популярных форматов (не только PDF, но и MS Office, текстовые документы или графические файлы). Также прямо из программы можно отправить плоды своих трудов по электронной почте. Если вы хотите запретить редактировать получившийся PDF-файл, при желании можно установить на него защиту — например, паролем или с помощью вотермарки.
OCR — не единственная полезная функция данного приложения. PDFelement 7 также поддерживает автоматическое распознавание полей формы и извлечение больших объемов данных. Все это помогает повысить скорость обработки данных и работать с PDF, как профессионал.

Автоматическое распознавание полей форм пригодится во время работы с Excel
И это все помимо продвинутого создания PDF с нуля — от добавления аннотаций в виде геометрических фигур, линий или стрелок до подписей и объединения нескольких файлов в формате PDF в один.

Защитить документ можно несколькими способами
Чтобы ознакомиться с базовой функциональностью приложения PDFelement, пробную версию для Windows и Mac вы можете бесплатно загрузить по ссылкам ниже. Если вы поняли, что эта программа вам жизненно необходима, можно приобрести полную версию, в которой доступно оптическое распознавание текста и другие полезные функции. Кстати, в честь Черной пятницы разработчики устроили распродажу, в рамках которой можно сэкономить до 50 долларов на покупке полной версии приложения.

Название: PDFelement 7
Издатель/разработчик: Wondershare
Цена: Бесплатно / Подписка
Совместимость: Windows, Mac
Ссылка: Установить
Управление файлами PDF и отсканированными документами с помощью приложения «Заметки» на Mac

В приложении «Заметки» на Mac можно добавлять файлы PDF или отсканированные документы, обрезать и поворачивать их, применять к ним фильтры и переименовывать их.
Просмотр файла PDF или отсканированного документа

- В приложении «Заметки» на Mac можно искать файлы PDF и отсканированные документы указанными способами.
- Посмотрите в заметке, в которую он был добавлен.
- Выполните поиск файла PDF или отсканированного документа по названию.
- Выберите «Вид» > «Показать браузер вложений», затем нажмите «Сканы» или «Документы». Чтобы просмотреть вложение внутри содержащей его заметки, выберите вложение, затем выберите «Вид» > «Показать в заметке».
Примечание. Если Вы используете macOS 10.14 или новее, а также iOS 12 или новее либо iPadOS 13 или новее, можно сканировать документы напрямую с камеры iPhone или iPad. Нажмите в начале строки в заметке, выберите «Файл» > «Вставить с iPhone или iPad», затем выберите «Отсканировать документы», чтобы отсканировать документ с помощью iPhone или iPad, а затем вставить его в заметку. См. раздел Вставка фотографий и отсканированных изображений при помощи Камеры Continuity.

Выполните любое из указанных действий.
-
Предварительный просмотр файла PDF или отсканированного документа. Нажмите стрелку вниз рядом с названием документа, затем выберите «Быстрый просмотр вложения».
Совет. При использовании трекпада можно изменять масштаб сведением и разведением пальцев в Быстром просмотре.
Обрезка файла PDF
Можно обрезать файл PDF, чтобы выделить определенный фрагмент или удалить лишние части документа.
- В Заметках
на Mac нажмите стрелку вниз
рядом с названием файла PDF, затем выберите вариант «Разметка». Если стрелка вниз не отображается, нажмите файл PDF, удерживая клавишу Control, затем нажмите «Режим просмотра» и выберите «Средний» или «Крупный». - Удерживая клавишу Control, нажмите миниатюру, затем нажмите «Обрезать страницу» (или используйте панель Touch Bar).
- Нажмите кнопку «Обрезать»
, затем перетяните метки-манипуляторы выбора таким образом, чтобы охватить нужную область файла PDF. - Завершив внесение изменений, выполните одно из указанных действий.
- Сохранение изменений. Нажмите «Готово».
- Выход из режима обрезки без сохранения изменений. Нажмите клавишу Escape (Esc) или нажмите «Отменить».
Обрезка отсканированного документа
Можно обрезать отсканированный документ для выделения определенного фрагмента или устранения лишних частей документа.

- В приложении «Заметки» на Mac нажмите «Показать миниатюры» рядом с названием отсканированного документа. Если кнопка «Показать миниатюры» не отображается, нажмите файл PDF или отсканированный документ, удерживая клавишу Control, затем нажмите «Режим просмотра» и выберите «Средний» или «Крупный».
- Удерживая клавишу Control, нажмите миниатюру, затем нажмите «Обрезать страницу» (или используйте панель Touch Bar).
- Перетяните метки-манипуляторы выбора таким образом, чтобы охватить нужную область файла PDF или отсканированного документа.
- Завершив внесение изменений, выполните одно из указанных действий.
- Сохранение изменений. Нажмите «Готово».
- Выход из режима обрезки без сохранения изменений. Нажмите клавишу Escape (Esc) или нажмите «Отменить».
Применение фильтра к отсканированному документу
Вы можете придать отсканированному документу особый внешний вид, воспользовавшись одним из четырех фильтров.

- В приложении «Заметки» на Mac нажмите «Показать миниатюры» рядом с названием отсканированного документа.
- Удерживая клавишу Control, нажмите миниатюру, затем выберите «Фильтры».
- Нажмите нужный фильтр (или коснитесь его в панели Touch Bar).
Поворот файла PDF или отсканированного документа
Можно повернуть файл PDF или отсканированный документ вручную, изменив его ориентацию.

- В приложении «Заметки» на Mac нажмите «Показать миниатюры» рядом с названием файла PDF или отсканированного документа.
- Удерживая клавишу Control, нажмите миниатюру, затем нажмите «Повернуть влево» или «Повернуть вправо» (или используйте панель Touch Bar).
Для достижения нужной ориентации документ можно повернуть несколько раз.
Переименование файла PDF или отсканированного документа
По умолчанию отсканированный документ автоматически получает название, например Отсканированные документы, а файл PDF получает название оригинального файла. Можно переименовать любой из этих видов вложений.

- В приложении «Заметки» на Mac выберите файл PDF или отсканированный документ в заметке, затем выберите меню «Правка» > «Переименовать вложение».
- Введите новое имя, затем нажмите «Сохранить».
Как изменить текст в отсканированном документе
Если распечатать документ, созданный в текстовом редакторе, он станет простой картинкой. Следовательно, сканеры считывают с документов лишь графическое изображение, а графика и текст редактируются по-разному. Но различие в форматах – не проблема. Изменить текст в отсканированном документе можно несколькими способами.

Статьи по теме:
- Как изменить текст в отсканированном документе
- Как вырезать текст из картинки
- Как исправить текст
Инструкция
Установите приложение для распознавания текста. Такие программы могут идти в комплекте со сканером или распространяться отдельно. Тем не менее, принцип работы у них один. Запустите приложение для распознавания текста, поместите нужный документ в сканер текстом вниз, произведите сканирование. Нажмите кнопку «Распознать», дождитесь, пока программа переведет графику в текст, экспортируйте файл в текстовой формат, сохраните документ. Далее откройте сохраненный документ в текстовом редакторе и внесите нужные изменения.
Если у вас нет нужного приложения, воспользуйтесь другим способом. Он более творческий по сравнению с первым. Отсканируйте документ, выставив настройки для получения четкого изображения без затемненных и чрезмерно засвеченных областей. Чем выше будет качество вашего изображения, тем меньше придется подчищать рисунок. Сохраните отсканированный документ.
Откройте изображение в любом графическом редакторе. Лучше воспользоваться редактором, который поддерживает работу со слоями. Если вы допустите ошибку при редактировании, ее легче будет исправить на отдельном слое, нежели в цельном документе. Выровняйте фон, воспользовавшись ластиком или кистью. Отрегулируйте яркость и контрастность изображения, если в этом есть необходимость.
Удалите или закрасьте ту часть документа, в которой будет размещен новый текст и создайте новый слой. Выберите инструмент «Текст» (обозначается в графических редакторах буквой «Т»), введите текст на только что созданном слое. Если работаете в Adobe Photoshop, создавать дополнительный слой не требуется. Подберите подходящий стиль и размер шрифта. Используя инструмент для перемещения, сопоставьте старый текст с новым, следя за тем, чтобы строки и поля были ровными, а интервал между строками – одинаковым. Объедините слои, сохраните или распечатайте документ.
- как можно отсканировать документ
Совет полезен?
Статьи по теме:
- Как исправить документ
- Как редактировать сканированный текст
- Как изменить отсканированный текст
Добавить комментарий к статье
Похожие советы
- Как исправить отсканированный текст
- Как преобразовать отсканированный текст
- Как изменить текст после сканирования
- Как jpg перевести в word для редактирования онлайн
- Как редактировать pdf-документ
- Как редактировать в adobe acrobat
- Как перевести отсканированный документ в Ворд
- Как изменить текст рисунка
- Как редактировать текст в Acrobat
- Как переделать текст в pdf
- Как изменить текст в формате pdf
- Как перевести формат djvu в текст
- Как распознать текст в формате pdf
- Как pdf перевести в word для редактирования текста
- Как распознать сканированный текст
- Как свести печать
- Как копировать текст из рисунка
- Как перевести текст со сканера
- Как в pdf добавить текст
- Как в Фотошопе заменить текст
- Как отсканировать в pdf
- Как пользоваться сканером
- Как pdf перевести в word
- Как вырезать текст
Инструкция: как редактировать документы и распознавать тексты с иероглифами в ABBYY FineReader 15
PDF-документы давно стали необходимой составляющей офисной работы. В этом формате хранятся цифровые архивы, юристы согласуют договоры, дизайнеры верстают брошюры, издательства публикуют электронные книги. До недавнего времени главным достоинством и одновременно с этим недостатком PDF-документов было отсутствие возможности редактировать текст в них. Благодаря развитию технологий эту и другие задачи научилась решать программа ABBYY FineReader, которая стала многофункциональным редактором любых документов. «Хайтек» вместе с ABBYY рассказывает, как технологически устроено редактирование PDF-документов в новой версии FineReader 15, каким образом программа сравнивает версии документов и как работает распознавание иероглифов с помощью нейросетей.
Читайте «Хайтек» в
Диджитализация документооборота массово началась еще во второй половине ХХ века. Многие предприятия переходили на электронные документы. В офисах устанавливали первые компьютеры со специальным софтом для обработки и хранения важной информации. Тогда и появились популярные текстовые редакторы. Сотрудники набирали вручную документы, а затем, с появлением в 1993 году PDF, стали экспортировать их в этот формат. На первый взгляд казалось: если весь документооборот станет электронным, то о шкафах с бумажными каталогами и завалах на рабочих столах можно будет забыть. На практике оказалось, что чем больше организация использует компьютеры для цифрового документооборота, тем больше документов она печатает. 64% крупных компаний уверены, что по крайней мере до 2025 года печать будет значимой частью их бизнеса. С другой стороны, если сегодня в офис по традиционной почте приходит бумажный документ, его немедленно отсканируют и переведут в цифру. Как правило, сканы документов хранят в виде PDF-файлов. Документом в формате PDF удобнее пользоваться — его можно послать по электронной почте с уверенностью, что информация дойдет до адресата без искажений (если, конечно, кто-то не решит внести изменения собственноручно), и, в отличие от DOC, его трудно изменить. Это особенно важно, если речь идет о контрактах или коммерческих предложениях. Офисные сотрудники отмечают рост объемов использования PDF: каждый второй респондент ответил, что регулярно работает с документами в этом формате и нуждается в специализированной программе. За последние два года количество таких рабочих файлов в мире выросло в три раза — эти данные приводят эксперты IDC в исследовании «Addressing the document disconnect». В России PDF также пользуется популярностью. Также по результатам исследования ABBYY выяснилось, что в наиболее частые сценарии работы с PDF-документами вошли совершенно не типичные для этого формата ранее задачи: 52% респондентов вносят мелкие правки в текст PDF, исправляют ошибки или опечатки; 62% опрошенных часто ищут информацию в тексте PDF и 60% копируют текст из документа. Поэтому от программ, работающих с PDF, требуются новые возможности для редактирования, сравнения и распознавания текстов. Все они есть в новом FineReader 15.
Почему так сложно редактировать текст в PDF?
Изначально PDF не предназначался для того, что его каким-либо образом изменяли. Что было и его преимуществом — это безопасность, одинаковое отображение на любом устройстве и удобный способ обмена информацией, и недостатком — невозможность внесения правок, поиска по тексту и сравнения документов.
Особенности отображения текста в PDF

Несмотря на то, что PDF — это формат текста, в цифровом виде эти буквы, слова и предложения на самом деле не существуют, они «нарисованы». Содержимое хранится в виде потоков — это могут быть текст, изображения и векторная графика. Типичных для формата DOC слов, строчек, абзацев и таблиц в PDF нет. В формате нет и букв как таковых, а есть коды символов. Такие коды с одинаковыми характеристиками объединяются в группы по виду и размеру шрифта. Этот шрифт определяет, как символ должен отображаться в документе, сопоставляя код символа и глиф — набор команд для отрисовки. Еще одно отличие от обычного текстового документа — объекты в PDF существуют в трех измерениях. По координате Z судят о глубине расположения объекта на странице, ведь текст может находиться поверх изображения или наоборот. Текст в PDF-документе напоминает «мешочек букв», который нужно правильно отобразить в конкретных местах документа с соответствующим форматированием. С 2008 года PDF стал открытым форматом, что позволило разработчикам без проблем и дополнительных отчислений создавать программы для чтения файлов PDF, конвертеры и другие полезные вещи. Развитие OCR привело к тому, что у ранее неизменного PDF-документа появилась возможность редактирования — сначала построчного, а затем и в пределах абзацев. Если речь идет о digital-born-документе (изначально созданный на компьютере, а не отсканированный бумажный документ — «Хайтек»), то в режиме редактирования подключаются фоновые процессы, и программа приступает к анализу структуры документа. Для этого используется технология, которая строит блоки на основе данных, записанных в PDF, а не на основе распознавания. За считанные доли секунды технология должна пройти всю цепочку по определению параметров текста: места, где находятся заголовки, подзаголовки, отдельные абзацы и другие элементы. Потом — распихать «мешочки букв» по этим блокам, сформировать строки. Следующий этап — синтез. Специальные технологии определяют внешние параметры текста — отступы и межстрочные интервалы. Благодаря этому из хаотичной структуры снова появляется текстовый документ с форматированием. И уже в него можно вносить правки — менять слова и целые абзацы, исправлять форматирование, сохранять изменения и так далее.
Функция построчного редактирования уже была в предыдущей версии FineReader (ABBYY FineReader 14 вышла в январе 2017 года — «Хайтек»). Этого было достаточно, чтобы внести небольшие исправления в текст: заменить несколько букв или цифр. Новый ABBYY FineReader 15 стал универсальным текстовым редактором, в котором вносить изменения можно в целые абзацы.
Как отредактировать текст в отсканированном документе

Отдельная офисная задача — отредактировать скан-копию бумажного документа. Раньше для этого пользователю приходилось конвертировать файл в редактируемый формат или просто искать исходник. Когда пользователь редактирует скан, ABBYY FineReader 15 в первую очередь распознает документ и создает временный текстовый слой на тех страницах, которые пользователь просматривает. В режиме редактирования создается текстовое представление страницы — именно его редактирует пользователь. Затем эти правки встраиваются в изображение страницы в отсканированном документе.
Как найти в PDF внесенные правки и избежать обмана
Сравнение документов — особо важный для бизнеса сегмент офисных задач. Прежде всего, потому что неожиданные правки могут стоить очень больших денег. Иногда их незаметно пытаются внести в уже подписанный договор и воспользоваться человеческой невнимательностью — такие документы обычно сравнивают юристы, внимательно вычитывая распечатки оригинала, созданного в Word, и ответа контрагента — отсканированный вариант. Поиск отличий в текстовых документах может быть полезен еще и в том случае, если над ними работают одновременно несколько человек или со временем один и тот же файл периодически изменяют. Это позволяет быстро найти последние правки, которые внесли в файл коллеги. В файлах DOCX для этого есть режим Track Changes, создающий на основе двух версий документа третью — с подсвеченными отличиями в тексте. В новом ABBYY FineReader 15 можно сохранить результаты сравнения любых документов в таком DOCX c Track Changes и в привычном режиме увидеть все различия.
Сравнивать в ABBYY FineReader 15 можно практически что угодно — PDF, сканы или изображения, файлы DOC, DOCX и даже таблицы из Excel. В программу загружаются оба документа, которые при необходимости распознаются с помощью OCR. На основе извлеченного текста в документе определяются дополнительные элементы форматирования — например, колонтитулы, нумерация списков. В программе используется специальный алгоритм, который позволяет быстро выявлять отличия в версиях документов. Разностный алгоритм принимает два файла на вход. Первый, обычно более ранний — файл А, второй — файл B. Алгоритм определяет количество вставок или удалений, необходимых для превращения одного файла в другой, находя для этого кратчайший путь.
В завершении работы с документами программа объединяет обнаруженные различия в группы. Это необходимо, например, чтобы отделить внесенные исправления в основном тексте от колонтитулов и нумерации списка. В большинстве случаев колонтитулы не интересуют пользователя с точки зрения сравнения, за исключением вставок. Например, если у вас есть список на 100 позиций, в середине которого добавили или изменили один из пунктов. Чтобы работать с документом было удобнее, различия в нумерации попадают в отдельную группу. В финале пользователь может посмотреть все исправления в документе так, как ему удобно. На выбор есть несколько способов: сохранить новую версию документа в формате DOCX, где все изменения уже подсвечиваются в режиме Track Changes, получить PDF с комментариями в местах изменений или создать таблицу с перечнем правок в Word. Среди поддерживаемых ABBYY FineReader 15 функций:
- просмотр PDF-документов;
- редактирование текста в PDF-документе в пределах абзаца;
- удаление конфиденциальных данных;
- сравнение документов разного формата и написанных на разных языках;
- автоматизация задач по оцифровке и конвертации;
- распознавание и конвертирование документов;
- комментирование и согласование;
- защита и цифровая подпись.
Как работают нейросети для распознавания иероглифов и арабской вязи
Распознавание иероглифов осложняется тем, что в отличие от европейских языков, они состоят из большого количества черточек, палочек, наклонов. Но размер иероглифов вполне сопоставим с размером европейских букв. В низком разрешении сканов иероглифы могут и вовсе выглядеть как кляксы. Носитель языка поймет символ, исходя из контекста. Программа же работает поэтапно: сначала анализирует изображение всего документа, определяет абзацы, разбивает распознанные строки на слова, а слова — на отдельные символы. На этом этапе алгоритмы опираются не на контекст, как человек, а на внешний вид иероглифа, и здесь многое зависит от качества изображения. Для распознавания японского, китайского и корейского языков компания ABBYY внедрила нейросети. Они решают две главные задачи при работе с иероглифами — улучшение качества распознавания и «модернизацию» языков.
Качество и скорость в быстром и нормальном режиме
Внедрение нейросетей значительно повысило качество распознавания японского и китайского в быстром режиме, но скорость работы на начальном этапе разработки снизилась. Для клиентов, работающих с большим потоком документов, даже небольшая просадка по скорости может привести к сильному замедлению в обработке данных. Оказалось, что скорость проседает в документах с большим количеством символов с простой структурой — таких, как японская буквенная азбука (в современном японском языке используется три основных системы письма: кандзи — иероглифы китайского происхождения и две слоговые азбуки, созданные в Японии — хирагана и катакана — «Хайтек»).

Эту проблему решили с помощью кэша. Когда программа распознает страницу, одна и та же буква может попадаться на ней несколько раз. Встретив букву «А», написанную одним и тем же шрифтом, ABBYY FineReader анализирует и запоминает ее особенности. Этот принцип оптимизации позволяет не тратить время на распознавание одинаковых символов. Для японского и китайского ранее не использовался кэш, потому что встретить один и тот же иероглиф на странице, написанной естественным языком, можно очень редко. Но для символов с простой структурой это оказалось полезным. Включение кэша позволило ускорить и нормальный, и быстрый режим распознавания.
Почему важно следить за развитием языка
В предыдущих версиях FineReader в японском языке присутствовали иероглифы, которые уже не используются в современных документах. Это заметили сотрудники японского офиса ABBYY: время от времени программа вставляла при распознавании один-два устаревших символа. Для рядового носителя языка это воспринимается как буквы из русского дореволюционного алфавита для нас. Чтобы исправить эту ошибку, потребовалось создать в программе «новый язык» — Japanese Modern. Легко заставить программу не отображать те или иные устаревшие символы. Но необходимо было не просто выбросить ненужное, но и оставить всё необходимое, найти множество иероглифов, которые отображают всё богатство современного японского языка.
Новое множество символов формировалось в несколько этапов. Для тестирования создавали подходящие наборы изображений документов. Если в пакет попадала хотя бы одна страница с устаревшими формами, весь комплект оказывался непригодным. Приходилось вынимать эту страничку и формировать новый комплект материалов. Наконец удалось добиться того, чтобы в результатах распознавания почти не было устаревших символов и при этом правильно отображались все современные иероглифы.
Для китайского в FineReader всегда поддерживали традиционный и упрощенный языки. При этом по составу символов они не отличались. Получить разный результат распознавания всё равно было возможно, потому что в программе было заложено разное распределение вероятностей. В новой версии в результате экспериментов удалось выделить символы, необходимые для распознавания упрощенного китайского. В FineReader заложена возможность создавать пользовательский язык. Используя этот инструмент и внося изменения в состав, специалисты сравнивали результаты распознавания на разных образцах документов, и в результате в упрощенном китайском остался только необходимый набор иероглифов.
Корейская письменность, хангыль — нечто среднее между китайским и европейским письмом. Внешне это квадратные символы, напоминающие иероглифы, и на одной странице текста можно насчитать больше сотни уникальных. С другой стороны, это фонетическая письменность, то есть основанная на записывании звуков. Имеется алфавит, содержащий 24 буквы (плюс можно дополнительно посчитать диграфы и дифтонги). Но, в отличие от латиницы или кириллицы, звуки пишутся не в линию, а объединяются в блоки. Каждый блок может состоять из двух, трех или четырех букв. Первой всегда идет согласная, затем одна или две гласных, и в конце может стоять еще одна согласная. Для корейского обучили отдельную нейросеть, которая, помимо корейских слогов, распознает и некоторые иероглифы. Вместо распознавания символов целиком технология определяет отдельные буквы в них.
Как резать арабскую вязь на фрагменты
Арабский язык отличается от других тем, что найти линии порезки между символами в арабской вязи очень сложно. Даже гистограмма при распознавании арабского отличается: выглядит как бесконечный набор горбиков и ямочек.
Варианты разделения текста на символы создаются всегда, даже для европейских языков. В процессе работы программа выбирает наиболее вероятный путь распознавания. В случае с арабским языком таких вариантов очень много, и это приводило к ошибкам. Поэтому для повышения точности программу научили видеть не отдельную букву, а всё слово целиком. Для этого была разработана сеть end-to-end (e2e). Она полезна не только для арабского, но и для европейских языков — например, в дизайнерских шрифтах, когда на изображениях сложно построить путь для распознавания.
При e2e-подходе на вход в нейросеть поступает набор изображений — фрагментов, состоящих из отдельных слов. На выходе такая нейросеть выдает последовательность графем, которые затем проходят дополнительную обработку: проводится словарный анализ, корректируются пробелы.
Для обучения использовался набор из нескольких сотен тысяч фрагментов — отдельные слова из отсканированных газет, журналов, официальных документов. Они были выбраны в несколько итераций: сначала собирали базу из слов, которые удачно распознали, и обучали нейросеть на этом датасете. Потом еще раз обучали, корректировали, выявляли ошибки. Часть, которую не смогли распознать, отдельно отдавали на доразметку и корректировку фрагментов. В результате всё больше очищали датасет для обучения, улучшая общее качество распознавания.
Кроме того, часть данных для обучения была создана искусственно. Это было необходимо для распознавания шрифтов, для которых было собрано мало образцов. В таких случаях использовался корпус текста, в который добавлялись различные искажения, типичные для этапа сканирования документа: шум, размытие символа. Это делала в автоматическом режиме специальная программа — генератор синтетики, или «портилка».
Сначала в ходе обучения такой подход привел к тому, что потерялась информация об охватывающих прямоугольниках символов, которые необходимо отображать для пользователя на этапе верификации. Отказавшись от посимвольного распознавания, пришлось внедрить альтернативный механизм, который дополнял результаты распознавания информацией об охватывающих прямоугольниках и резал слова на отдельные символы.
Сочетание новых алгоритмов машинного обучения сделало возможным создание многофункционального текстового редактора для работы с PDF, сканами и digital-born-документами. Внесение правок, сравнение файлов и распознавание сложных языков дает пользователю возможность полноценно работать с файлами вне зависимости от их формата. По сути, это позволяет охватить все спектры офисных задач по работе с электронными и даже бумажными документами, максимально упрощая работу сотрудникам и снижая вероятность ошибок из-за человеческого фактора.