Як редагувати сканований документ з друком. Як редагувати відсканований документ? Розпізнавання тексту документа

Діджитал 01 січня 2024

За допомогою FceReader можна легко перетворити текст з паперового носія на файл формату Ворд і відредагувати його при необхідності.

Що нам знадобиться для сканування і розпізнавання тексту по фото?
Як сканувати через смартфон, використовуючи Office Lens
Параметри сканування тексту
DPI-якість
Кольоровість
Фото
Розпізнавання
Робота з текстом
Зображення
Таблиці
Зайві елементи
Перевірка помилок і збереження результатів роботи
Тип копії
Копія редагування
Вирішення завдання за допомогою OCR

Дізнатися всі етапи проведення даної процедури можна у поданій статті.

Велика кількість користувачів, які працюють з документами, нерідко стикаються з необхідністю копіювання тексту з паперового носія в Word. У цьому випадку найоптимальнішим вибором буде сканування тексту та його подальше редагування.

Зробити це можливо за допомогою сучасної програми FceReader, вона успішно перетворює звичайну фотографію, отриману зі скана, в осмислений набір слів.

Що нам знадобиться для сканування і розпізнавання тексту по фото?

Для сканування і розпізнавання тексту нам не обійтися без деяких речей:

Сканер. Власне, роль сканера може виконувати не тільки цей вид техніки, а й фотоапарат (у смартфоні, наприклад). Якщо ви користуєтеся сканером, переконайтеся, що на комп'ютері встановлені системні драйвери і програми, необхідні для його повноцінної роботи. Якщо сканера немає, але ви збираєтеся його купити, зверніть увагу на швидкість обробки одного аркуша. Деякі прилади обробляють лист за 10 секунд, іншим для цього знадобиться 30 і більше. І якщо працювати вам доведеться з об'ємними матеріалами по 300-400 аркушів, то цей фактор має значення.
Програми для розпізнавання тексту або онлайн-сервіси. Ми вже писали статтю по сервісах, які допомагають розпізнати текст після сканування документа через сканер. Але зараз хотіли б порадити вам програму ABBYY FceReader. Незважаючи на те, що вона платна, її функціонал воістину вражає. І якщо ви будете працювати з величезними обсягами документів, вона стане вашим незамінним помічником. Втім, є і безкоштовний її аналог Cunei Form, яка відмінно справляється зі скануванням і розпізнаванням тексту онлайн. Правда, її функціонал сильно обмежений порівняно з попереднім побратимом.
Документи для сканування. Студентам часто доводиться стикатися зі скануванням документа у вигляді журналів, статей, книг, конспектів, роздруківок, звідки потім часто потрібно скопіювати текст. І просто так, у вигляді поради - перед початком сканування постарайтеся пошукати ці документи в мережі. Якщо до вас цими матеріалами вже користувалися, існує величезна ймовірність, що добра людина вже виконала всю роботу за вас. Атк, що залишиться лише скопіювати текст готового сканованого документа і зайнятися редагуванням тексту після сканування.

Як сканувати через смартфон, використовуючи Office Lens

Завантажити програму «Office Lens» можна з Play Market або Apps Store (залежить від типу ОС на смартфоні). Встановлення нічим не відрізняється від інсталяції інших програм.
Після першого запуску на новому телефоні «Office Lens» робить запит на дозвіл доступу до файлів. Надайте його.
Тепер можна приступати до роботи. Натисніть кнопку «Document» внизу вікна.
Покладіть аркуш з текстом на стіл і направте на нього камеру, щоб той повністю опинився в екрані смартфона.
Зробіть фото кнопкою (кругла з червоним ободком і біла всередині).
Затвердіть згоду на збереження кліком по галочці. Якщо потрібно відсканувати ще сторінки, ліворуч є значок з «+».
Тепер переходимо в меню програми «Зберегти» на закладці «Експорт до». У ньому шукає і натискаємо значок «Ворд».
Далі буде запропоновано авторизуватися в сервісі OneDrive з логіном і паролем облікового запису Microsoft.
Переходимо на свій ПК або ноутбук. Відкриваємо Ворд, а в ньому натискаємо на піктограму «Відкрити» в меню «Файл» або на головній панелі інструментів.
Зліва у списку шукаємо диск «OneDrive», а в ньому наш файл. Вибираємо його.
За необхідності можна внести правки.

Параметри сканування тексту

Отже, сканер купили, документи підготували, програми встановили. Що далі? Далі нам потрібно буде зробити потрібні налаштування, які теж часом допомагають істотно полегшити завдання, наприклад, розпізнати сканований текст в певному форматі, редагувати текст після сканування в певному режимі і так далі.

Загалом, від налаштувань залежатиме якість і швидкість вашої роботи. Отже, розбираємося разом.

DPI-якість

Це роздільна здатність зображення для редагування тексту у сканованому документі. Ставте якість у налаштуваннях не менше 300 DPI, а якщо можливо - то більше. Чим вища ця величина, тим більш чітким вийде зображення після сканування.

А від чіткості залежатиме швидкість обробки. Тобто виправити або змінити сканований текст, текст сканованого аркуша буде швидшим, а ще програма зробить менше помилок (так-так, програми теж помиляються, але про все за порядком).

Кольоровість

Завдяки цьому параметру можна впливати на швидкість сканування тексту. Як правило, у сканерах є 3 режими: чорно-білий (підходить для аркушів зі звичайним друкованим текстом), сірий (підходить для роботи з документами з таблицями і простими картинками), кольоровий (для журналів, книг і інших документів, де колір грає значення). Чим менше кольору, тим вище швидкість обробки документа.

Фото

Як ми вже говорили, для сканування можна використовувати не тільки сканер, але і фотографування. Але тут будьте обережні - будь-яке змащування, нечіткість та інші спотворення зображення можуть вплинути на подальше розпізнавання та редагування тексту в сканованому документі.

Розпізнавання

Отже, відсканували і отримали сторінки в електронному вигляді. Потім відкриваємо програму для розпізнавання (наприклад, FceReader) і починаємо розпізнавати текст. Деякі програми (в тому числі і наша) роблять цей процес з помилками. Тоді область з помилкою потрібно буде виділяти вручну.

Робота з текстом

У області Текст ви можете вибрати текст. Будь-які таблиці та зображення можна вилучити. А ось для роботи з незвичайними і рідкісними символами доведеться попрацювати ручками. Ось як це виглядає в програмі:

Зображення

Ця область в програмі використовується для роботи з зображеннями та з тими областями тексту, які погано піддалися розпізнаванню.

Таблиці

Кнопка виділення таблиць допомагає працювати з таблицями. Однак ця функція не дуже добре розвинена. Іноді простіше використовувати редактор Картинка для роботи з таблицями. Це заощадить купу часу і нервів, а допрацювати все потім можна в звичайному ворді.

Зайві елементи

Якщо на сторінці залишилися елементи, які вам абсолютно не потрібні або марні, виділіть непотрібну область і видаліть її за допомогою ластику. Достатньо перейти в режим редагування і провести роботу. Причому чим більше непотрібних елементів ви приберете, тим швидше буде відбуватися процес розпізнавання тексту.

Перевірка помилок і збереження результатів роботи

Як ми вже говорили, помилки можуть виникати тоді, коли ви використовуєте неякісні, змащені, нечіткі зображення або документи з рідкісними символами. Тому завжди перевіряйте документ після процесу розпізнавання.

Знайшли? Чудово - просто введіть потрібний символ. До речі, у програмі є режим перевірки, який допоможе швидко і без вашої участі перевірити документ на наявність помилок програми. Відразу після закінчення перевірки ви можете імпортувати документ (зберегти його у форматі) у ворд або будь-яку іншу програму.

Тип копії

Під час збереження документа (в режимі редагування) вам запропонують зберегти його в трьох видах копії. Точна копія

- це повна копія сканованого документа з усім створеним форматуванням. Якщо ви потім плануєте редагувати текст після сканування у ворді, то найкраще вибрати саме цей варіант.

Копія редагування

допомагає зберегти вже відредагований текст. Добре підходить, якщо вам належить рясне подальше редагування. Простий текст - ідеально підходить для тих, хто хоче отримати в результаті звичайний текст без всіх інших елементів сторінки.

Ось, власне і все. Складно, довго і нудно, але набагато швидше сканувати і розпізнати текст (навіть рукописний) програмою, ніж переписувати 100500 документів вручну. Ну а якщо вам і цим ніколи займатися - звертайтеся за допомогою студентського сервісу. Тут вам швидко, дешево і якісно виконають все, що потрібно.

Зберігати відскановані документи на жорсткому диску комп'ютера або зовнішньому носії зручно і безпечно. Але як внести зміни до сторінок, зазвичай представлених як зображення? Нам знадобляться спеціальні програми, про встановлення та управління якими ми розповімо нижче.

Вирішення завдання за допомогою OCR

Якщо потрібно редагувати відскановані документи, скористайтеся будь-якою програмою OCR, функція якої полягає в оптичному розпізнаванні символів. Дане ПЗ порівнює символи у відсканованому файлі з тими символами, які є в його БД. Після цього ця категорія перетворює файл у зручний текстовий формат. Однак візьміть до уваги, що далеко не всі OCR здатні працювати на безкоштовній основі - серед них є чимало і платних варіантів. Також врахуйте, що залежно від того, наскільки якісно вам вдасться виконати сканування оригіналу, ви можете зіткнутися з різними помилками, редагуючи готовий скан. Щоб вирішити безпосередньо пов'язане завдання з тим, як редагувати сканований текст, дотримуйтесь наступної інструкції:

Завантажте програму OCR з офіційного сайту розробника або будь-якого надійного веб-ресурсу та встановіть її.
Відкрийте файл, який ви редагуєте у вікні програми. Цей процес може відрізнятися для кожного подібного типу, але в цілому від вас потрібно відкрити файл, після чого запустити процес конвертації. У багатьох програмах ви можете обрати відповідний формат вихідного файлу. Головне, щоб змінений тип документа був зручний для вас.
Після виконаної конвертації вам потрібно буде видалити з готового файлу форматування, якщо з ним виникли якісь проблеми. Справа в тому, що ПЗ може врахувати форматування, наприклад, шрифти, міжрядкові інтервали, якщо сканований файл відсканується недостатньо рівно. Щоб видалити форматування, використовуйте будь-який текстовий редактор, наприклад, звичайний «Блокнот». Він, як правило, не здатний розпізнавати форматування, завдяки чому вставити текст в нього можна без зайвого коду.
В кінці ви повинні відкрити новий документ у будь-якому зручному редакторі і приступити до такого процесу, як редагування сканованих документів. Обов'язково скористайтеся функцією перевірки правопису, щоб вчасно знайти всі помилки і усунути їх. Але помилки, пов'язані з форматуванням, доведеться виправляти ручним чином.

Але перш ніж увімкнути сканер і відсканувати той чи інший текст, вам варто спочатку визначитися зі зручною для вас програмою оптичного розпізнавання символів. Далі можна ознайомитися з одними з найпопулярніших і найпоширеніших серед них:

Однією з найвідоміших програм категорії OCR, є ABBYY FceReader, що працює на платній основі. Дане ПЗ використовується для перетворення сканів у текстові файли за допомогою запатентованих алгоритмів, які дозволяють розпізнавати навіть текст, що має не дуже високу якість. Загалом переваги програми полягають у високій точності розпізнавання тексту, здатності перетворювати всю структуру і зовнішній вигляд відсканованого тексту. Отже, вона залишить на своїх місцях не тільки текст, але також таблиці, малюнки та інше.
Readiris Pro - також є досить поширеною програмою з функцією OCR, яка має дуже зручний інтерфейс. Ви можете зберегти розпізнаний текст у таких форматах, як XPS, OpenOffice, PDF, Word і Excel. Слід додати, що ця програма дозволяє працювати з більш ніж сотнею мов світу і форматом DjVu.
Freemore OCR являє собою програму, поширювану абсолютно безкоштовно. З її допомогою можна досить оперативно витягувати графіку і текст з відсканованих зображень. Ви можете зберегти витягнутий текст як документ Word. Крім цього, вона володіє функцією багатосторінкового розпізнавання. Але врахуйте, що інтерфейс програми виконано тільки англійською мовою. Однак ця обставина не впливає на зручність її "