目錄
1、準備好環境
2、導入已安裝的庫
3、取得並調整輸入的大小
4、將調整後的影像轉換為灰階影像
5、運用邊緣偵測器
6、尋找最大的輪廓
7、圈出文檔輪廓的四個角落
8、使用扭曲透視法獲得所需的影像
9、轉換模組
10、运用自适应阈值,保存扫描输出
11、显示输出
12、计算机视觉在如何进步?
首頁 後端開發 Python教學 如何用Python建立一個文件掃描器?

如何用Python建立一個文件掃描器?

Apr 26, 2023 pm 01:10 PM
python 文件 掃描器

譯者 | 布加迪

審校 | 孫淑娟

您可能想要對文件進行數位化處理,以節省實體空間或建立備份。無論怎樣,編寫一個程式將紙本文件的照片轉換成準格式正是Python所擅長的任務。

結合多個適當的函式庫,您就可以建立一個小型應用程式對文件進行數位化處理。您的程式將以實體文件的影像作為輸入,並運用幾種影像處理技術,即可輸出輸入的掃描版。

1、準備好環境

首先您應該熟悉Python的基礎知識,還需要了解如何使用NumPy Python函式庫。

開啟任何Python IDE,建立兩個Python檔案。將一個命名為main.py,另一個命名為transform.py。然後在終端機上執行以下命令,安裝所需的庫。

pip install OpenCV-Python imutils scikit-image NumPy
登入後複製

您將使用OpenCV-Python獲取影像輸入並進行一些影像處理,使用Imutils來調整輸入和輸出影像的大小,並使用scikit-image對影像施加閾值。 NumPy將幫助您處理陣列。

如何用Python建立一個文件掃描器?

等待安裝完成,並等待IDE更新專案骨幹內容。骨幹內容更新完成後,您就可以開始程式設計了。完整的原始碼可以在GitHub程式碼庫中找到。

2、導入已安裝的庫

開啟main.py文件,導入所安裝的庫。這將使您能夠在必要時調用和使用它們的函數。

import cv2
import imutils
from skimage.filters import threshold_local
from transform import perspective_transform
登入後複製

忽略perspective_transform方面拋出的錯誤。您完成處理transform.py檔案的工作後,錯誤會消失。

3、取得並調整輸入的大小

為想要掃描的文件拍攝一張清晰的影像。確保文件的四個角落及其內容都可見。將影像複製到儲存程式檔案的同一個資料夾中。

如何用Python建立一個文件掃描器?

將輸入影像路徑傳遞給OpenCV。製作原始影像的副本,因為您在透視轉換期間需要它。將原始影像的高度除以您想要調整到的高度。這將保持縱橫比。最後,輸出調整後的影像。

# Passing the image path
original_img = cv2.imread('sample.jpg')
copy = original_img.copy()

# The resized height in hundreds
ratio = original_img.shape[0] / 500.0
img_resize = imutils.resize(original_img, height=500)

# Displaying output
cv2.imshow('Resized image', img_resize)

# Waiting for the user to press any key
cv2.waitKey(0)
登入後複製

上述程式碼的輸出如下:

如何用Python建立一個文件掃描器?

現在您已經將原始影像的高度調整為500像素。

4、將調整後的影像轉換為灰階影像

將調整後的RGB影像轉換為灰階影像。大多數影像處理庫只處理灰階影像,因為它們更容易處理。

gray_image = cv2.cvtColor(img_resize, cv2.COLOR_BGR2GRAY)
cv2.imshow('Grayed Image', gray_image)
cv2.waitKey(0)
登入後複製

注意原始影像和灰階影像之間的差異。

如何用Python建立一個文件掃描器?

IDE上顯示灰色映像的程式輸出

彩色桌變成了黑白桌。

5、運用邊緣偵測器

對灰階影像運用高斯模糊濾鏡以去除雜訊。然後呼叫OpenCV canny函數來偵測影像中存在的邊緣。

blurred_image = cv2.GaussianBlur(gray_image, (5, 5), 0)
edged_img = cv2.Canny(blurred_image, 75, 200)
cv2.imshow('Image edges', edged_img)
cv2.waitKey(0)
登入後複製

邊緣在輸出上是可見的。

如何用Python建立一個文件掃描器?

您將處理的邊緣是文件的邊緣。

6、尋找最大的輪廓

#偵測邊緣影像中的輪廓。依降序排序,只保留五個最大的輪廓。透過循環排序後的輪廓,近似獲取最大的四邊輪廓。

cnts, _ = cv2.findContours(edged_img, cv2.RETR_LIST, cv2.CHAIN_APPROX_SIMPLE)
cnts = sorted(cnts, key=cv2.contourArea, reverse=True)[:5]

for c in cnts:
peri = cv2.arcLength(c, True)
approx = cv2.approxPolyDP(c, 0.02 * peri, True)

if len(approx) == 4:
doc = approx
break
登入後複製

有四個邊的輪廓很可能含有文件。

7、圈出文檔輪廓的四個角落

圈出偵測到的文檔輪廓的幾個角落。這將幫助您確定您的程式是否能夠偵測影像中的文件。

p = []

for d in doc:
tuple_point = tuple(d[0])
cv2.circle(img_resize, tuple_point, 3, (0, 0, 255), 4)
p.append(tuple_point)

cv2.imshow('Circled corner points', img_resize)
cv2.waitKey(0)
登入後複製

對調整後的RGB影像圈出幾個角落。

如何用Python建立一個文件掃描器?

偵測到文件之後,現在需要從映像中提取文件。

8、使用扭曲透視法獲得所需的影像

扭曲透視(warp perspective)是一種電腦視覺技術,用於轉換影像以修正失真。它將圖像轉換成不同的平面,讓您可以從不同的角度查看圖像。

warped_image = perspective_transform(copy, doc.reshape(4, 2) * ratio)
warped_image = cv2.cvtColor(warped_image, cv2.COLOR_BGR2GRAY)
cv2.imshow("Warped Image", imutils.resize(warped_image, height=650))
cv2.waitKey(0)
登入後複製

為了獲得扭曲後的影像,您需要建立一個簡單的模組來執行透視轉換。

9、轉換模組

该模块将对文档角的点进行排序。它还会将文档图像转换成不同的平面,并将相机角度更改为俯拍。

打开之前创建的那个transform.py文件,导入OpenCV库和NumPy库。

import numpy as np
import cv2
登入後複製

这个模块将含有两个函数。创建一个对文档角点的坐标进行排序的函数。第一个坐标将是左上角的坐标,第二个将是右上角的坐标,第三个将是右下角的坐标,第四个将是左下角的坐标。

def order_points(pts):
 # initializing the list of coordinates to be ordered
 rect = np.zeros((4, 2), dtype = "float32")

 s = pts.sum(axis = 1)

 # top-left point will have the smallest sum
 rect[0] = pts[np.argmin(s)]

 # bottom-right point will have the largest sum
 rect[2] = pts[np.argmax(s)]

 '''computing the difference between the points, the
 top-right point will have the smallest difference,
 whereas the bottom-left will have the largest difference'''
 diff = np.diff(pts, axis = 1)
 rect[1] = pts[np.argmin(diff)]
 rect[3] = pts[np.argmax(diff)]

 # returns ordered coordinates
 return rect
登入後複製

创建将计算新图像的角坐标,并获得俯拍的第二个函数。然后,它将计算透视变换矩阵,并返回扭曲的图像。

def perspective_transform(image, pts):
 # unpack the ordered coordinates individually
 rect = order_points(pts)
 (tl, tr, br, bl) = rect

 '''compute the width of the new image, which will be the
 maximum distance between bottom-right and bottom-left
 x-coordinates or the top-right and top-left x-coordinates'''
 widthA = np.sqrt(((br[0] - bl[0]) ** 2) + ((br[1] - bl[1]) ** 2))
 widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + ((tr[1] - tl[1]) ** 2))
 maxWidth = max(int(widthA), int(widthB))

 '''compute the height of the new image, which will be the
 maximum distance between the top-left and bottom-left y-coordinates'''
 heightA = np.sqrt(((tr[0] - br[0]) ** 2) + ((tr[1] - br[1]) ** 2))
 heightB = np.sqrt(((tl[0] - bl[0]) ** 2) + ((tl[1] - bl[1]) ** 2))
 maxHeight = max(int(heightA), int(heightB))

 '''construct the set of destination points to obtain an overhead shot'''
 dst = np.array([
[0, 0],
[maxWidth - 1, 0],
[maxWidth - 1, maxHeight - 1],
[0, maxHeight - 1]], dtype = "float32")

 # compute the perspective transform matrix
 transform_matrix = cv2.getPerspectiveTransform(rect, dst)

 # Apply the transform matrix
 warped = cv2.warpPerspective(image, transform_matrix, (maxWidth, maxHeight))

 # return the warped image
 return warped
登入後複製

现在您已创建了转换模块。perspective_transform导入方面的错误现在将消失。

如何用Python建立一個文件掃描器?

注意,显示的图像有俯拍。

10、运用自适应阈值,保存扫描输出

在main.py文件中,对扭曲的图像运用高斯阈值。这将给扭曲的图像一个扫描后的外观。将扫描后的图像输出保存到含有程序文件的文件夹中。

T = threshold_local(warped_image, 11, offset=10, method="gaussian")
warped = (warped_image > T).astype("uint8") * 255
cv2.imwrite('./'+'scan'+'.png',warped)
登入後複製

以PNG格式保存扫描件可以保持文档质量。

11、显示输出

输出扫描后文档的图像:

cv2.imshow("Final Scanned image", imutils.resize(warped, height=650))
cv2.waitKey(0)
cv2.destroyAllWindows()
登入後複製

下图显示了程序的输出,即扫描后文档的俯拍。

如何用Python建立一個文件掃描器?

12、计算机视觉在如何进步?

创建文档扫描器涉及计算机视觉的一些核心领域,计算机视觉是一个广泛而复杂的领域。为了在计算机视觉方面取得进步,您应该从事有趣味又有挑战性的项目。

您还应该阅读如何将计算机视觉与当前前技术结合使用方面的更多信息。这让您能了解情况,并为所处理的项目提供新的想法。

原文链接:https://www.makeuseof.com/python-create-document-scanner/

以上是如何用Python建立一個文件掃描器?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1655
14
CakePHP 教程
1414
52
Laravel 教程
1307
25
PHP教程
1255
29
C# 教程
1228
24
PHP和Python:解釋了不同的範例 PHP和Python:解釋了不同的範例 Apr 18, 2025 am 12:26 AM

PHP主要是過程式編程,但也支持面向對象編程(OOP);Python支持多種範式,包括OOP、函數式和過程式編程。 PHP適合web開發,Python適用於多種應用,如數據分析和機器學習。

在PHP和Python之間進行選擇:指南 在PHP和Python之間進行選擇:指南 Apr 18, 2025 am 12:24 AM

PHP適合網頁開發和快速原型開發,Python適用於數據科學和機器學習。 1.PHP用於動態網頁開發,語法簡單,適合快速開發。 2.Python語法簡潔,適用於多領域,庫生態系統強大。

PHP和Python:深入了解他們的歷史 PHP和Python:深入了解他們的歷史 Apr 18, 2025 am 12:25 AM

PHP起源於1994年,由RasmusLerdorf開發,最初用於跟踪網站訪問者,逐漸演變為服務器端腳本語言,廣泛應用於網頁開發。 Python由GuidovanRossum於1980年代末開發,1991年首次發布,強調代碼可讀性和簡潔性,適用於科學計算、數據分析等領域。

Python vs. JavaScript:學習曲線和易用性 Python vs. JavaScript:學習曲線和易用性 Apr 16, 2025 am 12:12 AM

Python更適合初學者,學習曲線平緩,語法簡潔;JavaScript適合前端開發,學習曲線較陡,語法靈活。 1.Python語法直觀,適用於數據科學和後端開發。 2.JavaScript靈活,廣泛用於前端和服務器端編程。

sublime怎麼運行代碼python sublime怎麼運行代碼python Apr 16, 2025 am 08:48 AM

在 Sublime Text 中運行 Python 代碼,需先安裝 Python 插件,再創建 .py 文件並編寫代碼,最後按 Ctrl B 運行代碼,輸出會在控制台中顯示。

vs code 可以在 Windows 8 中運行嗎 vs code 可以在 Windows 8 中運行嗎 Apr 15, 2025 pm 07:24 PM

VS Code可以在Windows 8上運行,但體驗可能不佳。首先確保系統已更新到最新補丁,然後下載與系統架構匹配的VS Code安裝包,按照提示安裝。安裝後,注意某些擴展程序可能與Windows 8不兼容,需要尋找替代擴展或在虛擬機中使用更新的Windows系統。安裝必要的擴展,檢查是否正常工作。儘管VS Code在Windows 8上可行,但建議升級到更新的Windows系統以獲得更好的開發體驗和安全保障。

vscode在哪寫代碼 vscode在哪寫代碼 Apr 15, 2025 pm 09:54 PM

在 Visual Studio Code(VSCode)中編寫代碼簡單易行,只需安裝 VSCode、創建項目、選擇語言、創建文件、編寫代碼、保存並運行即可。 VSCode 的優點包括跨平台、免費開源、強大功能、擴展豐富,以及輕量快速。

notepad 怎麼運行python notepad 怎麼運行python Apr 16, 2025 pm 07:33 PM

在 Notepad 中運行 Python 代碼需要安裝 Python 可執行文件和 NppExec 插件。安裝 Python 並為其添加 PATH 後,在 NppExec 插件中配置命令為“python”、參數為“{CURRENT_DIRECTORY}{FILE_NAME}”,即可在 Notepad 中通過快捷鍵“F6”運行 Python 代碼。

See all articles