一天,學妹來問問題了。
人盡皆知,凡是學妹問問題呢~身為學長的就沒有不戮力解決的道理 XD
這次學妹的問題是說,有一客戶寄來了一大堆的 PDF 檔案,這些PDF都是已經無法編輯的那種(圖片化了),還有一些掃描的文件 Jpg 圖檔,說是得轉為網頁內容,所以要逐一騰打為文字。
算一算,這麼多的資料,就算打字特別快,也要花個好幾天吧?
所以來問:聽說有一種什麼功能的軟體,是可以把圖片變成文字?是嗎?
圖片變成文字?
你是說...OCR嗎?Optical Character Recognition?光學文字辨識系統?
學妹拼命點頭,就是這個,有什麼好推薦的?快說!
想想真的是好久沒有用過OCR,上次用,感覺都過了十幾年有了,不確定現在哪一個辨識系統比較好,或是在辨識中文上有沒有什麼樣的問題?
正想打開 Google 查一下,這就想起,眼前不就是有一個免費,中文辨識能力又非常好的 OCR 工具嗎?
免費中文 OCR 軟體推薦:Google Docs
其實可以進行中文辨識的工具很多,除了安裝特定的 OCR 軟體以外,也有很多是線上工具,不用下載,免去安裝,像是 Evernote 這樣的網路服務,或是手機上也有蠻多 App 也有這類功能。
不過若真的要推薦,那麼 Google Docs 應算是最好用的一個工具了。
Google Docs!?
嗯~沒看錯,就是 Google 雲端硬碟裡的那個 Google 文件。
Google 文件提供文字辨識也有好一段時間了,記得很早很早以前,就已經提供了 PDF 直接轉為文件檔,這個轉換的功能,其中有很多時候就是在背景裡使用了文字辨識(OCR)的技術,所以之前的印象是錯的,過去這段時間,斷斷續續的都有在使用中文辨識系統,只是因為太方便了,所以完全沒有感覺是在『進行』一個OCR的程序 :p
接下來就跟大家分享一下,如何使用 Google Docs 來進行文字辨識吧!
PDF 檔轉換為文字檔
首先來聊聊 PDF 檔轉為文字檔。
一般來說,PDF 在存檔的時候,是可以存為可編輯,或是變成圖片化的。
可編輯的 PDF,其實就是一個格式化的文字檔,只要用相對應的軟體,像是 Adobe 自家的 PDF 工具,或是線上也有很多免費的 PDF 工具都可以直接轉存為純文字檔案(或是同樣帶有格式的Word文稿)。
就算不轉存,在 Mac 上直接以預覽程式開啟 PDF,也可以把文字全選,複製,得到檔案中的文字內容。
所以這種 PDF 基本上處理起來,難度不高,就算不轉存,在 Mac 上直接以預覽程式開啟 PDF,也可以把文字全選,複製,得到檔案中的文字內容。
而另一種已被圖片化的 PDF,由於每一個頁面都已經被存成圖片格式,所以無法事後編輯,這時候,就要用到文字辨識 OCR了。
用 Google Docs 來把 PDF 檔 OCR 轉存為文字格式非常簡單,步驟如下:
- 開啟 Google Docs。
- 選擇『新增』>『檔案上傳』。
- 然後把要轉換的 PDF 傳上去。
- 上傳完畢後,在雲端硬碟的檔案列表中,就會看到新上傳的那個 PDF 檔(檔案圖示顯示為 PDF)。
- 開啟這個 PDF(滑鼠點擊兩下)。
- 開啟 PDF 後,Google Docs 的介面比較像是預覽,而不是編輯介面,這個時候,點選頁面上方的:使用 『Google 文件』開啟。
- 接下來,Google Docs 就會自動把這個圖片格式的 PDF 轉換為純文字。
- 收工。
依據過去的經驗,有時候 Google 文件轉換後,會保留一些些圖片上原始文稿的格式。
像是如果有所謂的『項目符號(就是段落前面有點點的,或是有1. 2. 3. 這樣的編號)』,或是粗體的標題字等等,但大部分的格式是會被清除掉的。
額外 PDF 轉換為文字檔的小技巧
先前有提到有些可編輯的 PDF,很多軟體都可以轉存為像是 Word 的文字格式,Google 文件也可以。
不過在使用 Google Docs 來轉換這些可編輯的 PDF 時,有時候轉換的效果還蠻悽慘的。
雖然不一定每次都這樣,但大家可以試試看,如果手上有一個可編輯的 PDF,在 Google 文件裡轉存為文字檔時,經常會發生一些格式上的大崩壞,或是中英文混雜的文稿,變成只有英文,中文就被消失了,或是反過來,只留下中文,英文都不知上哪去了。
要不就是有些段落錯位的嚴重,段落內的文字混雜在一起,光是整理起來就要耗費不少功夫。
這時候,大家可以先試著把這個可編輯的 PDF,逐一的轉存成圖片格式,像是 Jpeg, Tiff, PNG 等,然後再傳上 Google 文件,讓他來辨識,效果會比較好,起碼文字的部分會比較整齊。
圖片檔轉存為文字檔
處理了 PDF 之後,我們再來看看一個圖片檔,要怎麼轉存為文字檔呢?
當然,這個前提是圖片本身就是文件的掃描檔、或是硬拍照,或最起碼是要有幾個文字在上頭的,Google Docs 可無法把一張彩雲夕陽大景的照片,OCR 為一篇詩詞謳歌的 XD
作法上,跟之前轉存 PDF 幾乎是一模一樣的,唯一不同之處,是在開啟後,有時候在頁面上方,不會出現使用 『Google 文件』開啟這個選項,所以步驟會有一點點不同。
- 一樣先開啟 Google Docs。
- 也是同樣選擇左側邊上方的『新增』,然後點選『檔案上傳』。
- 然後把要轉換的圖片檔傳上去。
- 上傳完畢後,在雲端硬碟的檔案列表中,找到新上傳的圖片,然後按下滑鼠右鍵,選擇第二個功能表:選擇開啟工具。
- 在選擇開啟工具的選單中,第一個就是 Google 文件,點選他。
- 然後就跟上面的 PDF 轉換是一樣的了,Google Docs 會自動把這個圖片轉為文字。
- 收工。
在 Google Docs 中,把圖片轉為文字後,轉換好的文件中,頁面的上半部,會插入原始的那張圖片,而 OCR 文字辨識後的內容,則是放到這個原始圖片的下方,等核對好了原始圖片和文字辨識後的內容無誤,就可以把原始圖片刪除了。
Google Docs 的中文辨識效果
由於我沒有測試過其他的OCR軟體,所以這裡就不去做比較,僅就 Google 文件自身的辨識能力與速度來分享。
之前曾經用這種方式,轉換過幾種不同的圖片來源,像是:
- 掃描過的一般餐廳的菜單,或是手機翻拍的菜單,辨識效果很好,幾乎沒有錯字(印象中,是完全沒有錯字)。
- 翻拍的藥品、食品外包裝盒上的文字,有些實在很小的字會亂掉,大致也還好,不過那些無法順利辨識成功的部分,事實上是連肉眼看也很難辨識,但 Google Docs 還是有辨識出來一些些。
- 掃描的報表、文件、會議記錄(打字稿),辨識率也幾近100%。
總的來說,只要來源不是手寫稿,辨識起來都沒有問題。
速度上也很快,很便利。
同時最好的一點是,在 Google 雲端上,只要是轉存成文字檔這種格式的文件,通通不算空間,OCR結束後,核對無誤,就可以把原圖刪去,你看看,這個既不用安裝,也不用耗費本機電腦的硬碟容量、資源,速度又快,辨識又準確,還不用錢,難道不試試嗎?
我們也有臉書專頁了,歡迎大家按讚加入喔: @5min.reading