从图像中提取文本的前5个Python库

提取图像文本的前5个Python库

理解和掌握OCR工具用于文本定位和识别

Photo by Anna Sullivan on Unsplash

光学字符识别是一个古老但仍具有挑战性的问题,涉及从非结构化数据(包括图像和PDF文档)中检测和识别文本。它在银行、电子商务和社交媒体内容监管等领域有着很酷的应用。

但是,像数据科学中的任何主题一样,当尝试学习如何解决OCR任务时,有大量的资源可供参考。这就是为什么我写了这个教程,它可以帮助你入门。

在本文中,我将展示一些Python库,可以让你轻松从图像中提取文本,无需太多困扰。库的解释后面是一个实际示例。所使用的数据集来自Kaggle。为了简化概念,我只使用了《极速风暴》电影的一张图片。

让我们开始吧!

来自textOCR数据集的图片。来源:

目录:

  1. pytesseract
  2. EasyOCR
  3. Keras-OCR
  4. TrOCR
  5. docTR

1. pytesseract

这是最流行的Python库之一,用于光学字符识别。它使用Google的Tesseract-OCR引擎从图像中提取文本。支持多种语言。如果你想查看你的语言是否被支持,请在这里查看。你只需要几行代码就可以将图像转换为文本:

# 安装!sudo apt install tesseract-ocr!pip install pytesseractimport pytesseractfrom pytesseract import Outputfrom PIL import Imageimport cv2img_path1 = '00b5b88720f35a22.jpg'text = pytesseract.image_to_string(img_path1,lang='eng')print(text)

这是输出结果: