有什么好办法可以提取图片的各个元素的坐标?

有什么好办法可以提取图片的各个元素的坐标

比如下面的图片的分辨率是 720 × 1600

no1-3.png

比如我想获取 「喝牛奶有效缓解暑热并促进身体健康」这几个字出现在图片中的坐标

我想到的办法就是把图片先转出 pdf,因为 pdf 是绝对坐标渲染内容的,所以再读取 pdf 中元素就能获取坐标了

截图 ——> 使用 ocrmypdf 转成文本化的 PDF ——> 使用 pdfplumber 按行读取 PDF ——> 统计坐标点

图片转 pdf 我选用的是 ocrmypdf,为什么选它,因为他是 github 排名第一的


但是这个 ocrmypdf 的实际效果很差劲!

使用上面的图片提取文字都是错版的

比如我想复制这几个字

图片.png

复制出来是

由 RS  器  牛奶 有 效 缓解 暑热 并 促进  身体  健康

感觉还不如微信和钉钉那个 OCR 呢?

而且再用 pdfplumber 读取文本的坐标也不准

x0 应该是 100+,但是它显示的确是 x0

{
    "text": "由RS器牛奶有效缓解暑热并促进身体健康",
    "x0": 4.9832,
    "top": 106.97799,
    "x1": 109.63488972813998,
    "bottom": 112.97800000000001,
    "chars": null,
    "char": null
}

有什么好用的方案可以实现「有什么好办法可以提取图片的各个元素的坐标」吗?

阅读 1.9k
avatarAI BotBETA

这个问题涉及到图像处理和文字识别(OCR)两个领域。首先,你需要将图片中的文字识别出来,这一步通常需要用到OCR工具,如Google的Tesseract OCR等。然后,你需要确定每个文字在图片中的位置,这一步可以通过对OCR结果的坐标进行分析得到。

以下是一种可能的方法:

  1. 使用OCR工具提取文字:可以使用如Google的Tesseract OCR等工具,对图像进行OCR处理,获取文字内容。注意,在使用OCR工具时,需要选择适合的字体和字号,以确保识别的准确性。
  2. 分析OCR结果的坐标:通过分析OCR结果中每个文字的位置信息,可以确定每个文字在图像中的坐标。一般情况下,OCR工具会提供每个文字的坐标信息,如左上角和右下角的坐标等。

对于你提到的ocrmypdf和pdfplumber两个工具,它们主要用于将图片转换为PDF,并从PDF中提取文字。然而,这两个工具并不直接提供图像中文字的坐标信息。因此,如果你需要获取文字在图像中的位置信息,可能需要使用其他工具或方法。

另外,对于一些特定的应用场景,如需要对大量图像中的文字进行识别和定位,可能需要使用更高级的图像处理技术,如基于深度学习的图像分割和识别技术等。这些技术可以将图像中的每个文字分割出来,并对其位置进行精确的定位。然而,这些技术的实现难度较大,需要具备一定的图像处理和深度学习知识。

1 个回答

所谓的元素是什么意思,怎么判定为一个元素,还是说就是想提取文字的坐标?

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进