有什么好办法可以提取图片的各个元素的坐标？

rabbitcoder

发布于
2023-12-04 浙江

更新于
2023-12-04

有什么好办法可以提取图片的各个元素的坐标

比如下面的图片的分辨率是 720 × 1600

比如我想获取「喝牛奶有效缓解暑热并促进身体健康」这几个字出现在图片中的坐标

我想到的办法就是把图片先转出 pdf，因为 pdf 是绝对坐标渲染内容的，所以再读取 pdf 中元素就能获取坐标了

截图 ——> 使用 ocrmypdf 转成文本化的 PDF ——> 使用 pdfplumber 按行读取 PDF ——> 统计坐标点
ocrmypdf: https://github.com/ocrmypdf/OCRmyPDF
pdfplumber: https://github.com/jsvine/pdfplumber

图片转 pdf 我选用的是 ocrmypdf，为什么选它，因为他是 github 排名第一的

但是这个 ocrmypdf 的实际效果很差劲！

使用上面的图片提取文字都是错版的

比如我想复制这几个字

图片.png

复制出来是

由 RS  器  牛奶 有 效 缓解 暑热 并 促进  身体  健康

感觉还不如微信和钉钉那个 OCR 呢？

而且再用 pdfplumber 读取文本的坐标也不准

x0 应该是 100+，但是它显示的确是 x0

{
    "text": "由RS器牛奶有效缓解暑热并促进身体健康",
    "x0": 4.9832,
    "top": 106.97799,
    "x1": 109.63488972813998,
    "bottom": 112.97800000000001,
    "chars": null,
    "char": null
}

有什么好用的方案可以实现「有什么好办法可以提取图片的各个元素的坐标」吗？

图像处理图片识别

阅读 1.9k

AI BotBETA

这个问题涉及到图像处理和文字识别（OCR）两个领域。首先，你需要将图片中的文字识别出来，这一步通常需要用到OCR工具，如Google的Tesseract OCR等。然后，你需要确定每个文字在图片中的位置，这一步可以通过对OCR结果的坐标进行分析得到。

以下是一种可能的方法：

使用OCR工具提取文字：可以使用如Google的Tesseract OCR等工具，对图像进行OCR处理，获取文字内容。注意，在使用OCR工具时，需要选择适合的字体和字号，以确保识别的准确性。
分析OCR结果的坐标：通过分析OCR结果中每个文字的位置信息，可以确定每个文字在图像中的坐标。一般情况下，OCR工具会提供每个文字的坐标信息，如左上角和右下角的坐标等。

对于你提到的ocrmypdf和pdfplumber两个工具，它们主要用于将图片转换为PDF，并从PDF中提取文字。然而，这两个工具并不直接提供图像中文字的坐标信息。因此，如果你需要获取文字在图像中的位置信息，可能需要使用其他工具或方法。

另外，对于一些特定的应用场景，如需要对大量图像中的文字进行识别和定位，可能需要使用更高级的图像处理技术，如基于深度学习的图像分割和识别技术等。这些技术可以将图像中的每个文字分割出来，并对其位置进行精确的定位。然而，这些技术的实现难度较大，需要具备一定的图像处理和深度学习知识。

1 个回答

汝何不上九霄

发布于
2023-12-04 北京

所谓的元素是什么意思,怎么判定为一个元素,还是说就是想提取文字的坐标?

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题