小程序云函数处理图片型PDF，Tesseract.js OCR提取文字失败，报错“未提取到文字，可能是扫描件”怎么解决？

细心的烈酒

发布于
5 月 28 日广西河池市

更新于
5 月 28 日

新手上路，请多包涵

目前基于小程序云函数开发，调用DeepSeek 4Pro模型，用Tesseract.js对图片型PDF做OCR文字提取，但始终返回空内容，数据库报错提示“未提取到文字，可能是扫描件”。尝试过调整图片清晰度、更换PDF样本都没用，有没有遇到过类似情况的朋友，能给点排查方向或替代方案吗？

阅读 504

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

前端使用pdfjs预览pdf文件，文字展示乱码，如何使用系统默认字体展示？
我希望遇到不支持的字体时使用默认字体展示，或者可以加载新增ttf字体文件支持字体（我尝试配置cMapUrl和standardFontDataUrl 但是没有效果）。
2 回答568 阅读

相似问题

前端使用pdfjs预览pdf文件，文字展示乱码，如何使用系统默认字体展示？
2 回答568 阅读

找不到问题？创建新问题