普通视图

Received before yesterday不亦乐乎

用python从纯pdf提取信息遇到的坑:1.转图片用OCR识别,图像大小不好把握,而且似乎特耗CPU。2.使用表格识别模块会遇到没有闭合的线段,表格识别不成功。3.划分固定区域提取,不够灵活,遇到歪的就超出区域。4.使用某一点的相对位置来设置区域,参照点不好找,一样有前一个问题的问题。5.还有PDF内容生成不统一的问题,有的PDF按书写顺序制作,有的先模板再填充内容,两者提取内容排列顺序不同。6.多页翻页内容识别问题。#折腾

2025年3月29日 22:46

用python从纯pdf提取信息遇到的坑:1.转图片用OCR识别,图像大小不好把握,而且似乎特耗CPU。2.使用表格识别模块会遇到没有闭合的线段,表格识别不成功。3.划分固定区域提取,不够灵活,遇到歪的就超出区域。4.使用某一点的相对位置来设置区域,参照点不好找,一样有前一个问题的问题。5.还有PDF内容生成不统一的问题,有的PDF按书写顺序制作,有的先模板再填充内容,两者提取内容排列顺序不同。6.多页翻页内容识别问题。#折腾

  •  

学位证书一直找不到,以为是丢了。为了查学位证号,还联系了学校档案馆给开了个证明。孩子他妈看到寄来的证明文件开始翻箱倒柜,然后某天上班在家带娃的女人突然前后甩来两张照片,第一张是学位证书的右半边,表示已经找到。接着是左半边,皮套里塞着另一个女子的照片。“还有个美女的照片”。嗯~实在是不记得什么时候塞进去的了。#闲说

2024年10月11日 21:37

学位证书一直找不到,以为是丢了。为了查学位证号,还联系了学校档案馆给开了个证明。孩子他妈看到寄来的证明文件开始翻箱倒柜,然后某天上班在家带娃的女人突然前后甩来两张照片,第一张是学位证书的右半边,表示已经找到。接着是左半边,皮套里塞着另一个女子的照片。“还有个美女的照片”。嗯~实在是不记得什么时候塞进去的了。#闲说

  •  
❌