InvoiceNet与OCR技术整合:实现多引擎发票文本提取

【免费下载链接】InvoiceNet Deep neural network to extract intelligent information from invoice documents. 【免费下载链接】InvoiceNet 项目地址: https://gitcode.com/gh_mirrors/in/InvoiceNet

InvoiceNet是一款基于深度神经网络的智能发票信息提取工具,它通过整合OCR(光学字符识别)技术,能够自动从发票文档中提取关键信息。本文将详细介绍InvoiceNet如何与OCR技术整合,实现多引擎发票文本提取,帮助用户快速、准确地获取发票数据。

多OCR引擎支持:灵活选择满足不同需求

InvoiceNet支持多种OCR引擎,用户可以根据实际需求选择合适的引擎进行文本提取。目前支持的OCR引擎包括pytesseract和aws_textract。

在项目的prepare_data.py文件中,我们可以看到相关的代码实现:

ap.add_argument("--ocr_engine", type=str, default='pytesseract',
                help='OCR used to extract text', choices=['pytesseract', 'aws_textract'])

pytesseract是一款开源的OCR引擎,它基于Tesseract OCR引擎开发,具有较高的识别 accuracy。而aws_textract则是亚马逊提供的云端OCR服务,具有更强的处理能力和更高的识别率。

直观的用户界面:轻松操作OCR文本提取

InvoiceNet提供了直观的图形用户界面,用户可以通过简单的操作实现OCR文本提取。在invoicenet/gui/extractor.py文件中,我们可以看到相关的代码实现:

options.add_item('Run OCR', self._run_ocr, seperator=True)

这行代码在界面中添加了一个"Run OCR"的选项,用户点击后即可启动OCR文本提取功能。

InvoiceNet OCR文本提取界面

从上图可以看到,InvoiceNet的界面分为左右两个部分。左侧是发票预览区域,右侧是提取结果展示区域。用户可以在右侧选择需要提取的字段,如发票号码、供应商名称、发票日期等,然后点击"Extract"按钮即可开始OCR文本提取。

核心功能实现:OCR文本提取的关键代码

invoicenet/common/util.py文件中,实现了OCR文本提取的核心功能:

def extract_words(img, height, width, ocr_engine='pytesseract'):
    if ocr_engine == 'pytesseract':
        data = pytesseract.image_to_data(img, output_type=Output.DICT)
    elif ocr_engine == 'aws_textract':
        # AWS Textract相关代码

这段代码定义了一个extract_words函数,它根据选择的OCR引擎,调用相应的OCR接口来提取图像中的文本信息。对于pytesseract引擎,使用pytesseract.image_to_data方法来获取文本数据;对于aws_textract引擎,则会调用AWS Textract的相关接口。

安装与使用:快速上手InvoiceNet

要使用InvoiceNet进行OCR文本提取,首先需要安装相关的依赖包。在setup.py文件中,我们可以看到pytesseract的安装配置:

"pytesseract==0.3.7",

用户可以通过以下命令克隆仓库并安装依赖:

git clone https://gitcode.com/gh_mirrors/in/InvoiceNet
cd InvoiceNet
./install.sh

安装完成后,用户可以运行trainer.py启动InvoiceNet的图形界面,然后按照界面提示进行操作,轻松实现发票文本的提取。

总结:InvoiceNet带来高效准确的发票信息提取体验

通过整合OCR技术,InvoiceNet实现了多引擎发票文本提取,为用户提供了高效、准确的发票信息提取解决方案。无论是个人用户还是企业用户,都可以通过InvoiceNet快速获取发票中的关键信息,提高工作效率。

如果你需要处理大量发票文档,不妨尝试使用InvoiceNet,体验智能发票信息提取的便捷与高效!🚀

【免费下载链接】InvoiceNet Deep neural network to extract intelligent information from invoice documents. 【免费下载链接】InvoiceNet 项目地址: https://gitcode.com/gh_mirrors/in/InvoiceNet

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐