利用GPT-4进行图像识别和文档转换

在当今数字化时代,将纸质文档转换为电子文本的需求日益增长。利用先进的人工智能技术,如GPT-4,可以实现这一目标。本教程将指导如何设置GPT-4的视觉模型,将纸质笔记转换为数字文本,并保存到Google文档中。将使用Roboflow Workflows,这是一个低代码计算机视觉应用构建器,来创建应用程序。让开始吧!通过利用Google API和Roboflow Workflow,可以无缝地将AI驱动的文本识别集成到文档创建过程中。

首先,需要设置一个工作流。Roboflow Workflows是一个基于Web的交互式计算机视觉应用构建器。可以使用工作流来定义可以在云中或自己的硬件上运行的多阶段计算机视觉应用程序。工作流还可以调用外部视觉能力API,如GPT-4,这是将在应用程序中利用的功能。要开始,请首先转到Roboflow应用程序中的工作流部分,然后点击“创建工作流”。接下来,点击“自定义工作流”并点击“创建”。然后,导航到添加块并搜索“LMM”。添加LMM块,并添加提示。这个提示将被发送到GPT与图像一起。发现一个有效的提示是:“将此转换为文本。使其与书写格式相同。例如,如果有空格分隔不同的部分,请添加空格。如果有些文本是加粗的,请添加加粗的文本。”这个提示有效,因为正在创建一个OCR模型。然后打开可选属性标签并添加OpenAI API密钥。接下来,需要将蓝色响应块连接到LMM块。首先点击响应块,然后在右下角添加输出。接下来,添加“$steps.lmm..*”到路径。这将连接LMM到响应。最后,保存工作流,然后点击“部署工作流”以检索部署工作流所需的代码。

为了将Google文档与应用程序连接起来,必须在Google控制台创建一个项目。这是一个简短的视频教程,展示了如何完成此操作。设置完控制台后,创建一个Google文档以链接到文本。此外,获取文档的ID。通过获取“/d/”和“/edit”之间的部分来找到这个ID。确保与服务帐户共享文档。通过导航到IAM找到服务帐户。将他们添加为Google文档的编辑者。

接下来,需要设置代码。首先,设置Colab以使用GPU,使用以下命令。然后,安装inference、opencv-python、roboflow、google-auth和google-auth-oauthlib。获取模型代码,从在Roboflow Workflows构建器中设置的工作流的“部署工作流”选项卡中获取。通过结果,需要获取文本的原始输出。可以通过获取输出的第一个值并从字典中获取原始输出值来实现这一点。加载Google控制台凭据,使用以下代码加载Google控制台凭据。需要编写一些处理逻辑来操作工作流的输出,这在下面的代码片段中定义。第一个函数通过查看它跳过多少行来将字符串分割成部分。第二个函数:进一步将字符串分割成更多的部分,用nothing替换“**”并将is_bold设置为True以识别加粗对象,将行添加到文本,将文本添加到名为requests的列表中,通过存储在字典中,检查文本以查看哪些文本具有加粗特征,并为这些文本提供不同的字典值,返回名为requests的列表。

使用Google API,可以将所有数据放到文档上。主函数:使用load_credentials从JSON文件加载凭据,使用parse_input解析输入字符串,使用generate_requests生成API请求,使用Google文档API发送请求并更新文档。现在所有代码都已编写完成,是时候测试它了。如果通过模型输入这样的图像,模型将能够识别文本,结果如下图像所示。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485