在数字化时代,文档的存储和管理方式已经发生了翻天覆地的变化。许多文档从一开始就不是以物理形式存在的,而是以开放或专有的多种格式存在。文件格式的多样性以及文件存储的位置(包括本地计算机、网络文件共享和云服务)进一步增加了文档管理的复杂性。此外,移动设备和平板电脑的普及,它们对某些格式的支持程度不一,进一步强化了对标准化文档归档的需求。
企业依赖信息运行,随着数字档案的规模和多样性的增长,高效准确地在其中查找数据的能力往往跟不上。PDF/A正是为此目的而构建的,但将各种文件格式迁移到PDF/A仍然是一个挑战,因为像TIFF和JPEG这样的光栅图像格式除了文件名之外几乎没有可搜索的特性。本文将探讨如何充分利用PDF/A作为通用文档存储格式,并通过LEADTOOLS文档成像SDK中的最先进技术实现这一点。
多年来,PDF已被广泛认可并采用为文档归档、内容管理、记录保留、风险管理、诉讼和发现的最佳格式。特别是PDF/A子格式,它专门设计用于归档和未来证明。PDF/A是完全自包含的,将字体、颜色管理、注释、图像等存储在文件本身中。这确保了文档在操作系统、设备、监视器和默认字体不断变化的情况下,外观多年不变。
标准化归档将在存储分配、生产力和成本方面带来许多好处。能够找到和查看文档的问题大大减少,因为PDF是一个广泛支持的格式。选择使用PDF/A作为唯一的文档归档格式无疑是明智的,但这只是解决了整体问题的一部分。尚未解决的问题包括转换多样化的归档和确保所有进一步的存储以统一的方式进行。
如果对这种情况感到熟悉,请看LEADTOOLS。它的文档成像SDK涵盖了实现通用PDF/A文档归档所需的全部成像技术。
LEADTOOLS提供了对PDF格式的完全控制,包括提取文本、超链接、书签和元数据等高级功能,以及更新、拆分和合并现有PDF文档的页面。凭借LEAD Technologies在图像压缩方面数十年的专业知识,其PDF SDK还提供了行业表现最佳、最多样化的PDF压缩选项,包括JBIG、JPEG2000和混合光栅内容。还包括在类似商业SDK中通常难以找到的功能,包括读取、显示、编辑和写入原生PDF注释和标记,这些功能与Adobe Acrobat和其他兼容PDF查看器无缝协作。
而不是受PDF文件格式和PDF编辑功能的高昂成本的摆布,LEADTOOLS将为归档系统打开难以置信的机会,并将所有的决策和定制权掌握在手中。
LEADTOOLS轻松应对将现有归档中的混合文件格式迁移到统一的PDF/A归档的问题。它能够加载、保存和转换超过150种光栅、矢量和文档文件格式,可以确信基础将得到覆盖。
由于并非所有格式都是基于文本和可搜索的,LEADTOOLS可以使用其快速且高精度的光学字符识别技术将这些图像转换为可搜索的PDF/A。LEADTOOLS中的高级OCR SDK支持超过四十种语言和字符集,包括英语、西班牙语、法语、德语、日语、中文、阿拉伯语等,使其成为在全球多个国家/地区运行和服务的大型企业可靠的解决方案。
大多数基于文本的PDF文件也比它们转换的原始光栅图像的文件大小小。此外,所有这些都可以仅用三行代码完成。
C#
IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Advantage,
false
);
ocrEngine.Startup(
null
,
null
,
null
,
null
);
ocrEngine.AutoRecognizeManager.Run(_strInputFile, _strOutputFile, DocumentFormat.Pdf,
null
,
null
);
如果大多数应用程序有什么共同点,那就是它们都有打印的能力。毕竟,这是文档归档需求的起点。与其将文档打印到纸张上,然后再使用扫描仪和OCR将它们转换回可搜索的数字介质,LEADTOOLS虚拟打印机可以直接从一开始就完成这项工作。
这种方法不仅处理通常会打印的文档,还允许归档包括电子邮件、传真、网站、社交媒体和几乎任何文件格式的其他信息来源。作为额外的好处,打印的大多数文档和材料都是文本,这意味着生成的PDF已经是可搜索的,不需要特殊处理,并且100%准确到原始文档。
C#
DocumentWriter _documentWriter;
public
void
_printer_EmfEvent(
object
sender, EmfEventArgs e)
{
//
Create a new document page and pass the EMF in e.Stream
DocumentPage documentPage = DocumentPage.Empty;
documentPage.EmfHandle =
new
Metafile(e.Stream).GetHenhmetafile();
//
Load EMF as raster for image over text
e.Stream.Position =
0
;
documentPage.Image = _codec.Load(e.Stream);
//
Add the page
_documentWriter.AddPage(documentPage);
}
public
void
_printer_JobEvent(
object
sender, JobEventArgs e)
{
if
(e.JobEventState == EventState.JobStart)
{
//
Initialize DocumentWriter
PdfDocumentOptions pdfOptions =
new
PdfDocumentOptions();
pdfOptions.DocumentType = PdfDocumentType.PdfA;
pdfOptions.FontEmbedMode = DocumentFontEmbedMode.Auto;
pdfOptions.ImageOverText =
true
;
_documentWriter =
new
DocumentWriter();
_documentWriter.SetOptions(DocumentFormat.Pdf, pdfOptions);
_documentWriter.BeginDocument(_pdfFileName, DocumentFormat.Pdf);
}
else
if
(e.JobEventState == EventState.JobEnd)
{
//
Add fonts and end the document
AddAndInstallFonts(e.JobID);
_documentWriter.EndDocument();
//
Load PDF
System.Diagnostics.Process.Start(_pdfFileName);
}
}
最后,LEADTOOLS虚拟打印机还可以配置为在服务器上运行,并通过公司的局域网或通过互联网打印协议(IPP)在Web上访问。这种灵活性使虚拟打印成为通过中央业务工作流程过程自动归档信息,从而维护归档到未来的优秀解决方案。
仅仅因为将文档保存为PDF,并不意味着不能从查看器中受益。尽管PDF被如此广泛采用,以至于很少有人考虑有人无法加载它,但在大多数情况下仍然需要插件和查看应用程序。通过使用LEADTOOLS中的基于HTML5和JavaScript的查看器,可以构建一个真正的基于云的图像查看解决方案,无需插件或下载。所有繁重的图像处理和显示都在客户端完成,从而实现快速显示时间和响应式用户界面。
有了LEADTOOLS,将文档存储标准化为PDF/A不再是一个艰巨、复杂和昂贵的任务。转换现有文件、管理和标准化PDF以及创建全面业务工作流程所需的一切都包含在适用于多个平台的程序员友好库中。可以安心地知道,公司依赖于高效和生产力运行的所有信息都将得到适当的归档和随时可用。