拿到一份图片或扫描版的PDF文件,如果想要对其进行编辑修改该怎么办?当然首先想到的方法就是一个字一个字的通过键盘敲击出来,但这仅限于对短篇文档而言,如果遇到一篇包含几百页乃至上千页内容的PDF文档,我们唯一可以考虑的方便就只能是先对文档进行OCR处理,然后进行编辑,下面大连天问小编说下自己的方法。
大连天问黑白文本输出
OCR是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。当需要将纸质文档扫描并创建成电子文档或对现有的PDF文档进行操作时,OCR是最常用的一种方式。
打开基于纸质扫描或图片的PDF文档时,福昕PDF套件能自动检测到并弹出以下信息框,提示您是否进行OCR。
在单个PDF文件中识别文本,请按以下步骤操作:
点击“主页”〉“转换”〉“OCR”〉“当前文件”,在弹出的“选择OCR引擎”对话框中,指定识别范围。
大连天问PDF文档编辑修改
从语言列表中选择文档的语言,您也可以选择多种语言,为了OCR结果的准确性,建议文档中包含的语言都要选择;
在“输出类型”中,勾选“可搜索文本的图片”,这样您在查找文本时也可以搜索到文档中图片上的文本,点击“确定”开始识别文本;
在文本识别过程中,会有进程条弹出显示文本识别的进程。在识别结束后,再执行搜索功能,您会发现原来在图片上或扫描文档中的文本也可以被搜索到。如果您在“输出类型”中选择了“可编辑文本”,原文档中的图片对象将被移除,只剩下从此图片中识别出的文本。
在多个文件中识别文本时,您可以在OCR处理时选择“多个文件”,并在弹出的“OCR多个文件”对话框中,点击“添加文件”添加文件或文件夹,并可以调整文件的识别顺序,其他同单个文件相同。
对于多个文本块的编辑,您还可以将多个文本块“链接”在一起或将若干独立的文本块“合并”成一个段落。“链接”工具可将多个文本块链接在一起,成为一个整体。在这个整体中编辑文本时,文本将自动重排,且不会覆盖这些文本块之间的图像等页面对象。“合并”工具可将多个文本块合并成一个段落,实现文本的自动重排。用“编辑文本”工具添加或删除文本时,合并后的文本将被作为一个对象进行编辑。大连天问彩艺图文有限公司www.dltianwen.com