Semalt Expert:如何从网页提取文本

尽管有一些抓取工具可以在几秒钟内从多个页面提取数据,但是从网页提取文本的一种可靠方法一直是突出显示和复制文本。但是这种方法比较麻烦,特别是在必须从多个页面复制文本的情况下。而且,Web开发人员正在想出一种方法来锁定网页内容,以防止“复制”它。

“现在开始,有多种从网页提取文本的快速方法。根据要获取的文本量,可以在以下模式之间进行选择:

1.保存页面方法

此技术依赖于浏览器在本地保存当前网页副本的能力。为此,只需将Control + S按钮同时按住即可,或者您可以右键单击页面,然后从弹出菜单中选择“保存页面”。这将启动一个资源管理器窗口,要求您指定网页的某些属性。

在下部,有一个“文件名”选项,您可以借此指定网页文件的名称。重要的是要注意,浏览器还将创建一个名称相似的文件夹,其中将包含来自网页的所有附加数据,例如图像和背景。

在其下,有一个“另存为类型”选项,允许您指定要将文件另存为的文件类型。考虑到我们只对文本感兴趣,请选择另存为“ .txt”,这将自动创建一个包含所有网页文本的文本文件,并且可以使用任何文字处理器进行编辑。在必须复制整页的情况下,此方法特别有用。如果您需要保留文本的某些部分,只需打开文本文件并剪切掉不必要的文本即可。

2. Ctrl + C和Ctrl + V方法

这可能是本书中最古老的技巧,只需使用鼠标突出显示要提取的文本,然后就可以将其复制并粘贴到其他位置。当您需要复制代码片段并在另一个文档中快速使用它们时,此方法很有用。

要执行此操作,需要滚动到包含所需文本的部分,按住鼠标左键将光标从“导航”模式切换到“突出显示”模式。这将使您可以突出显示文本,为此,请继续按住鼠标左键并在周围移动光标以突出显示文本。完成后,释放按钮,然后右键单击已复制的文本以弹出导航菜单。在其上单击“复制”选项以复制所选文本。

导航到您要保存文本的文本文档,然后右键单击以弹出菜单,然后单击粘贴。

重要的是要注意,您可以在各种粘贴模式之间进行选择,但是如果您仅对文本感兴趣,请单击“粘贴为纯文本”。

mass gmail