注册登录

首页 / 电脑教程 / 教程详解

欢迎您访问我爱IT技术网，今天小编为你分享的电脑教程是通过网络精心收集筛选的最优节选：“抓取网页指定内容（资料），获取网页里的图片”，请注意：文中所谈及的内容不代表本站的真正观点，也请不要相信各种联系方式。下面是关于网络上抓取网页指定内容（资料），获取网页里的图片的整理详细信息

本文发布时间:2016-04-14 14:11 编辑:勤奋者

! 分享

抓取网页指定内容（资料），获取网页里的图片

类别：电脑关键词：

精选教程

详细操作

获取网页指定文字：

目前按键支持的元素特征值有这些： frame（框架）、id（唯一标识）、tag（标签）、type（类型）、txt（文本）、value（特征）、index（索引）、name（名字）拥有这些特征值的元素才能直接使用HtmlGet命令来获取元素文本信息。

命令名称：

HtmlGet 获取网页元素的信息

命令功能：

获取网页元素指定属性的信息

命令参数：

参数1：字符串型，网页元素属性类型：text、html、 outerHtml、value、 src、 href、 offset

参数2：字符串型，网页元素特征字符串

例如下面的例子，按键精灵论坛搜索框，它有type、name、id这三个特征值

抓取网页指定内容（资料），获取网页里的图片

获取网页指定文字：

目前按键支持的元素特征值有这些： frame（框架）、id（唯一标识）、tag（标签）、type（类型）、txt（文本）、value（特征）、index（索引）、name（名字）拥有这些特征值的元素才能直接使用HtmlGet命令来获取元素文本信息。

命令名称：

HtmlGet 获取网页元素的信息

命令功能：

获取网页元素指定属性的信息

命令参数：

参数1：字符串型，网页元素属性类型：text、html、 outerHtml、value、 src、 href、 offset

参数2：字符串型，网页元素特征字符串

例如下面的例子，按键精灵论坛搜索框，它有type、name、id这三个特征值

抓取网页指定内容（资料），获取网页里的图片

成功获取到了搜索框的value值。

我们现在想要取下面红色区域块的帖子标题，想要把一个页面中的这些帖子名称都取出来。该怎么办？

抓取网页指定内容（资料），获取网页里的图片

这些文字，都没有特征值的。我们不能使用特征值的方式去找他们。

我们可以这样—— 获取到整个网页的文本之后，去找我们要取的标题，前后不变的字符。

抓取网页指定内容（资料），获取网页里的图片

大家会发现，这个页面中，帖子标题前后不便的字符是：“]“ 和 “果果。。“ 那我们就将”]“字符前面的文本都过滤掉，“果果。。“后面的文本也过率掉，这样就能得到我们所需要的文本。

首先，我们需要复习下几个函数：

InStr函数

描述

start

可选的。规定每次搜索的起始位置。默认是搜索起始位置是第一个字符。如果已规定 compare 参数，则必须有此参数。

string1

必需的。需要被搜索的字符串。

string2

必需的。需搜索的字符串。

compare

必需的。规定要使用的字符串比较类型。默认是 0 。可采用下列值： 0= vbBinaryCompare - 执行二进制比较。 1 = vbTextCompare - 执行文本比较。

Mid函数

描述

string

必需的。从其中返回字符的字符串表达式。如果字符串包含 Null，则返回 Null。

start

必需的。规定起始位置。如果设置为大于字符串中的字符数目，则返回空字符串("")。

length

可选的。要返回的字符数目。如果省略或 length 超过文本的字符数，将返回字符串中从 start 到字符串结束的所有字符。

Len函数

描述

string

任意有效的字符串表达式。如果 string 参数包含Null，则返回 Null。

varname

任意有效的变量名。如果 varname 参数包含 Null，则返回 Null。

抓取网页指定内容（资料），获取网页里的图片

脚本过程：

1. 先打开一个要提取信息的网站。

2. 用 HtmlGet 命令获取整个网页的文本信息，存到Txt变量里面

3. 过滤]符号前面的文本

4. 从文本里的"]"符号后面的位置开始取字符串，这里取了一百个字符放到命名为cc的变量里。如下图，也可以设置取80个字符，60个字符，但是长度一定要把“果果。。” 给截进来，因为后面我们要通过“果果。。”作为基准，去过滤掉不要的文字。

5. 在cc变量里，找果果。。出现的位置，找到之后，截取“果果。。”之前的文本，也就是我们需要接取的地方。

6. 最后，设置叠加的变量x，把每次找到的"]" 这个符号的位置放到变量x里进行累加，累加之后第二次循环，就会跳过之前找过的内容，进行新的内容的寻找。

源码：

Call Plugin.Web.Bind("WQM.exe")

Call Plugin.Web.go("http://bbs.anjian.com/forum-250-1.html") //要提取信息的网站

Delay 1000 // 如果网页打开速度慢，可适当添加延迟

Txt =Plugin.Web.HtmlGet("text","") //获取网页的文本

x=1

Do

aa = "]" //过滤]符号前面的文本

bb = InStr(x, Txt, aa) // 返回aa变量里的"["这个字符在整个网页文本txt里的位置

cc = Mid(Txt, bb + Len(aa), 100)//从文本里的"]"符号后面的位置开始取字符串，这里取了一百个字符

dd = InStr(1, cc, "果果。。")//找cc字符串里，果果。。出现的位置，果果。。的位置就是我们要接取的字符串的长度

ee = Mid(cc, 1, dd)//从文本里cc里第一个字符开始，取到果果。。文字出现的位置

If Len(ee) <> 0 Then //判断有没有取到匹配的字符

pp = Left(ee, Len(ee)-1) //如果有取到，我们还要做下处理，因为前面ee字符串是取到了果果。。出现的位置，所以果字也被取了，我们这里长度-1，去掉果字

TracePrint pp

x = InStr(x, Txt, pp) //这里做个记号，把每次找到的"]" 这个符号的位置进行累加，累加之后第二次循环，就会跳过之前找过的内容，进行新的内容的寻找。

Else

Exit Do //如果没有找到匹配的就退出

End If

Loop

最终效果：

标题后面的？…234这样的字符是帖子总回帖的页数

抓取网页指定内容（资料），获取网页里的图片

获取网页图片

我们截图按键精灵官网的图标：

抓取网页指定内容（资料），获取网页里的图片

我们可以查看图片的具体地址

代码如下：

Call Plugin.Web.Bind("WQM.exe")

Call Plugin.Web.Go("http://www.anjian.com") //打开按键官网地址

Call Plugin.Web.Save("http://www.anjian.com/images/logo.gif", "d:\123.gif")

Delay 3000

RunApp "mspaint.exe"&" d:\123.gif" //打开画图工具，看看保存的图片的效果

命令名称：

Save 保存网页或图片

命令功能：

保存指定URL的文件到本地磁盘

命令参数：

参数1：字符串型，需要保存的目标Url 参数2：字符串型，本地文件名

最终效果：

抓取网页指定内容（资料），获取网页里的图片

大家有没有注意到，这里的按键精灵官网图标，是gif格式的，可以保存。如果是一个链接呢？

例如，腾讯QQ注册页面里的这种验证图片：

抓取网页指定内容（资料），获取网页里的图片

大家看，它的图片是保存在一个链接里的，这样就无法获取。

抓取网页指定内容（资料），获取网页里的图片

地址是没有变化的，但是点击进去之后，生成的就是另一张验证图片了。

抓取网页指定内容（资料），获取网页里的图片

所以，遇到这种链接方式的图片，大家还是使用查找图片的区域坐标，然后用屏幕范围截图命令来截图保存：

//下面这句在屏幕区域范围内截图保存到(内存)里，以备后面调用。

Call Plugin.ColorEx.PrintScreen(0, 0, 1024, 768)

//下面这句在屏幕区域范围内按方式0，查找颜色,返回左上角第一点颜色位置坐标

XY = Plugin.ColorEx.FindColor(0, 0, 1024, 768, "0000FF", 1, 0)

//下面这句用于分割字符串

ZB = InStr(XY, "|")

//下面这句将字符串转换成数值

X = Clng(Left(XY, ZB - 1)): Y = Clng(Right(XY, Len(XY) - ZB))

//释放屏幕截图信息时请使用以下命令

Call Plugin.ColorEx.Free()

抓取网页指定内容（资料），获取网页里的图片

用户类似问题：

问题1：从指定网页抓取指定内容属于什么知识呢

这不就是网页数据采集嘛，其实要是写程序的话很多高级语言都可以，c#,java都不错的，不过要写一个这样的程序也不容易，不如直接用专业的网页数据采集工具，推荐八爪鱼采集器，操作简单，功能强大，采集天气肯定没问题 >>详细

问题2：如何编写一段小程序，抓取网页指定内容

按键精灵~ >>详细

问题3：如何获取网页的指定文字内容

抓取和分析一个文件是非常简单的事。这个教程将通过一个例子带领你一步一步地去实现它。让我们开始吧！首先，我首必须决定我们将抓取的URL地址。可以通过在脚本中设定或通过$QUERY_STRING传递。为了简单起见，让我们将变量直接设在脚本中。 ... >>详细

问题4：如何获取网页中的所有图片，包括背景图片

打开你所浏览的页面，如果要获取该网页的所有图片及背景图片，点网页右上角文件，然后点另存为，如下图所示在弹出的对话框里，保存类型选择全部。然后，在下载的文件里，你就可以看到图片了，还有其他的JS,CSS文件都下载下来了，背景图片，有... >>详细

问题5：抓取网页内容

给个思路,读源码到文本里,在文本中搜索关键字 >>详细

评论列表（网友评论仅供网友表达个人看法，并不表明本站同意其观点或证实其描述）

抓取网页指定内容（资料），获取网页里的图片

详细操作

用户类似问题：

问题1：从指定网页抓取指定内容属于什么知识呢

问题2：如何编写一段小程序，抓取网页指定内容

问题3：如何获取网页的指定文字内容

问题4：如何获取网页中的所有图片，包括背景图片

问题5：抓取网页内容

最新教程

热门教程