请教一个网页元素抓取编程问题
我想写一个软件,想实现以下功能:1采集网页上的某些元素
2自动把采集来的一些关键词提交到谷歌关键词工具查询并采集结果
3自动把一些文件上传到某些网站,可能需要设置代理,有可能的话需要输入验证码。
打算用C#来写,请问实现这些功能主要是不是调用webkit这类的浏览器内核来实现呢?
selenium2 搜索web自动化测试工具 yincthh 发表于 2013-8-2 11:39 static/image/common/back.gif
selenium2
非常感谢! beijixing 发表于 2013-8-2 11:51 static/image/common/back.gif
搜索web自动化测试工具
非常感谢! 本帖最后由 joul 于 2013-8-2 18:52 编辑
分析网页元素,如果想自己灵活控制,可以用HtmlAgilityPacK C#的话感觉用HTTP + DOM 灵活些。 C#可以直接调用系统的IE 控件哦,然后根据dom控制赋值和点击等操作哦 我以PHP为例来回答你的问题
1.采集可以用一些采集类,支持模拟UA,获取和保存cookie,redirect这些就差不多了,比如PHP的curl
2.这个应该是解析页面,同理有对应的类
3.代理C#肯定是支持的,验证码如果可以自己识别当然更简单,不能识别可以找一些验证码平台来调用(可能收费) 高手在民间啊
页:
[1]