在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
这方面的文章多得很,我这里把一些细节说一下。 1. 选用C#中的HttpWebRequest、HttpWebResponse和CookieContainer类。HttpWebRequest是用来提交web请求的,包括post和get;HttpWebResponse是用来接收服务器对本次请求的回复;CookieContainer是用来存放Cookie的集合,有些页面只有登录用户才能查看。这个时候就需要保存Cookie,以便使登录时建立的session保存下来这样服务器就会认为我们一直是登录状态了。 2. 在浏览器中正常登录一次,查看登录时的post信息。我推荐使用FireFox浏览器+HttpFox插件。主要是查看post字符串和提交的URL。比如登录上交葡萄(http://pt.sjtu.edu.cn/login.php),post的字符串为“username=test&password=123456”,对应的URL为“http://pt.sjtu.edu.cn/takelogin.php”。在HttpWebRequest中设置一些这些属性即可实现登录功能,关键的代码如下: string data = "username=test&password=123456"; 3. 如果服务器端设置了CAS服务器,登录过程就会复杂一些。首先也是用HttpFox查看登录过程,会发现当post用户名+密码后,会得到CAS服务器回送的一个转移地址(临时生成的URL)。访问该URL,服务器回送一个JSESSIONID,作为本次会话的凭据,也是唯一的。将该JSESSIONID加入到CookieContainer中: cookie.Add(new Uri("http://passport.xjtuns.cn"), new Cookie("JSESSIONID", jsessionid)); 这时就已经登录了,可以访问登陆后才能访问的页面。 4. 最困难的情况,就是登陆页面上面有图片形式的验证码,我想到的解决方案有:人工参与、设置cookie和图片识别。第一种方法,就是在试图登录时,将页面的验证码图片下载到本地,人眼识别后由程序继续进行下面的工作。第二种方法,首先在浏览器中登录一次,记录下cookie中的信息(一般是c_expiresintv、c_secure_uid、 c_secure_pass、 c_secure_ssl、c_secure_login等信息,通过HttpFox都可以查看到),然后在程序中设置User-Agent和这些cookie数据,冒充浏览器。当然这个过程中,不要关闭浏览器。第三种方法比较困难,需要设计图像处理和模式识别的算法,而且一旦一次提交错误,服务器会更新验证码图片。 如果验证码是纯数字的,我的下一篇文章(http://blog.csdn.net/zheng_ai/archive/2010/08/15/5813693.aspx)或许能有所帮助。 |
2023-10-27
2022-08-15
2022-08-17
2022-09-23
2022-08-13
请发表评论