用Ruby写的离线浏览代理服务器，只有两百多行代码

原作者: [db:作者] 来自: [db:来源] 收藏邀请

10月12日突然对Ruby产生兴趣了，于是就找了本书《Programming Ruby 1.9》来看，结果被它迷上了。长期以来我一直认为我知道的各种编程语言都不够好，一直想自己设计一门语言。看了Ruby之后，发现的它的语法和语义正是我想要的，尤其是它的Mix in机制，是我寻找了好久的一个功能，Ruby有了，而且实现的很好，这一点很令人兴奋。唯一不同的是我想设计的是静态类型的语言，而Ruby是动态类型的，一旦引入类型的声明，语法就会很复杂，比如Scala，各有优劣，Scala也是个不错的语言。

上次学Lua的时候，两天学会，然后两天做了一个练习《绘制任意二元不等式的图像表示》。Ruyb比Lua复杂很多，要想学会估计至少需要两个星期。连着看了四五天书以后，每天一段时间看书，一段时间做练习。这次做什么练习呢？离线浏览代理服务器。

老早以前使用离线浏览的目的有两个：一是网速很慢，提前把网页下载好后，就可以飞速浏览；二是做电子书，把把网页下载到文件里，适当地做一些编辑，然后编译成CHM格式的电子书。现在做离线浏览则有两个新的目的：一是保存有时效的内容，比如cnBeta网站的新闻评论在文章发布24小时之后就不再显示了，保存到本地之后则可以不受此限制；二是可以内建一个搜索引擎，检索自己需要的内容。根据这两个目的，确定的方案是把网页下载保存到数据库里，然后做一个代理服务器，当请求的网址在数据库中存在时从数据库返回内容，不存在时再从外网获取内容。以下是我的实现：

webclient.rb 访问网址，返回响应

 1require 'net/http'
 2
 3module Proxies
 4  Fiddler = Net::HTTP::Proxy('localhost', 8888)
 5end
 6
 7class WebClient
 8  def initialize(proxy = nil, user_agent = 'WebSpider')
 9    @http = if proxy then proxy else Net::HTTP end
10    @user_agent = user_agent
11  end
12
13  def visit(url, params = nil, rest = nil)
14      uri = URI.parse(URI.encode(url))
15      uri.query = URI.encode_www_form(params) if params
16      puts "Get #{uri}"
17      @http.start(uri.host, uri.port) do |http|
18        request = Net::HTTP::Get.new uri.request_uri
19        request["User-Agent"] = @user_agent
20        response = http.request request
21
22        puts "#{response.code}#{response.message}"
23        puts "wait #{sleep rest}" if rest
24        response
25    end
26  end
27end

mongodoc.rb 把要保存到数据库的数据转成hash表

 1module MongoDoc
 2  module Document
 3    def to_hash
 4      hash = {}
 5      instance_variables.each do |var|
 6        key = var.to_s.delete('@')
 7        hash[key] = instance_variable_get(var)
 8      end
 9      hash
10    end
11  end
12end

website.rb 定义网站和网页类

 1require_relative 'mongodoc'
 2
 3class Website
 4  attr_accessor :domain, :encoding
 5  def initialize(domain, encoding)
 6    @domain = domain
 7    @encoding = encoding
 8  end
 9end
10
11class Webpage
12  include MongoDoc::Document
13  attr_accessor :url, :data
14  def initialize(url, data)
15    @url = url
16    @data = data
17  end
18end

database.rb 创建数据库连接

1require 'mongo'
2
3DbServer = "mongodb://localhost:27017"
4WebsitesDb = Mongo::Connection.from_uri(DbServer).db("Websites")

websites.rb 针对特定的网站定义需要保存的网址列表，从网页中提取信息和处理网页的方法

 1require 'nokogiri'
 2require 'date'
 3require_relative 'webclient'
 4require_relative 'website'
 5require_relative 'database'
 6
 7module Websites
 8  Cnbeta = Website.new('cnbeta.com', Encoding::GBK)
 9  def Cnbeta.page_list(client)
10    latest = get_latest(client).to_i
11    recent = get_recent().to_i
12    if recent == 0 then recent = latest - 200 end
13    for id in recent.upto(latest)
14      yield "http://www.cnbeta.com/articles/#{id}.htm"
15    end
16  end
17
18  def Cnbeta.get_latest(client)
19    response = client.visit("http://www.cnbeta.com/")
20    if response.is_a? Net::HTTPOK
21      text = response.body.force_encoding(encoding)
22      doc = Nokogiri::HTML(text)
23      url = doc.css("div.newslist>dl>dt>a").first["href"]
24      id = url.match(/\/(?<id>\d+)\.htm/)["id"]
25    end
26  end
27
28  def Cnbeta.get_recent()
29    website = WebsitesDb.collection(domain)
30    if webpage = website.find(pubDate:{"$gt" => DateTime.now.prev_day.to_time}).sort(pubDate:"asc").next
31      id = webpage["url"].match(/\/(?<id>\d+)\.htm/)["id"]
32    end
33  end
34
35  def Cnbeta.process_page(client, webpage)
36    puts "process #{webpage["url"]}"
37    id = webpage["url"].match(/\/(?<id>\d+)\.htm/)["id"]
38    text = webpage["data"].to_s.force_encoding(encoding)
39    
40    begin
41    if text =~ /^<meta http-equiv="refresh"/
42      return nil
43    end
44    rescue ArgumentError => error
45      puts error.message
46    end
47
48    doc = Nokogiri::HTML(text)
49    title = doc.css("#news_title").inner_html.encode("utf-8")
50    time = doc.css("#news_author > span").inner_html.encode("utf-8").match(/\u53D1\u5E03\u4E8E (?<time>.*)\|/)["time"]
51
52    time = DateTime.parse(time + " +0800")
53    if time < DateTime.now.prev_day
54      puts "skip"
55      return nil
56    end
57    
58    if g_content = doc.css("#g_content").first
59      comments = client.visit("http://www.cnbeta.com/comment/g_content/#{id}.html", nil, 0.2).body.force_encoding("utf-8")
60      g_content.inner_html = comments.encode(encoding)
61    end
62
63    if normal = doc.css("#normal").first
64      comments = client.visit("http://www.cnbeta.com/comment/normal/#{id}.html", nil, 0.2).body.force_encoding("utf-8")
65      normal.inner_html = comments.encode(encoding)
66    end
67
68    webpage["title"] = title
69    webpage["pubDate"] = time.to_time
70    if g_content and normal
71      webpage["data"] = BSON::Binary.new(doc.to_html)
72    else
73      puts "Comment on #{id} skipped"
74    end
75    puts "done"
76    return webpage
77  end
78end

webspider.rb 运行此文件下载、处理和保存网页

 1require_relative 'websites'
 2
 3class WebSpider
 4  def initialize(proxy = nil)
 5    @client = WebClient.new proxy
 6  end
 7
 8  def collect(site)
 9    website = WebsitesDb.collection(site.domain)
10    site.page_list(@client) do |pageUrl|
11      if webpage = website.find_one(url:pageUrl)
12        if processed = site.process_page(@client, webpage)
13          website.save(processed)
14        end
15      elsif webpage = collect_page(pageUrl)
16        webpage.data = BSON::Binary.new(webpage.data)
17        webpage = webpage.to_hash
18        if processed = site.process_page(@client, webpage)
19          website.insert(processed)
20        else
21          website.insert(webpage)
22        end
23      end
24    end
25  end
26
27  def collect_page(pageUrl)
28    response = @client.visit(pageUrl, nil, 0.5)
29    case response
30    when Net::HTTPOK
31      webpage = Webpage.new pageUrl, response.body
32    else
33      return
34    end
35  end
36end
37
38# spider = WebSpider.new Proxies::Fiddler
39spider = WebSpider.new 
40spider.collect Websites::Cnbeta

proxyserver.rb 运行此文件启动代理服务，并且挂载离线搜索页面

 1# encoding: utf-8
 2require "webrick"
 3require "webrick/httpproxy"
 4require_relative 'database'
 5
 6class OfflineProxyServer < WEBrick::HTTPProxyServer
 7  def do_GET(req, res)
 8      uri = req.request_uri.to_s
 9      WebsitesDb.collections.each do |site|
10        if page = site.find_one(url:uri)
11          @logger.info("Found #{uri}")
12          res['connection'] = "close"
13          res.status = 200
14          res.body = page["data"].to_s
15          return
16        end
17      end
18      super
19  end
20end
21
22def search_db(keyword)
23  keyword.force_encoding("utf-8")
24  site = WebsitesDb.collection("cnbeta.com")
25  site.find(title:/#{keyword}/).sort(pubDate:"desc").limit(100).to_a
26end
27
28search = WEBrick::HTTPServlet::ProcHandler.new ->(req, resp) do
29  keyword = req.query["keyword"].to_s
30  result = if keyword.empty? then [] else search_db(keyword) end
31  resp['Content-Type'] = "text/html"
32  resp.body = %{
33    <html>
34    <head><meta charset="utf-8"><title>离线搜索</title><style>form{margin-left:30px}li{margin:10px}</style></head>
35    <body>
36    <form>
37    <em>cnBeta</em>
38    <input type="text" name="keyword" value="#{keyword}"><input type="submit" value="搜索">
39    </form>
40    <ul>
41#{
42      result.map{|page|"<li><a href=#{page['url']} target=_blank>#{page['title']}</a> #{page['pubDate']}</li>"}.join
43    }
44    </ul>
45    </body></html>
46}
47end
48
49server = OfflineProxyServer.new(Port: 9999)
50server.mount("/search", search)
51Signal.trap(:INT){ server.shutdown }
52server.start

先运行webspider.rb，之后启动proxyserver.rb，在浏览器中把代理服务器设置成localhost:9999，就可以离线浏览已经在数据库保存过的网站。打开http://localhost:9999/search，就可以看到离线搜索页面。来张图，看一下离线搜索的效果

如果你也想运行这个程序，需要以下步骤：

安装MongoDB 2.2.0，启动数据库服务
安装Ruby 1.9.3，安装程序中所用到的gems
安装Fiddler，非必需，可以不装
保存以上代码到相应的文件中，运行

C语言关注的是底层功能，Ruby关注的是高层功能，程序员应该把Ruby当作日常语言。通过这个练习，大家也可以看到Ruby写的代码简短易读，功能强大。整个程序全部代码加起来只有231行，很有说服力。当然了，这只是一个初始的版本，肯定有不足之处，请高手指正。在这个基础还可以增加新的功能，比如过滤广告，全文检索等等，发挥你的想象力！

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

ruby$LOAD_PATH及类加载发布时间：2022-07-18

Ruby基础知识-5.函数发布时间：2022-07-18

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：19139|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9973|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8317|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8686|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8627|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9643|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8611|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7991|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8642|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7527|2022-11-06

客服电话

电子邮件

用Ruby写的离线浏览代理服务器，只有两百多行代码

webclient.rb 访问网址，返回响应

mongodoc.rb 把要保存到数据库的数据转成hash表

website.rb 定义网站和网页类

database.rb 创建数据库连接

websites.rb 针对特定的网站定义需要保存的网址列表，从网页中提取信息和处理网页的方法

webspider.rb 运行此文件下载、处理和保存网页

proxyserver.rb 运行此文件启动代理服务，并且挂载离线搜索页面

请发表评论

全部评论

上一篇：

下一篇：

bradtraversy/iweather: Ionic 3 mobile we

Delphi报的错误

断牙刷新位置时间（断牙属性及刷新位置介绍

JLPM22/MinecraftUnity: Simple Minecraft

trulyspinach/UGUI-Material-Design-Icon:

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053