【原】获取网页所有链接——简易搜索引擎雏形（C#,已测试通过,有CODE） ...

原作者: [db:作者] 来自: [db:来源] 收藏邀请

最近一直在看搜索引擎方面的资料，在Google上找了很多，可是没有找到一个下载下来可以直接使用的！

没有办法只能看别人的代码，然后一点一点的调试！功夫不负有心人，终于算是修得正果！贴代码：

retval;
}

}
}

这个代码只是实现了部分功能，即单页面抓取不重复链接，看来还有部分工作要做，就是页面内部循环，利用正则抓取页单一站点的整体链接，目的是为了收集自己最感兴趣的内容。

为了使读者有信心，继续贴一些重量级别的代码过来，这段代码是统计一个URL内关键字出现的次数，测试通过！见代码：

Search.aspx 页面代码如下：

Search.aspx.cs 后台代码如下：

lTitle;
}
}

再推荐两篇文章：

http://www.codeproject.com/KB/IP/Searcharoo_4.aspx （C# search engine: refactored to search Word, PDF and more）

测试通过，不过有点小麻烦，得学会序列化和反序列化（这里采用二进制）。解决问题方法是：

1. 随便找4个文件，分别命名为：plaintext.txt，Kilimanjaro.pdf，Decorator.ppt，Marathoning.doc 放在目录 content 中；

2. 根据错误提示(e文，注意e文提示上面的链接，那个链接告诉你如何序列化和反序列化二进制文件以及XML文件)，创建二进制文件 z_searcharoo.dat 放在特定的目录下，然后RUN！

该文章已有0人参与评论

专题导读

C#两个类的实例之间相同属性的值的复制发布时间：2022-07-13

在线客服（服务时间 9:00～18:00）

在线QQ客服

地址：深圳市南山区西丽大学城创智工业园

电邮：jeky_zhao#qq.com

移动电话：139-2527-9053