在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
最近一直在看搜索引擎方面的资料,在Google上找了很多,可是没有找到一个下载下来可以直接使用的! 没有办法只能看别人的代码,然后一点一点的调试!功夫不负有心人,终于算是修得正果!贴代码:
retval;
} } }
这个代码只是实现了部分功能,即单页面抓取不重复链接,看来还有部分工作要做,就是页面内部循环,利用正则抓取页单一站点的整体链接,目的是为了收集自己最感兴趣的内容。 为了使读者有信心,继续贴一些重量级别的代码过来,这段代码是统计一个URL内关键字出现的次数,测试通过!见代码: Search.aspx 页面代码如下:
Search.aspx.cs 后台代码如下:
lTitle;
} }
再推荐两篇文章: http://www.codeproject.com/KB/applications/SearchDotnet.aspx (Internal Site Search Engine 测试通过) http://www.codeproject.com/KB/IP/Searcharoo_4.aspx (C# search engine: refactored to search Word, PDF and more) 测试通过,不过有点小麻烦,得学会序列化和反序列化(这里采用二进制)。 解决问题方法是: 1. 随便找4个文件,分别命名为:plaintext.txt,Kilimanjaro.pdf,Decorator.ppt,Marathoning.doc 放在目录 content 中; 2. 根据错误提示(e文,注意e文提示上面的链接,那个链接告诉你如何序列化和反序列化二进制文件以及XML文件),创建二进制文件 z_searcharoo.dat 放在特定的目录下,然后RUN! |
请发表评论