开源软件名称:sogou
开源软件地址:https://gitee.com/jtyoui/sogou
开源软件介绍:
sogou
这个一个搜狗词库爬虫,只需要一步就能爬完搜狗上的所有词库
使用maven下载<!-- https://mvnrepository.com/artifact/cn.tyoui/sogou --><dependency> <groupId>cn.tyoui</groupId> <artifactId>sogou</artifactId> <version>1.8.3</version></dependency> 执行程序 public static void main(String[] args) throws Exception { SoGou soGou = new SoGou(); //下载搜狗词库所有url地址。并保存在本项目下的sogou.txt文件中 //soGou.download_sogou(); //讲文本下的url地址下载到D盘下的cell文件夹中 //soGou.download_url("D://cell"); //将搜狗文件转化成txt文本 soGou.toTxt("D:\\cell\\89个节日.scel", "D:\\cell\\89个节日.txt", false); } 下载如图soGou.download_sogou(); 地址和名字也\t分割下载在本机如图下载在D盘下cell目录soGou.download_url("D://cell"); ################################################################################# 转换文本有两种方式,选其中一种即可第一种:(软件转换)在本项目下有一个搜狗文件转换器。可以将scel文件装换成純文本文件搜狗文件是二进制,必须要转成txt才能看见 第二种:(代码转换)在D盘下的scel文件转化成txtsoGou.toTxt("D:\\cell\\89个节日.scel", "D:\\cell\\89个节日.txt", false);第一个参数是scel文件的地址第二参数是保存txt位置第三参数是是否追加 true是追加 false是不追加 |
请发表评论