在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
计算机英语词频统计项目介绍使用python3.7编写,统计wikipedia,stackoverflow等网页计算机相关的信息,分析出频率出现最高的英语词汇,提高计算机专业相关人员背单词的收益率。 软件架构本程序提供多进程+协程的方式以及多线程+协程两种方式启动。
安装教程本软件使用docker部署方式 启动解析单词的任务:docker run -it -v ~/wordcountData:/root/code/data bingfengfeifei/wordcount start 其中~/wordcountData是填写自己环境的一个空目录,用于存放docker的数据和生成的单词表文件。生成的单词表也从这个目录获取 启动生成单词表的任务:docker run -it -v ~/wordcountData:/root/code/data bingfengfeifei/wordcount create 1000 最后的参数create 1000,代表TOP1000频率的单词的单词表。其中1000可以填写其他的数值,也可以不填,默认为5000 使用说明
aiohttppip3 install aiohttp bs4(beautifulSoup):pip3 install bs4 beautifulSoup使用了lxml作为html的解析库,需要安装lxml pip3 install lxml sqlalchemy:pip3 install sqlalchemy pdfkit:pip3 install pdfkit pdfkit依赖wkhtmltopdf,需要使用下面的命令安装 ubuntu: sudo apt-get install wkhtmltopdfcentos: yum install wkhtmltopdf nltk:pip3 install nltk 注:nltk依赖需要第三方模块,实际运行时会有提示,可以根据提示下载,速度有些慢。 >>> import nltk>>> nltk.download('punkt')>>> nltk.download('averaged_perceptron_tagger')>>> nltk.download('wordnet')
python3 task.py 分析结束生成单词表: python3 pdfCreator.py 软件运行效果
参与贡献
码云特技
|
请发表评论