• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

计算机英语词频统计: 使用python3.7编写,统计wikipedia(stackoverflow待开发)等网 ...

原作者: [db:作者] 来自: 网络 收藏 邀请

计算机英语词频统计

项目介绍

使用python3.7编写,统计wikipedia,stackoverflow等网页计算机相关的信息,分析出频率出现最高的英语词汇,提高计算机专业相关人员背单词的收益率。

软件架构

本程序提供多进程+协程的方式以及多线程+协程两种方式启动。

settings模块保存启动方式的参数,和一些配置相关的数据。

model.models模块保存ORM的数据库模型。

log模块提供创建log对象的统一接口。

statistics模块提供统计信息的接口。

utils模块提供一些通用的工具类函数。

wordStandarzized模块提供单词词性标准化的功能。

wordCount模块解析数据库中的标准化后的文章,提供词频统计功能。

wordTranslate模块从使用有道词典Web去获取单词的翻译。

pdfCreator模块解析已经分析好的词频数据库,组装成HTML Table,然后转换为PDF

datastore模块提供数据库操作的统一接口。

task模块提供程序启动的入口,根据settings模块的参数不同,可以使用多进程+协程和多线程+协程的方式启动。

wikipedia模块解析wikipedia网站计算机相关话题,采用协程的方式解析URL和文章内容,并且将无用的信息剔除,将单词的词性标准化。

安装教程

本软件使用docker部署方式
需要安装docker环境:docker安装教程

启动解析单词的任务:

docker run -it -v ~/wordcountData:/root/code/data bingfengfeifei/wordcount start

其中~/wordcountData是填写自己环境的一个空目录,用于存放docker的数据和生成的单词表文件。生成的单词表也从这个目录获取

启动生成单词表的任务:

docker run -it -v ~/wordcountData:/root/code/data bingfengfeifei/wordcount create 1000

最后的参数create 1000,代表TOP1000频率的单词的单词表。其中1000可以填写其他的数值,也可以不填,默认为5000

使用说明

  1. 如果仅查看单词表,可直接点击项目的wordlist.pdf下载我已经跑好的pdf。
  2. 代码运行需要使用python3.7版本,用于支持asyncio的最新语法特性
  3. 本软件在deepin linux系统下面编写,使用了linux平台相关的库fcntl,未对windows系统支持。
  4. 本软件使用了第三方库:

aiohttp

pip3 install aiohttp

bs4(beautifulSoup):

pip3 install bs4

beautifulSoup使用了lxml作为html的解析库,需要安装lxml

pip3 install lxml

sqlalchemy:

pip3 install sqlalchemy

pdfkit:

pip3 install pdfkit

pdfkit依赖wkhtmltopdf,需要使用下面的命令安装

ubuntu: sudo apt-get install wkhtmltopdfcentos: yum install wkhtmltopdf

nltk:

pip3 install nltk

注:nltk依赖需要第三方模块,实际运行时会有提示,可以根据提示下载,速度有些慢。
nltk依赖模块安装:
python3进入python交互式命令行,安装依赖模块

>>> import nltk>>> nltk.download('punkt')>>> nltk.download('averaged_perceptron_tagger')>>> nltk.download('wordnet')
  1. 启动方式启动解析词频数据任务:
python3 task.py

分析结束生成单词表:

python3 pdfCreator.py

软件运行效果

运行过程

输入图片说明

生成单词表截图

输入图片说明输入图片说明

参与贡献

  1. Fork 本项目
  2. 新建 Feat_xxx 分支
  3. 提交代码
  4. 新建 Pull Request

码云特技

  1. 使用 Readme_XXX.md 来支持不同的语言,例如 Readme_en.md, Readme_zh.md
  2. 码云官方博客 blog.gitee.com
  3. 你可以 https://gitee.com/explore 这个地址来了解码云上的优秀开源项目
  4. GVP 全称是码云最有价值开源项目,是码云综合评定出的优秀开源项目
  5. 码云官方提供的使用手册 https://gitee.com/help
  6. 码云封面人物是一档用来展示码云会员风采的栏目 https://gitee.com/gitee-stars/

鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap