• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

Python-提取文件中所有中文小程序

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

问题描述:

   从一个txt文件中提取所有中文

思路:

  1. 打开txt文件
  2. 读取txt文件中的文本
  3. 用正则匹配获取中文
  4. 将其内容写入到另一个文本中

python实现:

代码
#coding=utf-8
import imp
import sys
imp.reload(sys)
sys.setdefaultencoding(
'utf-8') #设置默认编码,只能是utf-8,下面\u4e00-\u9fa5要求的
import re
pchinese
=re.compile('([\u4e00-\u9fa5]+)+?') #判断是否为中文的正则表达式
f=open("data.txt") #打开要提取的文件
fw=open("getdata.txt","w")#打开要写入的文件
for line in f.readlines(): #循环读取要读取文件的每一行
m=pchinese.findall(str(line)) #使用正则表达获取中文
if m:
str1
='|'.join(m)#同行的中文用竖杠区分
str2=str(str1)
fw.write(str2)
#写入文件
fw.write("\n")#不同行的要换行
f.close()
fw.close()
#打开的文件记得关闭哦!

 要点:

  1. 文件的读写 open(filename,type),file.close()
  2. 正则表达式使用

    re 模块是正则表达式Python实现。它有一个漂亮的函数findall(),接受一个正则表达式和一个字符串作为参数,然后找出字符串中出现该模式的所有地方。在这个例子里,模式匹配的是数字序列。findall()函数返回所有匹配该模式的子字符串的列表。

  3. 字符串拼接 '|'.join(strabc),在strabc字符串后面添加|。

鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
热门推荐
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap