博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
读txt文件报错_CodingPark编程公园
阅读量:1887 次
发布时间:2019-04-26

本文共 650 字,大约阅读时间需要 2 分钟。

报错

’utf-8’ codec can’t decode byte 0xb6 in position 2

在这里插入图片描述

解决办法

1 ✅

file = open('/Users/atom-g/Desktop/DanMuAnalyzePark/FuDanUniversity_data/test_corpus/corpus/1.txt', 'r', encoding='gbk')

在这里插入图片描述

2-代码美观一点 ✅

from pyhanlp import *def readtxt(path):    with open(path, 'r', encoding='gbk') as fr:        content = fr.read()        return contenttext = readtxt('/Users/atom-g/Desktop/DanMuAnalyzePark/FuDanUniversity_data/test_corpus/corpus/1.txt')text_process = HanLP.segment(text)text_list = [(str(i.word), str(i.nature)) for i in text_process]# print(text_list)words = []for i in text_list:    if i[1] != 'w' and len(i[0])>1:        words.append(i[0])print(words)

在这里插入图片描述

转载地址:http://onzdf.baihongyu.com/

你可能感兴趣的文章
mysql数据库操作基础
查看>>
Mariadb基础管理
查看>>
kolla-ansible部署openstack+ceph高可用集群queens版本--- 部署说明
查看>>
kolla-ansible部署openstack+ceph高可用集群queens版本--- 环境准备及初始化
查看>>
kolla-ansible部署openstack+ceph高可用集群queens版本---docker私有镜像仓库配置
查看>>
mysql 中com.mysql.jdbc.PacketTooBigException 解决办法
查看>>
awk 的内置变量 NF、NR、FNR、FS、OFS、RS、ORS
查看>>
CentOS系统内核升级攻略
查看>>
linux系统时区修改(Debian的主机和docker)
查看>>
docker-compose 安装
查看>>
crontab 定时任务
查看>>
查看docker veth pair与宿主机上网卡的对应关系
查看>>
使用 GitLab CI 进行持续集成的一些踩坑
查看>>
企业云盘给贸易业带来新的效益
查看>>
Linux入门常用命令
查看>>
Spring整理
查看>>
SpringMvc加强
查看>>
初识Vue全家桶 Nuxt.js(一)
查看>>
基本路由及动态路由(二)
查看>>
视图:默认模板+默认布局(自定义布局)+nuxt.js页面(三)
查看>>