位置: 编程技术 - 正文

Python结巴中文分词工具使用过程中遇到的问题及解决方法(python结巴分词)

编辑:rootadmin

推荐整理分享Python结巴中文分词工具使用过程中遇到的问题及解决方法(python结巴分词),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:结巴分词 python 教程,python结巴分词的缺点,python 汉语,结巴分词php,结巴分词php,python中文帮助,python结巴分词,python 汉语,内容如对您有帮助,希望把文章链接给更多的朋友!

本文实例讲述了Python结巴中文分词工具使用过程中遇到的问题及解决方法。分享给大家供大家参考,具体如下:

结巴分词是Python语言中效果最好的分词工具,其功能包括:分词、词性标注、关键词抽取、支持用户词表等。这几天一直在研究这个工具,在安装与使用过程中遇到一些问题,现在把自己的一些方法帖出来分享一下。

官网地址: jieba 或者 pip install jieba,可是并没有找到它提供这个安装程序。

第二种方法是半自动安装:先下载 ,解压后在cmd命令行中运行 python setup.py install。这里需要注意的是,默认情况下,不能在cmd中直接运行python命令,需要把它的路径加入到环境变量path中方可。我试过,可行。但是 这种方法安装之后,结巴分词功能只能在Python自带的IDLE中使用。在含有PyDEV的MyEclipse中不能执行“import jieba”命令,所以继续尝试第三种方法。

第三种方法是手动安装:将jieba目录放置于当前目录或者site-packages目录。把下载到的jieba-0..zip解压后,里面有个jibba的文件夹,把它复制到与你的Python程序相同的位置,这样在程序中就可以执行“import jieba”了。

2、关于分词的实现

官网提供了分词的基本用法示例 :

Python结巴中文分词工具使用过程中遇到的问题及解决方法(python结巴分词)

程序可以执行,但是在MyEclipse中显示中文为Unicode编码,这不科学。

但是继续执行另一个词性标注的示例却非常正常:

所以我就想去分析一下它的源代码,结果发现在jiba/_init_.py文件(这是实现分词的文件)的第行(cut函数)中有关于检查编码的语句块:

而在jieba/posseg/_init_.py文件(这是实现词性标注的文件)第行的cut函数中却没有发现此类代码。所以我猜想,前者有检查编码的代码就出现乱码,而后者没有检查编码的代码而正常显示,所以就把前者检查编码的代码给注释了,结果程序执行报错,只好又把人家的源码还原,结果中文又正常显示了!

运行效果如下图:

以上只是对固定的中文字符串变量进行分词和词性标注,接下来的文章里我会尝试从文件中读取中文进行分词和词性标注。

更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python中文分词工具之结巴分词用法实例总结【经典案例】 本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:结巴分词工具的安装及基本用法,前面的文章《Python结巴中文

Python生成随机数组的方法小结 本文实例讲述了Python生成随机数组的方法。分享给大家供大家参考,具体如下:研究排序问题的时候常常需要生成随机数组来验证自己排序算法的正确

Python 列表(List) 的三种遍历方法实例 详解 Python遍历最近学习python这门语言,感觉到其对自己的工作效率有很大的提升,下面废话不多说,直接贴代码#!/usr/bin/envpython#-*-coding:utf-8-*-if__name__=='__main_

标签: python结巴分词

本文链接地址:https://www.jiuchutong.com/biancheng/375517.html 转载请保留说明!

上一篇:Python编程实现生成特定范围内不重复多个随机数的2种方法(python生成器怎么用)

下一篇:Python中文分词工具之结巴分词用法实例总结【经典案例】(python中文分词代码)

  • 小微企业减半征收印花税代码
  • 员工扣了个税但没交给税务局
  • 小微企业月开票超15万季度未超45万
  • 收购农副产品怎么做账
  • 不单独计价的包装物是什么意思
  • 政府奖励企业如何申请
  • 小微企业免征工会经费
  • 设备使用率怎么计算公式
  • 滴滴电子发票可以看到行程吗
  • 股东投资属于什么会计要素
  • 暂估发票到账出入库单要填吗
  • 行政事业单位净资产关系图
  • 建筑施工安全费用专项检查报告怎么写
  • 冲销管理费用如何计算
  • 以存货抵偿债务结转的相关存货跌价准备
  • 记账时显示期初未建账
  • 开了票后才收到工程款怎么做账?
  • 发票的审核之真假发票的查验
  • 电子商务出纳的岗位职责
  • 股权转让为什么不征收增值税
  • 辞退员工会计分录
  • 实物出资需要发票吗
  • 销售退货怎么开红字
  • 关于购买专业书籍的请示
  • 鼠标反应迟钝是什么原因
  • 股份制企业的特征主要是什么
  • 赎回理财产品的利息怎么做账
  • 税金及附加包括个人所得税吗
  • 银行贷款发放怎么做凭证
  • PHP:mb_check_encoding()的用法_mbstring函数
  • 浅谈财务风险的防范与控制
  • LangChain Agent 执行过程解析 OpenAI
  • 公司清算的补偿方案是不是应该公布了
  • Cusco Cathedral on the Plaza de Armas, Cusco, Peru (© sharptoyou/Shutterstock)
  • 潜水时看到的鱼
  • 没有数据企业所需的资料
  • php验证码扭曲效果怎么做
  • php实现自动识别的方法
  • 销售自己使用过的固定资产
  • linux嵌入式开发教程
  • 货款收不回来了怎么做账
  • 固定资产记到什么账本
  • 增值税专票只有右上角有发票号码
  • 增值税发票没有抵扣联能作废吗
  • mysql Non-Transactional Database Only(只支持MyISAM)
  • 计提房产税土地使用税
  • 企业发生的职工福利费支出,不超过工资
  • 除湿机计入固定费用吗
  • 火车票报销抵扣比例是多少
  • 某项目施工成本计划如下图,则5月末
  • 生产成本结转分录是什么
  • 发票开具与小票的关系是怎样的?
  • 销售额营业收入是指一年还是一个月
  • 政府征税再进行补贴对消费者福利的影响
  • 退资本金现金流量表走哪一项
  • 发生费用未取得发票
  • 个体工商户个税2023最新政策
  • mysql使用入门
  • mysql -u -p -s
  • java调用jni
  • mysql 的replace into实例详解
  • msi安装错误代码2503
  • linux终端记录
  • 不能用鼠标
  • xpkw
  • linux删除大量文件方法
  • 清除桌面应用软件
  • win10周年版
  • win7 64位旗舰版系统网页字体大小如何修改变动
  • python数值计算基础
  • jquery遍历li
  • jquery截取字符串的方法
  • 物理引擎演示
  • unity协程的工作原理
  • unity中assets文件夹的作用
  • js设计模式和开发实践
  • js 数组处理
  • 国家税务局浙江省电子税务局新版
  • 盐城市地税局稽查大队长
  • 用户卡,税控卡怎么办理
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设