位置: IT常识 - 正文

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

编辑:rootadmin
tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异  一、tokenizer.encode和tokenizer.tokeninze

推荐整理分享tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

tokenizer.tokenize :先分词,再转成id,直接输出tensor

tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异

tokenizer.encode :直接输出id,需要转换为tensor

sentence = "Hello, my son is cuting."input_ids_method1 = torch.tensor(tokenizer.encode(sentence,add_special_tokens=True)) # tensor([ 101, 7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012, 102])input_token2 = tokenizer.tokenize(sentence)# ['hello', ',', 'my', 'son', 'is', 'cut', '##ing', '.']input_ids_method2 = tokenizer.convert_tokens_to_ids(input_token2)# tensor([7592, 1010, 2026, 2365, 2003, 3013, 2075, 1012])# 并没有开头和结尾的标记:[cls]、[sep]二、tokenizer.encode和tokenizer.encode_plus的区别

普通编码 tokenizer.encode()、增强编码 tokenizer.encode_plus()

tokenizer.encode_plus() 的编码方式比tokenizer.encode()在文本分类上的编码方式要好,在中文分类数据集上会有1个点左右的差别

1、tokenizer.encode仅返回input_ids

2、 tokenizer.encode_plus返回所有的编码信息,具体如下:

’input_ids:是单词在词典中的编码‘token_type_ids’:区分两个句子的编码(上句全为0,下句全为1)‘attention_mask’:指定对哪些词进行self-Attention操作# 编码错配! encode_plus 的编码方式比encode在文本分类上的编码方式要好import torch from transformers import BertTokenizermodel_name =" bert-base-uncase"tokenizer = BertTokenizener.from_pretrained(model_name)sentence= "hello,myson"-----------------------print(tokenizer.encode(sentence))[101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102]当tokenizer.encode函数中的add_special_tokens设置为False时,同样不会出现开头和结尾标记:[cls], [sep]-----------------------print(tokenizer.encode_plus(sentence)){'input_ids': [101, 7592, 1010, 2026, 2365, 2003, 5870, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}
本文链接地址:https://www.jiuchutong.com/zhishi/300685.html 转载请保留说明!

上一篇:【创作赢红包】项目信息分析表

下一篇:【Vue 快速入门系列】Vue数据实现本地存储、自定义事件绑定、全局事件总线、$nextTick的使用(vue快速入门与实战开发)

  • 总额法和净额法会计分录对比
  • 研发销售型企业
  • 公司中介费收入如何纳税
  • 补发上年度奖金如何计税
  • 一般户用途可以是往来款吗
  • 长期股权投资其他综合收益借贷方向
  • 10万以内免交的增值税怎么做帐
  • 季度申报残保金怎么填写
  • 红冲后的发票税可以办退税吗
  • 程序法和实体法的划分标准
  • 怎么设置存货科目
  • 当期未开票过收入,以后开票怎么做会计分录
  • 汽车违章罚款在哪里缴纳
  • 个人所得税税费种认定功能在哪里
  • 递延所得税怎么计提
  • 油卡充值属于什么行业
  • 办公室零食知乎
  • 零星费用没有发票报销可以做入工资吗
  • 收到委托代销清单的会计分录
  • 工资发错了,多发了怎么办
  • 借支报销流程
  • 拆迁补偿款有退的吗
  • 事业单位零余额账户使用流程
  • 跨月发票作废应如何处理
  • win7原版系统安装后没有任何驱动
  • 单位外币账户
  • 已认证未付款可以退款吗
  • CodeIgniter与PHP5.6的兼容问题
  • 契税计税依据及计算方式
  • 年终结算啥意思
  • 金融商品转让业务包括
  • Chrome谷歌浏览器网页
  • js进阶视频教程
  • 多表关联join
  • 机器学习:基于朴素贝叶斯对花瓣花萼的宽度和长度分类预测
  • 物流发票的税率怎么算
  • series转换为dataframe
  • 电子发票怎么开具?
  • 小规模申请一般纳税人的条件
  • 如何顺利完成年度任务
  • 农产品核定进项
  • wind安装
  • 实际发生坏账损失不影响应收账款
  • 代扣代缴个人所得税奖励金
  • 无形资产摊销如何操作
  • 资质办理属于什么开票大类
  • 其他应付款如何平账
  • 增值税期末有留抵税额应该怎么结转
  • 以前年度未处理往来账怎么叫
  • 区分好坏
  • 投资者投入固定资产成本
  • 外出经营活动需要预缴税款吗2020年
  • 企业应付账款的借方余额反映的是
  • 营业外支出会影响所有者权益吗
  • 半个固定资产如何折旧
  • mysql5.7.26启动失败
  • u盘安装win7系统鼠标键盘没反应
  • openbsd4.1+apache+mysql+php 环境配置
  • Win7 SP1补丁32/64位 2015年1月汇总篇(内附下载)
  • 重装系统后没声音怎么解决win7
  • linux怎么和window系统共用
  • SonicStageMonitoring.exe是什么进程 有什么作用
  • 为什么要升级呀
  • win系统开发
  • win10怎么看下载的软件
  • win8.1系统如何升级到win11
  • 横版格斗rpg手游
  • js对象属性值
  • nodeJS文件操作自动创建目录
  • node.js的express
  • linux shell脚本命令
  • linux shell脚本中sudo后输入密码
  • listview设置item宽度
  • [置顶]电影名字《收件人不详》
  • jquery的实现原理
  • python多线程怎么用
  • 辽宁省社保系统操作
  • 广东增值税电子专用发票
  • 成效显著的近义词和反义词
  • 税收政策对中小微企业的影响数据公式
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设