位置: IT常识 - 正文

【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys)

编辑:rootadmin
【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)

推荐整理分享【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys),希望有所帮助,仅作参考,欢迎阅读内容。

【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys)

文章相关热门搜索词:transformers!,transformer toys,transforms.totensor,transformer toys,transformers game download,transformer toys,transforms.totensor,transformers toys,内容如对您有帮助,希望把文章链接给更多的朋友!

tranformers中的模型在使用之前需要进行分词和编码,每个模型都会自带分词器(tokenizer),熟悉分词器的使用将会提高模型构建的效率。 string tokens ids 三者转换

string → tokens tokenize(text: str, **kwargs)tokens → string convert_tokens_to_string(tokens: List[token])tokens → ids convert_tokens_to_ids(tokens: List[token])ids → tokens convert_ids_to_tokens(ids: int or List[int], skip_special_tokens=False)string → ids encode(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, return_tensors=None) text:str, List[str], List[int]. text_pair: str, List[str], List[int] add_special_tokens: bool.是否添加特殊token([CLS]、[SEP]) max_length: int, None. padding: bool. padding取True or 'longest"时, padding至batch中最长的句子长度; padding取’max_length’时, padding至max_length; padding取False or ‘do_not_pad’ (default), 不padding. truncation: bool, str。只对输入为 sequence pair 有效。truncation取True or 'longest_first’时, token by token 的截断,哪一句长,截断哪一句的最后一个 token,相同长度就第二句。截至总token数等于 max_length; truncation取’only_first’时只截第一句,至总token数等于 max_length; truncation取’only_second’时只截第二句,至总token数等于 max_length;truncation取False or ‘do_not_truncate’ (default)。 return_tensors: str, None。‘tf’, ‘pt’ or ‘np’ 分布表示不同的tensor type.ids → string decode(token_ids: List[int], skip_special_tokens=False, clean_up_tokenization_spaces=True)encode_plus: encode_plus(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, stride=0, is_pretokenized=False, pad_to_multiple_of=None, return_tensors=None, return_token_type_ids=None, return_attention_mask=None, return_overflowing_tokens=False, return_special_tokens_mask=False, return_offsets_mapping=False, return_length=False)batch_encode_plus: 输入为 encode 输入的 batch,其它参数相同。注意,plus 是返回一个字典。batch_decode: 输入是batch.#这里以bert模型为例,使用上述提到的函数from transformers import BertTokenizertokenizer = BertTokenizer.from_pretrained('bert-base-uncased')text = "It's a nice day today!"#tokenize,#仅用于分词seg_words = tokenizer.tokenize(text) print("tokenize分词结果:\n",seg_words)#convert_tokens_to_ids,将token转化成id,在分词之后。#convert_ids_to_tokens,将id转化成token,通常用于模型预测出结果,查看时使用。seg_word_id = tokenizer.convert_tokens_to_ids(seg_words) print("tokenize Id:\n",seg_word_id)#encode,进行分词和token转换,encode=tokenize+convert_tokens_to_idsencode_text = tokenizer.encode(text)print("encode结果:\n",encode_text)#encode_plus,在encode的基础之上生成input_ids、token_type_ids、attention_maskencode_plus_text = tokenizer.encode_plus(text)print("encode_plus结果:\n",encode_plus_text)#batch_encode_plus,在encode_plus的基础之上,能够批量梳理文本。batch_encode_plus_text = tokenizer.batch_encode_plus([text,text])print("batch_encode_plus结果:\n",batch_encode_plus_text)

本文链接地址:https://www.jiuchutong.com/zhishi/275914.html 转载请保留说明!

上一篇:windows11扩展卷灰色解决方法(电脑扩展卷是灰色的的怎么办)

下一篇:Windows11预览体验计划无法选择渠道怎么办(Windows11预览体验计划空白)

  • 研发活动计入当期损益怎么计算
  • 可以抵扣的进项税额计入什么科目
  • 出售固定资产不开票可以吗
  • 差旅费抵税怎么算
  • 业务招待费可以进成本吗
  • 工会经费计税
  • 交社保不发工资怎么办
  • 一般纳税人当月生效次月生效有什么区别
  • 个体户购买社保和自由人购买社保区别
  • 子公司计提的盈余公积如何抵消
  • 现金折扣怎么进账
  • 固定资产盘亏是营业外支出吗
  • 福利费发票可以开个人抬头吗
  • 员工自己领取社保卡需要带什么资料
  • 应交增值税为什么是销项减进项
  • 分支机构第要交企业所得税吗?
  • 增值税失控发票什么意思
  • 上报汇总是什么时候
  • 税收征收管理法
  • 普通发票需要什么
  • 汇算清缴报错了怎么更正
  • 通讯费补贴入什么科目
  • 企业收入不进公账怎样做账?
  • gitlab lint
  • 长时间不操作电动座椅会发生什么
  • 一般纳税人销售二手车增值税税率
  • windows 11任务栏没有网络图标
  • wordpress测试
  • 基建会计和建筑会计的区别
  • 应收账款怎么做会计分录
  • elements table
  • 微信小程序实现灯泡开关效果
  • 没有以前年度损益调整属于哪类科目
  • 生产成本和库存商品的区别
  • “从零开始”
  • django pycharm
  • jquery 兄弟选择器
  • php rtrim
  • 现金盘盈盘亏怎么处理
  • 免税增值税纳税申报表怎么填
  • 博客首页设计
  • 季度预缴纳税申报表利润总额
  • 影响年度损益的金额怎么算
  • 扣非净利润为什么比净利润高
  • sqlserver2008数据库定时备份
  • 月底如何结转成本
  • 应付账款抹零摘要怎么写
  • 会计核算以什么为主
  • 暂估入账的固定资产
  • 职工福利费计提标准是多少
  • 应收外币科目在哪里设置
  • 厂房测量费怎么做账
  • 以公司名义开的口腔诊所法人和负责人是两个人么
  • 在哪找从平台消费的人
  • 印花税滞纳金怎么处理
  • 私企公转私出纳有责任吗
  • xp启动加速
  • MAC百度网盘下载的压缩包怎么导出
  • 内存故障会不断重启么
  • 32位/64位Win10系统开机后桌面图标自动排列的解决办法
  • windows打开或关闭功能
  • win10笔记本不显示桌面
  • win7系统注册表文件损坏无法开机怎么修复
  • centos 查看用户命令
  • js自动输入
  • excel表格时间选择
  • 电脑qq清理
  • node.js怎么样
  • 文件夹如何取名字
  • 关于js的描述错误的是
  • jquery的实现原理
  • jquery事件解绑
  • realm数据库连接
  • 如何抵扣
  • 税务编号是什么 个人
  • 焦作国税局官网
  • 广东省退休公务员死亡抚恤金和丧葬费标准
  • 通讯费报销会计分录
  • 仓储物流用地属于商业用地吗
  • 山西收入最高的县
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设