位置: IT常识 - 正文

【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys)

编辑:rootadmin
【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)

推荐整理分享【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys),希望有所帮助,仅作参考,欢迎阅读内容。

【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys)

文章相关热门搜索词:transformers!,transformer toys,transforms.totensor,transformer toys,transformers game download,transformer toys,transforms.totensor,transformers toys,内容如对您有帮助,希望把文章链接给更多的朋友!

tranformers中的模型在使用之前需要进行分词和编码,每个模型都会自带分词器(tokenizer),熟悉分词器的使用将会提高模型构建的效率。 string tokens ids 三者转换

string → tokens tokenize(text: str, **kwargs)tokens → string convert_tokens_to_string(tokens: List[token])tokens → ids convert_tokens_to_ids(tokens: List[token])ids → tokens convert_ids_to_tokens(ids: int or List[int], skip_special_tokens=False)string → ids encode(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, return_tensors=None) text:str, List[str], List[int]. text_pair: str, List[str], List[int] add_special_tokens: bool.是否添加特殊token([CLS]、[SEP]) max_length: int, None. padding: bool. padding取True or 'longest"时, padding至batch中最长的句子长度; padding取’max_length’时, padding至max_length; padding取False or ‘do_not_pad’ (default), 不padding. truncation: bool, str。只对输入为 sequence pair 有效。truncation取True or 'longest_first’时, token by token 的截断,哪一句长,截断哪一句的最后一个 token,相同长度就第二句。截至总token数等于 max_length; truncation取’only_first’时只截第一句,至总token数等于 max_length; truncation取’only_second’时只截第二句,至总token数等于 max_length;truncation取False or ‘do_not_truncate’ (default)。 return_tensors: str, None。‘tf’, ‘pt’ or ‘np’ 分布表示不同的tensor type.ids → string decode(token_ids: List[int], skip_special_tokens=False, clean_up_tokenization_spaces=True)encode_plus: encode_plus(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, stride=0, is_pretokenized=False, pad_to_multiple_of=None, return_tensors=None, return_token_type_ids=None, return_attention_mask=None, return_overflowing_tokens=False, return_special_tokens_mask=False, return_offsets_mapping=False, return_length=False)batch_encode_plus: 输入为 encode 输入的 batch,其它参数相同。注意,plus 是返回一个字典。batch_decode: 输入是batch.#这里以bert模型为例,使用上述提到的函数from transformers import BertTokenizertokenizer = BertTokenizer.from_pretrained('bert-base-uncased')text = "It's a nice day today!"#tokenize,#仅用于分词seg_words = tokenizer.tokenize(text) print("tokenize分词结果:\n",seg_words)#convert_tokens_to_ids,将token转化成id,在分词之后。#convert_ids_to_tokens,将id转化成token,通常用于模型预测出结果,查看时使用。seg_word_id = tokenizer.convert_tokens_to_ids(seg_words) print("tokenize Id:\n",seg_word_id)#encode,进行分词和token转换,encode=tokenize+convert_tokens_to_idsencode_text = tokenizer.encode(text)print("encode结果:\n",encode_text)#encode_plus,在encode的基础之上生成input_ids、token_type_ids、attention_maskencode_plus_text = tokenizer.encode_plus(text)print("encode_plus结果:\n",encode_plus_text)#batch_encode_plus,在encode_plus的基础之上,能够批量梳理文本。batch_encode_plus_text = tokenizer.batch_encode_plus([text,text])print("batch_encode_plus结果:\n",batch_encode_plus_text)

本文链接地址:https://www.jiuchutong.com/zhishi/275914.html 转载请保留说明!

上一篇:windows11扩展卷灰色解决方法(电脑扩展卷是灰色的的怎么办)

下一篇:Windows11预览体验计划无法选择渠道怎么办(Windows11预览体验计划空白)

  • 水利建设基金计算
  • 应收股利在资产负债表中填在哪里
  • 什么时候确认应收股利
  • 发票没交税可以退税吗
  • 水果销售公司简介
  • 技术推广服务包含什么 奇瑞汽车
  • 天猫费率是什么
  • 企业向个人借款需要交印花税吗
  • 外购商品赠送客户怎么做账
  • 制造费用属于哪一类科目
  • 租赁植物费用
  • 公司租用房产税如何征收
  • 冲销预付账款后该如何做账务处理呢?
  • 公车补贴计入什么科目
  • 房租费用在本年内可以不摊销吗?
  • 银行已扣社保会计分录怎么做
  • 因质量出问题的事件
  • 应付利息与应付利息区别
  • 税务部门罚没收入会计分录
  • 固定资产投资方案
  • 企业赠送客户产品如何账务处理
  • 小企业会计准则成本核算方法选什么
  • 华为鸿蒙系统如何关闭纯净系统
  • win11dev预览版可以升级正式版吗
  • element栅格布局
  • 摄像头标定方法
  • 深度学习之快速实现数据集增强的方法
  • win10自带的重装能彻底清除上网记录和u盘记录吗
  • java的基本
  • 公司银行开户的一些资料是公司办公室保存还是财务保存
  • 企业产值用什么符号表示
  • 待核销基建支出并入哪个科目
  • 当月注销外管证个税账户也会注销吗
  • java 导出excel
  • 超过五年的未弥补亏损如何处理?
  • day12-Servlet02
  • 记账凭证错了
  • mysql5.7.27安装与配置
  • mongodb的索引种类
  • 椅子能放进后备箱吗
  • 劳务派遣人员保险
  • 工程项目该如何分类
  • 小规模减免的增值税要交所得税吗
  • 公司账户钱取出来税务局会查账吗
  • 企业所得税什么时候计提
  • 本月收入未开票会计分录
  • 驾驶员培训费纳税吗
  • 职工薪酬纳税调整
  • 没收到发票也可以入账吗
  • 企业购买二手车计提折旧年限
  • 自制产品无偿赠送合法吗
  • 以物易物有什么好处
  • 金蝶k3怎么打印科目余额表
  • 诉讼费用负担原则是什么
  • 新办企业环评费用多少
  • mysql数据监控
  • mysql模糊查询like多个条件
  • Windows7 64位环境下Python-igraph环境配置的方法
  • win7系统重启后多了一个安全启动用户
  • win8系统怎么把字体调大
  • linux系统tar命令
  • 本地硬盘满了怎么办
  • win8资源管理器在哪
  • win10耳机和扬声器有什么区别
  • windows1021h2镜像下载
  • 深入解析windows第7版
  • cocos2dx CardinalSpline和CatmullRom算法
  • unity小技巧
  • nodejs支付宝支付
  • 安卓wifimanager详解
  • shell自定义命令
  • linux中的shell命令
  • python介绍的主要内容
  • javascript简介和语法
  • 出租车票真伪查询官网
  • 贵州省税务网上缴费平台
  • 伊川娘娘山传说
  • 红色通知字体
  • 京豆付款有返利吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设