位置: IT常识 - 正文

【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys)

编辑:rootadmin
【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)

推荐整理分享【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys),希望有所帮助,仅作参考,欢迎阅读内容。

【transformers】tokenizer用法(encode、encode_plus、batch_encode_plus等等)(transformer toys)

文章相关热门搜索词:transformers!,transformer toys,transforms.totensor,transformer toys,transformers game download,transformer toys,transforms.totensor,transformers toys,内容如对您有帮助,希望把文章链接给更多的朋友!

tranformers中的模型在使用之前需要进行分词和编码,每个模型都会自带分词器(tokenizer),熟悉分词器的使用将会提高模型构建的效率。 string tokens ids 三者转换

string → tokens tokenize(text: str, **kwargs)tokens → string convert_tokens_to_string(tokens: List[token])tokens → ids convert_tokens_to_ids(tokens: List[token])ids → tokens convert_ids_to_tokens(ids: int or List[int], skip_special_tokens=False)string → ids encode(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, return_tensors=None) text:str, List[str], List[int]. text_pair: str, List[str], List[int] add_special_tokens: bool.是否添加特殊token([CLS]、[SEP]) max_length: int, None. padding: bool. padding取True or 'longest"时, padding至batch中最长的句子长度; padding取’max_length’时, padding至max_length; padding取False or ‘do_not_pad’ (default), 不padding. truncation: bool, str。只对输入为 sequence pair 有效。truncation取True or 'longest_first’时, token by token 的截断,哪一句长,截断哪一句的最后一个 token,相同长度就第二句。截至总token数等于 max_length; truncation取’only_first’时只截第一句,至总token数等于 max_length; truncation取’only_second’时只截第二句,至总token数等于 max_length;truncation取False or ‘do_not_truncate’ (default)。 return_tensors: str, None。‘tf’, ‘pt’ or ‘np’ 分布表示不同的tensor type.ids → string decode(token_ids: List[int], skip_special_tokens=False, clean_up_tokenization_spaces=True)encode_plus: encode_plus(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, stride=0, is_pretokenized=False, pad_to_multiple_of=None, return_tensors=None, return_token_type_ids=None, return_attention_mask=None, return_overflowing_tokens=False, return_special_tokens_mask=False, return_offsets_mapping=False, return_length=False)batch_encode_plus: 输入为 encode 输入的 batch,其它参数相同。注意,plus 是返回一个字典。batch_decode: 输入是batch.#这里以bert模型为例,使用上述提到的函数from transformers import BertTokenizertokenizer = BertTokenizer.from_pretrained('bert-base-uncased')text = "It's a nice day today!"#tokenize,#仅用于分词seg_words = tokenizer.tokenize(text) print("tokenize分词结果:\n",seg_words)#convert_tokens_to_ids,将token转化成id,在分词之后。#convert_ids_to_tokens,将id转化成token,通常用于模型预测出结果,查看时使用。seg_word_id = tokenizer.convert_tokens_to_ids(seg_words) print("tokenize Id:\n",seg_word_id)#encode,进行分词和token转换,encode=tokenize+convert_tokens_to_idsencode_text = tokenizer.encode(text)print("encode结果:\n",encode_text)#encode_plus,在encode的基础之上生成input_ids、token_type_ids、attention_maskencode_plus_text = tokenizer.encode_plus(text)print("encode_plus结果:\n",encode_plus_text)#batch_encode_plus,在encode_plus的基础之上,能够批量梳理文本。batch_encode_plus_text = tokenizer.batch_encode_plus([text,text])print("batch_encode_plus结果:\n",batch_encode_plus_text)

本文链接地址:https://www.jiuchutong.com/zhishi/275914.html 转载请保留说明!

上一篇:windows11扩展卷灰色解决方法(电脑扩展卷是灰色的的怎么办)

下一篇:Windows11预览体验计划无法选择渠道怎么办(Windows11预览体验计划空白)

  • 中税协网站怎样补学时
  • 投标保证金保险怎么买
  • 代收款需要开票吗
  • 企业账号变更
  • 税控盘上报
  • 企业审计费入什么科目
  • 小规模企业所得税多少
  • 政府基金如何开票
  • 房地产公司环境
  • 差额拨款的事业单位属于预算单位吗
  • 留抵进项税抵欠税后期末未交增值税会减少吗
  • 公司成立后有哪些开支
  • 退回剩余工程物资计入什么科目
  • 会议服务费怎么报价
  • 印花税资金账簿税率是多少
  • 购买物品的专用会计科目
  • 调用核心征管失败是什么意思
  • 出口申报时限
  • 财务软件里面可以修改吗
  • 外贸企业代理出口销售业务发生的费用
  • 高危行业企业要设置什么机构
  • 以公司名义投资好还是以个人名义投资好
  • 个人承包公司的经营所得怎么算
  • 应付政府补贴款名词解释
  • 出口50万货物退多少税
  • 生产型企业进出口初申报流程
  • 费用报销单应怎样填写
  • 账套更改
  • netframework4.8安装未成功
  • 生产用厂房计入什么科目
  • php二维数组添加数据
  • 加班费如何做账
  • 汇算清缴审计报告收费标准
  • 前端字符长度限制
  • 蓝莓外面的霜
  • vue上传文件和后端upload
  • 无法支付的货款如何处理
  • 暂估入库含税还是含税
  • 小企业会计准则财务报表至少包括
  • php获取前一天的时间
  • 所得税季度申报弥补以前年度亏损
  • 从汽车生产到销售有哪些过程
  • 装修公司管理费是什么
  • 港股上市公司股票代码
  • sql server 排名函数
  • 变卖固定资产的账务处理
  • 图书发行税率
  • 材料的采购成本构成
  • 个税专项附加扣除标准调整
  • 记账凭证如何进行记账
  • 研发费用是否包含增值税
  • pe市盈率法
  • 生产成本福利费如何分摊
  • 车辆购置税具有价外征收转嫁税负的特点吗
  • 企业采用公允价值进行会计核算,所体现的会计质量要求
  • mysql存储过程的语句块以什么开始以什么结束
  • sqlserver 查询语句
  • 数据库mysql索引
  • win10新预览版
  • Windows如何自动关机
  • win8的ie浏览器
  • mac如何恢复已删除文件
  • win10系统怎么修改字体大小
  • linux常用的帮助命令
  • ExtJS中设置下拉列表框不可编辑的方法
  • SlidingMenu属性详解【Android】
  • Unity3D游戏开发培训课程大纲
  • perl-dbd-mysql是什么
  • unity例子
  • Node.js中的核心模块包括哪些内容?
  • html中如何写java代码
  • python 爬取
  • Unity3d MonoDevelop格式化代码
  • 物理引擎演示
  • jquery json对象
  • 安卓短信提示
  • JavaScript中的NaN代表什么
  • 国税企业所得税网上申报
  • 进口lng需要什么资质
  • 北京出租车发票微信怎么查真伪?
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设