位置: IT常识 - 正文

Bert 得到中文词向量(bert获取中文词向量)

编辑:rootadmin
Bert 得到中文词向量

推荐整理分享Bert 得到中文词向量(bert获取中文词向量),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert英文发音,bert读,bert获取中文词向量,bert翻译成中文,bert分词得到词向,bert翻译成中文,bert中文分词,bert中文分词,内容如对您有帮助,希望把文章链接给更多的朋友!

通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中

得到中文词向量的代码如下

import torchfrom transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 加载base模型的对应的切词器model = BertModel.from_pretrained('bert-base-chinese')print(tokenizer) # 打印出对应的信息,如base模型的字典大小,截断长度等等token = tokenizer.tokenize("自然语言处理") # 切词print(token) # 切词结果indexes = tokenizer.convert_tokens_to_ids(token) # 将词转换为对应字典的idprint(indexes) # 输出idtokens = tokenizer.convert_ids_to_tokens(indexes)# 将id转换为对应字典的词print(tokens) # 输出词# 使用这种方法对句子编码会自动添加[CLS] 和[SEP]input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0)print(input_ids)outputs = model(input_ids)# cls_id = tokenizer._convert_token_to_id('[CLS]')# sep_id = tokenizer._convert_token_to_id('[SEP]')# print(cls_id, sep_id)sequence_output = outputs[0]print(sequence_output)print(sequence_output.shape) ## 字向量Bert 得到中文词向量(bert获取中文词向量)

输出的结果如下

PreTrainedTokenizer(name_or_path='bert-base-chinese', vocab_size=21128, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})['自', '然', '语', '言', '处', '理'][5632, 4197, 6427, 6241, 1905, 4415]['自', '然', '语', '言', '处', '理']tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415, 102]])tensor([[[-0.5707, 0.1999, -0.0637, ..., -0.0916, -0.3997, 0.1751], [ 0.1549, 0.2454, 0.8372, ..., -0.7411, -0.8433, 0.5498], [ 0.1983, -0.5007, -0.6416, ..., 0.0322, -0.2561, 0.0599], ..., [ 0.1960, 0.4055, 1.6229, ..., 0.1070, -0.2448, 0.1766], [ 0.0846, 0.9084, 0.5164, ..., 0.0235, 0.6487, -0.0858], [-0.5326, -0.0390, 1.9163, ..., 0.1597, -0.2909, 0.6810]]], grad_fn=<NativeLayerNormBackward0>)torch.Size([1, 8, 768])

当然还可以通过bert-as-service得到词向量,网上有很多,步骤如下:

安装肖涵博士的bert-as-service: pip install bert-serving-server pip install bert-serving-client

下载训练好的Bert中文词向量: https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

启动bert-as-service: 找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:

bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1#后台启动服务(nohup .... &)nohup bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1 &

即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。) 启动后结果如下: 获取Bert预训练好的中文词向量:

from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示 print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示 print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。

本文链接地址:https://www.jiuchutong.com/zhishi/295945.html 转载请保留说明!

上一篇:Java - token的存储与获取(javatoken生成机制)

下一篇:vue项目根据不同环境动态配置接口请求ip及全局变量(vue环境变量配置)(vue调用同一个组件)

  • 苹果13怎么添加公交卡(苹果13怎么添加门禁卡)

    苹果13怎么添加公交卡(苹果13怎么添加门禁卡)

  • 微信聊天记录保存在哪个文件夹里(微信聊天记录保存在哪个文件夹)

    微信聊天记录保存在哪个文件夹里(微信聊天记录保存在哪个文件夹)

  • 抖音等级前面有个话筒是什么意思(抖音等级前面有太阳是什么)

    抖音等级前面有个话筒是什么意思(抖音等级前面有太阳是什么)

  • 打电话响9声后呼叫失败(打电话响9声后无法接通)

    打电话响9声后呼叫失败(打电话响9声后无法接通)

  • C盘中esupport是什么文件夹(c盘esupport文件可以删除吗)

    C盘中esupport是什么文件夹(c盘esupport文件可以删除吗)

  • 淘宝店铺会自动注销吗(淘宝店铺会自动注销吗,那一千保证金去哪里了)

    淘宝店铺会自动注销吗(淘宝店铺会自动注销吗,那一千保证金去哪里了)

  • 电脑一直是启动修复正在检测(电脑一直是启动修复)

    电脑一直是启动修复正在检测(电脑一直是启动修复)

  • 平板摄像头反了怎么调整(平板摄像头倒置怎么办)

    平板摄像头反了怎么调整(平板摄像头倒置怎么办)

  • 微信扫码支付能查到对方吗(微信扫码支付能用信用卡吗)

    微信扫码支付能查到对方吗(微信扫码支付能用信用卡吗)

  • ping的过程中出现异常是什么意思(ping的过程中出现其他地址)

    ping的过程中出现异常是什么意思(ping的过程中出现其他地址)

  • 无线充电器伤电池吗(无线充电器伤电池还是有线伤电池)

    无线充电器伤电池吗(无线充电器伤电池还是有线伤电池)

  • 电脑可以连接电视做显示屏吗(电脑可以连接电容笔吗)

    电脑可以连接电视做显示屏吗(电脑可以连接电容笔吗)

  • 华为荣耀20可以无线充电吗(华为荣耀20可以开空调吗)

    华为荣耀20可以无线充电吗(华为荣耀20可以开空调吗)

  • mouse1是哪个键(mouse1是哪个键盘按键)

    mouse1是哪个键(mouse1是哪个键盘按键)

  • 快手亲密值怎么涨(快手亲密值怎么上得快)

    快手亲密值怎么涨(快手亲密值怎么上得快)

  • 三星W20 5G电池容量多少(三星w20电池多少毫安)

    三星W20 5G电池容量多少(三星w20电池多少毫安)

  • 天猫精灵怎么设置网络(天猫精灵怎么设置收款播报)

    天猫精灵怎么设置网络(天猫精灵怎么设置收款播报)

  • 抖音怎么关掉附近的人(抖音怎么关掉附近推荐的视频)

    抖音怎么关掉附近的人(抖音怎么关掉附近推荐的视频)

  • 华为手环不能接电话(华为手环不能接电话吗)

    华为手环不能接电话(华为手环不能接电话吗)

  • 小米3手环怎么测睡眠(小米3手环怎么调节亮度)

    小米3手环怎么测睡眠(小米3手环怎么调节亮度)

  • x27充电速度(vivox27pro充电速度)

    x27充电速度(vivox27pro充电速度)

  • xr什么时候上市(xr啥时候发售的)

    xr什么时候上市(xr啥时候发售的)

  • 网易云为什么不能下载(网易云为什么不显示状态栏)

    网易云为什么不能下载(网易云为什么不显示状态栏)

  • w10系统我的电脑在哪(w10系统我的电脑不见了)

    w10系统我的电脑在哪(w10系统我的电脑不见了)

  • Markdown 使用语法(详细)(markdown语法是什么意思)

    Markdown 使用语法(详细)(markdown语法是什么意思)

  • 【深度学习】pix2pix GAN理论及代码实现与理解

    【深度学习】pix2pix GAN理论及代码实现与理解

  • 个税手续费发给个人怎么做账
  • 收到红字进项发票需要认证么
  • 发票找不到了怎么报销
  • 企业所得税表中营业成本包括费用吗
  • 房贷怎么申报抵押贷款
  • 企业管理咨询公司哪家好
  • 高新企业研发费用占比要求
  • 代扣代缴增值税纳税义务发生时间
  • 流动比率与速动比率之差等于现金比率
  • 个人保证金业务
  • 企业承租经营的承租人取得的所得
  • 河道费怎么计算
  • 开一张增值税发票需要交哪些税
  • 什么叫含税级距和不含税级距
  • 企业所得税按季预缴怎么算
  • 租赁合同印花税计税依据含税吗
  • 劳务费增值税专用发票虚开一万元怎么补救
  • 软件企业怎么享受三免两减半
  • 技术服务合同增值税免税吗
  • 这个月发票领完了,还可以领吗?
  • 水利工程建设费用组成
  • 模板摊销率
  • 公司租赁办公场地用缴纳房产税吗
  • 营改增后城建税怎么算
  • 普票红字发票怎么写摘要
  • 未收到房租是否缴纳增值税
  • 如何网签三方协议合同
  • 预计负债基本确定的概率区间
  • 公司强制要求转部门合法吗
  • Windows 2003 SP2 简体中文版下载地址
  • 高温补贴计入
  • 材料采购运杂费包括
  • 金融企业贷款损失准备金计提比例
  • uniapp按钮
  • 购买商品的会计分录贷方能写应付账款
  • laravel sqlserver
  • ubuntu搭建web服务器流程
  • ChatGPT的了解与初体验
  • 猿起信息科技有限公司官网
  • zend框架教程
  • php删除数据
  • 支付网络服务费属于现金流量表的哪一项
  • python编程从入门到精通第三版
  • 营业税金及附加税率
  • 未达起征点销售额是含税还是不含税
  • 国内源码平台
  • mongodb 全文索引
  • 待处理财产损益期末余额在哪方
  • 个体户单位性质代码
  • 企业固定资产如何查询
  • 开收据是财务还是出纳
  • 存货资产评估方法
  • 普通发票的金额包含增值税吗
  • 佣金支出和手续费一样吗
  • 科研专用费是什么
  • 已开票未收款如何销往来账
  • 小规模纳税人本期应纳税额
  • 小规模纳税人不超过10万免增值税
  • 删除一组数据中的指定数据
  • win10怎么用ghost
  • win10如何恢复
  • mac更改复制快捷键
  • windows media player播放不了mp4
  • xp系统本地用户和组在哪里
  • 安装完win8后没有无线网络
  • linux mount命令详解
  • win7系统如何修改ip地址
  • react增删改查功能
  • js opendialog
  • unity3d需要什么语言
  • unity 角色控制器设置isTrigger问题
  • 你miu的
  • 安卓hid通信
  • shell编程$1
  • android自定义listview
  • javascript常用函数大全
  • 安卓自定义app
  • 辽宁省国家税务局网上申报
  • 税务申报规则
  • 航信报税
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设