位置: IT常识 - 正文

Bert 得到中文词向量(bert获取中文词向量)

编辑:rootadmin
Bert 得到中文词向量

推荐整理分享Bert 得到中文词向量(bert获取中文词向量),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert英文发音,bert读,bert获取中文词向量,bert翻译成中文,bert分词得到词向,bert翻译成中文,bert中文分词,bert中文分词,内容如对您有帮助,希望把文章链接给更多的朋友!

通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中

得到中文词向量的代码如下

import torchfrom transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 加载base模型的对应的切词器model = BertModel.from_pretrained('bert-base-chinese')print(tokenizer) # 打印出对应的信息,如base模型的字典大小,截断长度等等token = tokenizer.tokenize("自然语言处理") # 切词print(token) # 切词结果indexes = tokenizer.convert_tokens_to_ids(token) # 将词转换为对应字典的idprint(indexes) # 输出idtokens = tokenizer.convert_ids_to_tokens(indexes)# 将id转换为对应字典的词print(tokens) # 输出词# 使用这种方法对句子编码会自动添加[CLS] 和[SEP]input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0)print(input_ids)outputs = model(input_ids)# cls_id = tokenizer._convert_token_to_id('[CLS]')# sep_id = tokenizer._convert_token_to_id('[SEP]')# print(cls_id, sep_id)sequence_output = outputs[0]print(sequence_output)print(sequence_output.shape) ## 字向量Bert 得到中文词向量(bert获取中文词向量)

输出的结果如下

PreTrainedTokenizer(name_or_path='bert-base-chinese', vocab_size=21128, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})['自', '然', '语', '言', '处', '理'][5632, 4197, 6427, 6241, 1905, 4415]['自', '然', '语', '言', '处', '理']tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415, 102]])tensor([[[-0.5707, 0.1999, -0.0637, ..., -0.0916, -0.3997, 0.1751], [ 0.1549, 0.2454, 0.8372, ..., -0.7411, -0.8433, 0.5498], [ 0.1983, -0.5007, -0.6416, ..., 0.0322, -0.2561, 0.0599], ..., [ 0.1960, 0.4055, 1.6229, ..., 0.1070, -0.2448, 0.1766], [ 0.0846, 0.9084, 0.5164, ..., 0.0235, 0.6487, -0.0858], [-0.5326, -0.0390, 1.9163, ..., 0.1597, -0.2909, 0.6810]]], grad_fn=<NativeLayerNormBackward0>)torch.Size([1, 8, 768])

当然还可以通过bert-as-service得到词向量,网上有很多,步骤如下:

安装肖涵博士的bert-as-service: pip install bert-serving-server pip install bert-serving-client

下载训练好的Bert中文词向量: https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

启动bert-as-service: 找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:

bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1#后台启动服务(nohup .... &)nohup bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1 &

即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。) 启动后结果如下: 获取Bert预训练好的中文词向量:

from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示 print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示 print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。

本文链接地址:https://www.jiuchutong.com/zhishi/295945.html 转载请保留说明!

上一篇:Java - token的存储与获取(javatoken生成机制)

下一篇:vue项目根据不同环境动态配置接口请求ip及全局变量(vue环境变量配置)(vue调用同一个组件)

  • bootstrap实现区分电脑端与手机端显示隐藏

    bootstrap实现区分电脑端与手机端显示隐藏

  • 快手怎么保存别人的视频(快手怎么保存别人禁止下载的视频)

    快手怎么保存别人的视频(快手怎么保存别人禁止下载的视频)

  • 无线鼠标的接收器能通用吗(无线鼠标的接收器插在哪里)

    无线鼠标的接收器能通用吗(无线鼠标的接收器插在哪里)

  • 打开隐私相机是空白(打开隐私相机是空白怎么办)

    打开隐私相机是空白(打开隐私相机是空白怎么办)

  • 商家自行配送怎么完成(商家自行配送怎么查)

    商家自行配送怎么完成(商家自行配送怎么查)

  • ai内存不足无法完成操作(ai内存不足无法处理外观)

    ai内存不足无法完成操作(ai内存不足无法处理外观)

  • 换了苹果手机怎么用过去的ID(换了苹果手机怎么连接车载蓝牙)

    换了苹果手机怎么用过去的ID(换了苹果手机怎么连接车载蓝牙)

  • 原彩显示的好处和弊端(原彩显示好还是不好)

    原彩显示的好处和弊端(原彩显示好还是不好)

  • 笔记本扩展坞有什么用(笔记本扩展坞有什么作用)

    笔记本扩展坞有什么用(笔记本扩展坞有什么作用)

  • 4G卡放在5G手机能用吗(4g卡放在5g手机为什么显示5g网络)

    4G卡放在5G手机能用吗(4g卡放在5g手机为什么显示5g网络)

  • 小度在家不用时用关机吗(小度在家不用时耗电吗)

    小度在家不用时用关机吗(小度在家不用时耗电吗)

  • 芯片原材料是什么(芯片原材料是什么东西)

    芯片原材料是什么(芯片原材料是什么东西)

  • 美图mp1710是什么型号(美图mp1718是什么型号多少钱)

    美图mp1710是什么型号(美图mp1718是什么型号多少钱)

  • page down在键盘哪里(page down在键盘哪个位置)

    page down在键盘哪里(page down在键盘哪个位置)

  • 抖音电脑版下载步骤(抖音电脑版下载不了)

    抖音电脑版下载步骤(抖音电脑版下载不了)

  • 天猫魔盒怎么视频聊天(天猫魔盒怎么视频投屏)

    天猫魔盒怎么视频聊天(天猫魔盒怎么视频投屏)

  • iphone11天气怎么设置(iphone11天气怎么不显示)

    iphone11天气怎么设置(iphone11天气怎么不显示)

  • xp任务栏怎么恢复到底下

    xp任务栏怎么恢复到底下

  • iphone8怎么开夜景拍照(iphone8plus夜间模式)

    iphone8怎么开夜景拍照(iphone8plus夜间模式)

  • 苹果手机怎么取消预订app(苹果手机怎么取消静音模式)

    苹果手机怎么取消预订app(苹果手机怎么取消静音模式)

  • 手机照片分辨率怎么调(苹果手机照片分辨率)

    手机照片分辨率怎么调(苹果手机照片分辨率)

  • myeclip和eclipse区别(eclipse和myeclipse有区别吗)

    myeclip和eclipse区别(eclipse和myeclipse有区别吗)

  • 网易云关闭心动模式(网易云怎么关掉心动)

    网易云关闭心动模式(网易云怎么关掉心动)

  • Windows server 2008设置远程桌面连接的详细步骤(图文教程)

    Windows server 2008设置远程桌面连接的详细步骤(图文教程)

  • 房地产企业增值税计算
  • 企业如何做增量
  • 出租房屋取得的收入计入什么
  • 计提坏账准备的做法体现了
  • 银行承兑汇票相当于贷款
  • 金蝶k3费用发票怎么做
  • 分步法和分批法思维导图
  • 什么是税收筹划风险?税收筹划风险的种类有哪些?
  • 用现金购买的股票
  • 查定征收方式适用于什么
  • 预付账款余额怎么算
  • 印花税的计税金额
  • 公司房产税如何计算器
  • 增值税主要有三种类型
  • 车改补贴是否计入工资总额
  • 发票已勾选未确认
  • 银行存款二级明细科目有哪些
  • 金银首饰的消费税税务处理
  • 零申报的企业所得税年报怎么填
  • 税负率一般控制在多少合适
  • 你需要来自system的权限怎么解决
  • 车间租金计入什么会计科目
  • 长期闲置的机器叫什么
  • 职工教育经费怎么记账
  • 工程材料怎么开票
  • 银行存款总账怎么登记图片
  • 吃鸡到底用什么显卡性价比最高?
  • 为什么会产生应收账款
  • 新空调的安装费是多少
  • 小规模纳税人查询
  • nginx反向代理未知域名
  • 金融服务机构
  • 安装运行所需环境怎么填
  • 微信小程序怎么制作自己的小程序
  • 先开票后发货合法吗
  • php投票系统代码
  • 营业税借方表示什么
  • 组装设备配件入什么科目
  • 工业企业总产值怎么算
  • 开发商需要缴纳保证金
  • VUE3.0+Antdv+Asp.net WebApi开发学生信息管理系统(二)
  • 增值税普通发票几个点
  • 以前年度多计管理费用怎么调整
  • 期货风险准备金计提比例
  • 设备维修三种形式
  • 工会经费是按应付职工薪酬贷方计提吗
  • 办理地税手续费
  • 银行汇票的分类和适用范围
  • 一般纳税人可以开1%的发票吗
  • 产权转让印花税减半征收
  • 收到银行手续费发票怎么入账
  • 出口退税的会计处理
  • 员工成本价购买公司商品 税屋
  • 合同分三次付款怎么写
  • 什么是非关联方账户
  • 行程单发票抬头是什么意思
  • 现金日记账月末怎么结账图片
  • sql分几类
  • mysql5.5安装配置教程
  • win7系统设备管理器其他设备有个未知设备叹号
  • xp系统无法打开网页怎么解决
  • linux系统故障及解决方法
  • win10系统进程
  • 微软推送Win11226x1.2050
  • 盗版win7怎么升级
  • bootstrap导航有哪些
  • cocos2dx CardinalSpline和CatmullRom算法
  • perl中打开文件
  • jquery弹出div窗口
  • 安卓手机怎么设置自动化
  • python中删除语句
  • python计算π值
  • android知识点大全
  • android设计模式书籍
  • 卸载python后模块库还用卸载吗
  • 广州出租车发票号码在哪里
  • 留抵退税再提速
  • 在网上购物是否隔断时间就要实名
  • 出口货物开票税率是多少
  • 出口退税函调不予退税的后果
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设