位置: IT常识 - 正文

Bert 得到中文词向量(bert获取中文词向量)

编辑:rootadmin
Bert 得到中文词向量

推荐整理分享Bert 得到中文词向量(bert获取中文词向量),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:bert英文发音,bert读,bert获取中文词向量,bert翻译成中文,bert分词得到词向,bert翻译成中文,bert中文分词,bert中文分词,内容如对您有帮助,希望把文章链接给更多的朋友!

通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中

得到中文词向量的代码如下

import torchfrom transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 加载base模型的对应的切词器model = BertModel.from_pretrained('bert-base-chinese')print(tokenizer) # 打印出对应的信息,如base模型的字典大小,截断长度等等token = tokenizer.tokenize("自然语言处理") # 切词print(token) # 切词结果indexes = tokenizer.convert_tokens_to_ids(token) # 将词转换为对应字典的idprint(indexes) # 输出idtokens = tokenizer.convert_ids_to_tokens(indexes)# 将id转换为对应字典的词print(tokens) # 输出词# 使用这种方法对句子编码会自动添加[CLS] 和[SEP]input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0)print(input_ids)outputs = model(input_ids)# cls_id = tokenizer._convert_token_to_id('[CLS]')# sep_id = tokenizer._convert_token_to_id('[SEP]')# print(cls_id, sep_id)sequence_output = outputs[0]print(sequence_output)print(sequence_output.shape) ## 字向量Bert 得到中文词向量(bert获取中文词向量)

输出的结果如下

PreTrainedTokenizer(name_or_path='bert-base-chinese', vocab_size=21128, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})['自', '然', '语', '言', '处', '理'][5632, 4197, 6427, 6241, 1905, 4415]['自', '然', '语', '言', '处', '理']tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415, 102]])tensor([[[-0.5707, 0.1999, -0.0637, ..., -0.0916, -0.3997, 0.1751], [ 0.1549, 0.2454, 0.8372, ..., -0.7411, -0.8433, 0.5498], [ 0.1983, -0.5007, -0.6416, ..., 0.0322, -0.2561, 0.0599], ..., [ 0.1960, 0.4055, 1.6229, ..., 0.1070, -0.2448, 0.1766], [ 0.0846, 0.9084, 0.5164, ..., 0.0235, 0.6487, -0.0858], [-0.5326, -0.0390, 1.9163, ..., 0.1597, -0.2909, 0.6810]]], grad_fn=<NativeLayerNormBackward0>)torch.Size([1, 8, 768])

当然还可以通过bert-as-service得到词向量,网上有很多,步骤如下:

安装肖涵博士的bert-as-service: pip install bert-serving-server pip install bert-serving-client

下载训练好的Bert中文词向量: https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

启动bert-as-service: 找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:

bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1#后台启动服务(nohup .... &)nohup bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1 &

即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。) 启动后结果如下: 获取Bert预训练好的中文词向量:

from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示 print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示 print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。

本文链接地址:https://www.jiuchutong.com/zhishi/295945.html 转载请保留说明!

上一篇:Java - token的存储与获取(javatoken生成机制)

下一篇:vue项目根据不同环境动态配置接口请求ip及全局变量(vue环境变量配置)(vue调用同一个组件)

  • 笔记本电脑黑屏怎么办(笔记本电脑黑屏)(笔记本电脑黑屏了按哪个键恢复)

    笔记本电脑黑屏怎么办(笔记本电脑黑屏)(笔记本电脑黑屏了按哪个键恢复)

  • ftp是文件传输协议吗(FTP是文件传输协议,正确吗)

    ftp是文件传输协议吗(FTP是文件传输协议,正确吗)

  • 文本形式是啥(文本形式在哪里)

    文本形式是啥(文本形式在哪里)

  • 微信换密码电脑会退出登录吗(微信换密码电脑登陆不了)

    微信换密码电脑会退出登录吗(微信换密码电脑登陆不了)

  • 抖音视频什么时候发点击率高(抖音视频什么时候投dou+)

    抖音视频什么时候发点击率高(抖音视频什么时候投dou+)

  • iphone6怎么隐藏应用(iphone6怎么隐藏游戏)

    iphone6怎么隐藏应用(iphone6怎么隐藏游戏)

  • 怎么在表格贴电子照片(电子表格怎么粘贴图片)

    怎么在表格贴电子照片(电子表格怎么粘贴图片)

  • 如何用手机给mp3下载音乐(如何用手机给MP3下载音频)

    如何用手机给mp3下载音乐(如何用手机给MP3下载音频)

  • 手机摔了一下会坏吗(手机摔了一下会影响电池吗)

    手机摔了一下会坏吗(手机摔了一下会影响电池吗)

  • vivo怎样把软件移到内存卡(vivo怎样把软件加入白名单)

    vivo怎样把软件移到内存卡(vivo怎样把软件加入白名单)

  • vivoy93 虚拟按键怎么弄(vivox9虚拟按键)

    vivoy93 虚拟按键怎么弄(vivox9虚拟按键)

  • 京东我的评价在哪里看(京东 我的评价在哪里)

    京东我的评价在哪里看(京东 我的评价在哪里)

  • iphone11内存有几种(苹果11内存几个g)

    iphone11内存有几种(苹果11内存几个g)

  • 拼多多主图怎么上视频(拼多多主图怎么做吸引人)

    拼多多主图怎么上视频(拼多多主图怎么做吸引人)

  • 苹果手机黑白名单怎么查(苹果手机黑白名单有什么区别)

    苹果手机黑白名单怎么查(苹果手机黑白名单有什么区别)

  • 手机热点资讯怎么打开(手机热点资讯怎么关掉)

    手机热点资讯怎么打开(手机热点资讯怎么关掉)

  • 爱剪辑如何将照片制作成视频(爱剪辑如何将照片编辑成视频)

    爱剪辑如何将照片制作成视频(爱剪辑如何将照片编辑成视频)

  • 电脑买回来要做些什么(电脑买回来要做系统吗)

    电脑买回来要做些什么(电脑买回来要做系统吗)

  • 小米手环跑步不带手机可以记录运动轨迹吗(小米手环跑步不计入步数吗)

    小米手环跑步不带手机可以记录运动轨迹吗(小米手环跑步不计入步数吗)

  • iphone拨号助理不见了(苹果手机拨号助理打不出去电话)

    iphone拨号助理不见了(苹果手机拨号助理打不出去电话)

  • 今日头条如何转发(今日头条如何转发视频赚钱)

    今日头条如何转发(今日头条如何转发视频赚钱)

  • html+css制作静态小米商城页面(含css手动轮播图)(css静态网页制作)

    html+css制作静态小米商城页面(含css手动轮播图)(css静态网页制作)

  • Javan tree frogs sitting together on a stalk in Indonesia (© SnapRapid/Offset by Shutterstock)

    Javan tree frogs sitting together on a stalk in Indonesia (© SnapRapid/Offset by Shutterstock)

  • vgdisplay命令  显示VG卷组信息(vgdisplay命令无效)

    vgdisplay命令 显示VG卷组信息(vgdisplay命令无效)

  • bash命令  命令解释器(bash详解)

    bash命令 命令解释器(bash详解)

  • 总结帝国cms里栏目列表模板获取同级栏目的方法(帝国cms移动端)

    总结帝国cms里栏目列表模板获取同级栏目的方法(帝国cms移动端)

  • 税务申报指的是什么
  • 什么情况下需要补牙
  • 外部审计内容是什么
  • 转租仓库交增值税吗
  • 利润表中的所得税费用怎么填
  • 增值税 抵扣联
  • 对公账户可以报一办几个
  • 如何查询对方是不是一般纳税人
  • 上市审计费入账
  • 非工作日是否可以开标
  • 注册资本余额为100万亿元
  • 库存商品进价成本
  • 无形资产报废会计科目
  • 税收的性质是哪一项
  • 不得抵扣的进项税额的情形有
  • 取得消费税出口退税款如何做会计处理?
  • 用库存物资抵货怎么做账
  • 金融业的增值税
  • 即征即退增值税政策
  • 进项发票与销项发票差额是企业毛利润吗
  • 提示没有安装QQ怎么处理
  • 企业接受大额捐赠,可以分次确认收入缴纳企业所得税吗?
  • 所有转让土地税怎么算
  • 赞助支出属于什么费用
  • 应交税费未交增值税明细账
  • 购买的装修样品怎么入账
  • 3%增值税专用发票可以抵扣多少
  • 取得运输单位开具的普通发票
  • 政府奖励金额是否要交二次税呢
  • 单位自办食堂为单位职工提供餐饮服务要交增值税吗
  • 抄报汇总对比通用怎么写
  • 研发费用加计扣除的条件
  • 主营业务收到的现金
  • 结转进项税销项税额的分录怎么写
  • 销售环节的运费怎么算
  • php的强大功能函数库中都含有哪些常用函数?
  • 银河麒麟操作系统价格
  • PHP:curl_multi_remove_handle()的用法_cURL函数
  • nbscheduler是什么程序
  • 讲解如何使用
  • 公司投资款无法收回
  • 图片转base64格式返回给前端,前端如何展示?
  • 科技推广和应用服务业属于第几产业
  • thinkphp,onethink和thinkox中验证码不显示的解决方法分析
  • 最全面的心脏检查怎么做
  • spring三级缓存有什么用
  • mysql识别中文
  • 集团对子公司拨款的规定
  • 应付职工薪酬账户
  • 供热企业税收优惠
  • wordpress删除修订版本
  • 企业发生的直接进入当期损益的期间费用包括
  • 查财务报表的网站有哪些
  • 网上如何增加办税人员
  • 生产企业购入原材料
  • 信息技术服务增值税税负率是多少
  • 税金及附加可以结转吗
  • 销项负数发票给谁
  • 无形资产根据什么科目填列
  • 冲销预付账款怎么填记账凭证
  • 收到红字发票如何入账
  • 出口收到货款怎么做账
  • 接受政府补助的应纳税所得
  • 根据企业
  • 原始凭证留存几年
  • 改错的技巧
  • Mysql 5.7.19 winx64 ZIP Archive 安装及使用过程问题小结
  • 怎么用u盘安装xp系统教程
  • mac开机后蓝屏没反应
  • OS X 10.12.6 beta 1如何更新 OS X 10.12.6 beta 1如何升级
  • window8系统桌面啥样的
  • 电脑ahci模式什么意思
  • WIN7系统中WQRD超链接打不开怎么办
  • python中numpy.zeros(np.zeros)的使用方法
  • 在node.js中想要监听事件
  • Node.js中的construct
  • linux创建用户的命令是什么
  • [置顶]游戏名 TentacleLocker
  • 电子湖北税务局
  • 2020年青海国税工资待遇
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设