位置: IT常识 - 正文

训练自己的GPT2-Chinese模型(训练自己的GPT)

编辑:rootadmin
训练自己的GPT2-Chinese模型 文章目录效果抢先看准备工作环境搭建创建虚拟环境训练&预测项目结构模型预测续写训练模型遇到的问题及解决办法显存不足生成的内容一样文末效果抢先看

推荐整理分享训练自己的GPT2-Chinese模型(训练自己的GPT),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:训练自己的GPT模型,训练自己的GPT模型,训练自己的gpt 问答库,训练自己的大语言模型,训练自己的GPT模型,训练自己的GPT,训练自己的gpt模型有什么用,训练自己的gpt模型有什么用,内容如对您有帮助,希望把文章链接给更多的朋友!

准备工作

从GitHub上拉去项目到本地,准备已训练好的模型百度网盘:提取码【9dvu】。

gpt2对联训练模型gpt2古诗词训练模型gpt2通用中文模型gpt2通用中文小模型gpt2文学散文训练模型gpt2中文歌词模型环境搭建配置好GPU的pytorch环境 a. 安装Anaconda环境 b. NIVIDA配置流程 桌面右键鼠标,找到NVIDIA控制面板,在左边找到开发者下管理GPU性能计数器,导航栏点击桌面选择启用开发者设置,弹出的系统信息中找到组件,找到产品名前缀为NVIDIA CUDA的那一条,记住其后面的版本号。 c. 进入NVIDIA官网下载CUDA,找到上一步记录的NVIDIA CUDA后的版本号相对应的链接。如版本信息为11.4就选择11.4 d. 下载完点击安装就行了 e. 安装cuDNN,选择相应的版本。这个地方要登录账号,没有账号可以注册,也可以选择QQ或微信登录,选择刚才的CUDA版本,下载压缩包 f. 下载完成后解压缩,并修改根目录名为cudnn g. 将整个文件复制到xxx\NVIDIA GPU Computing Toolkit\CUDA\v11.4目录下 h. 设置变量环境,添加两个环境变量路径,根据自己的实际情况目录修改

pytorch配置 a. 去pytorch官网找到相应的gpu版本或cpu版本,找到后安装命令会出现在command栏 找不到自己的版本点击previous version链接 b. 使用管理员身份执行cmd,否则会安装失败

conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch

安装完成之后执行命令conda list查看是否安装成功

训练自己的GPT2-Chinese模型(训练自己的GPT)

打开终端输入python,使用以下代码查看torch显示GPU不可用状态

>>>import torch>>>torch.cuda.is_available()False

c. 标准查看torch版本

>>>import torch>>>torch.__version__1.10.2

pytorch轮子配置 a. whl轮子配置,根据CUDA版本选择相应的版本。其中cu表示GPU版本,cpu表示CPU版本 b. 下载完成之后本地使用pip install 安装

pip install .\torchvision-0.13.1+cpu-cp39-cp39-win_amd64.whlpip install .\torch-1.10.2+cu113-cp39-cp39-win_amd64.whl

c. 安装完成之后验证torch

>>>import torch>>>torch.cuda.is_available()True创建虚拟环境为了能够顺利使用环境,推荐使用python3.7.1版本conda create -n venv_name python=3.7.1激活 虚拟环境conda activate venv_namepip安装所需库pip install transformers==2.1.1pip install tensorflow==2.0.0 pip install numpypip install tqdmpip install sklearnpip install keraspip install tb-nightlypip install futurepip install thulacpip install setuptools==59.5.0pip install torch==1.10.2+cu113 torchvision==0.3.0 --extra-index-url 训练&预测项目结构config: 存放模型的配置文件data: 存放训练数据model: 存放模型cache: 用于模型训练之前的数据预处理sample: 用于存放生成样本的目录generate.py: 生成代码train.py: 训练多文本启动代码train_single.py: 训练但文本启动代码tokenizations: 用于文本数据转换tokenizations的脚本模型预测续写

参数说明:

length: 生成的最长长度prefix: 文章开头fast_pattern: 快速生成模式save_samples: 保存生成文本结果的位置temperature: 越小越遵循训练样本,续写的内容的思维越发散# 通用模型预测文本python ./generate.py --length=100 --nsamples=4 --prefix=天津是一座美丽的城市。 --fast_pattern --save_samples ----model_path=model/use_model --model_config=config/model_config_small.json --topk=8 --temperature=0.8 --batch_size=2# 制定模型输出python ./generate.py --length=300 --nsamples=4 --prefix=萧炎,斗之力。 --fast_pattern --save_samples --model_path=model/model_epoch18 --model_config=model/model_epoch18/config.json --topk=8 --temperature=1 --batch_size=1

其他参数参考:

训练模型

将训练语料以train.json的格式放入data目录中

如果文件格式为train.json格式,那么将train.py文件中的读取方式为:lines = json.load(f) 如果文件格式为train.txt格式,即数据格式为[”正文1“, ”正文2“, ”正文3“],那么将train.py文件中的读取方式为:lines = f.readlines()

运行train.py文件并设定--raw参数,会自动预处理数据,预处理完成之后,会自动执行训练。

python train.py --raw遇到的问题及解决办法显存不足语料太大:在config文件中选择小一点的json文件batch_size过大:默认训练是8,可以改成4或者6尝试生成的内容一样修改generate.py中的batch_size=1文末

此训练结果生成比较简单的文章还可以,但是需要达到理想的效果,还需要更大的数据体系和语料以及长期的模型训练,基于原有的算法二次开发,门槛也比较高,而且这种业务比较吃硬件资源。

本文链接地址:https://www.jiuchutong.com/zhishi/298719.html 转载请保留说明!

上一篇:路由懒加载及实现方式(vue-router)(路由加载的几种方式)

下一篇:2022前端面经---改变this指向问题(call、apply、bind)(2021年前端面试)

  • opporeno7语音助手怎么唤醒(opporeno7语音助手可以自定义声音吗)

    opporeno7语音助手怎么唤醒(opporeno7语音助手可以自定义声音吗)

  • realtek bluetooth是什么意思

    realtek bluetooth是什么意思

  • wps怎样加入超链接(wps怎样添加超链接)

    wps怎样加入超链接(wps怎样添加超链接)

  • pr导出到一定百分比卡住(pr导出已经显示百分百但不动了怎办)

    pr导出到一定百分比卡住(pr导出已经显示百分百但不动了怎办)

  • 账号user密码多少(user登陆密码多少)

    账号user密码多少(user登陆密码多少)

  • 华为p30美颜功能怎么设置(华为p30美颜设置)

    华为p30美颜功能怎么设置(华为p30美颜设置)

  • 小米换电池后不快充了(小米换电池后不能充电)

    小米换电池后不快充了(小米换电池后不能充电)

  • 应用锁正在保护什么意思(应用锁正在保护通知怎么关闭)

    应用锁正在保护什么意思(应用锁正在保护通知怎么关闭)

  • win7飞行模式在哪(windows7飞行模式在哪)

    win7飞行模式在哪(windows7飞行模式在哪)

  • 华为手机怎么样关机(华为手机怎么样截屏幕的图片)

    华为手机怎么样关机(华为手机怎么样截屏幕的图片)

  • 淘宝双十一的红包退款了之后会退回来吗(淘宝双十一的红包退货会返还红包吗)

    淘宝双十一的红包退款了之后会退回来吗(淘宝双十一的红包退货会返还红包吗)

  • 淘宝卡包在哪里(淘宝卡包劵在哪里)

    淘宝卡包在哪里(淘宝卡包劵在哪里)

  • 为什么ppt自动播放下一页(为什么ppt自动播放音乐)

    为什么ppt自动播放下一页(为什么ppt自动播放音乐)

  • 华为mate30单手模式怎么设置(mate30 单手操作)

    华为mate30单手模式怎么设置(mate30 单手操作)

  • 魅族wifi断流解决方案(魅族16wifi断流)

    魅族wifi断流解决方案(魅族16wifi断流)

  • 快手的黑名单有什么用处(快手的黑名单有数量限制吗)

    快手的黑名单有什么用处(快手的黑名单有数量限制吗)

  • 计算机中的应用软件是指(二进制在计算机中的应用)

    计算机中的应用软件是指(二进制在计算机中的应用)

  • 天猫拒收退货流程(天猫拒收退货流程图)

    天猫拒收退货流程(天猫拒收退货流程图)

  • 小米账号地区怎么修改(小米账号归属地修改)

    小米账号地区怎么修改(小米账号归属地修改)

  • 通常所说的裸机是指(我们通常说的裸机)

    通常所说的裸机是指(我们通常说的裸机)

  • 抖音怎么搜不到千年等一回(抖音怎么搜不到对方的抖音号)

    抖音怎么搜不到千年等一回(抖音怎么搜不到对方的抖音号)

  • 抖音如何选择本地音乐(抖音如何选择本地音乐配乐)

    抖音如何选择本地音乐(抖音如何选择本地音乐配乐)

  • 最贵的苹果APP是什么(苹果手机最贵的软件是哪个)

    最贵的苹果APP是什么(苹果手机最贵的软件是哪个)

  • FCN全卷积网络理解及代码实现(来自pytorch官方实现)(全卷积网络fcn详解)

    FCN全卷积网络理解及代码实现(来自pytorch官方实现)(全卷积网络fcn详解)

  • 企业申报个税软件怎么下载
  • 印花税减免优惠政策2020
  • 临时聘用人员费用谁承担
  • 摊销制造费用如何结转做会计分录呢?
  • 化肥贸易需要什么手续
  • 未及时转固
  • 按计划成本发出原材料怎么算
  • 公司职员聚餐取个名字
  • 什么叫记载资金的账簿
  • 小规模纳税人补缴增值税
  • 哪些政府补助可以做收入
  • 文化事业建设费减免政策
  • 所得税退费怎么操作
  • 完工产品定额直接材料费用
  • 个人买卖二手房增值税
  • 银行代发工资一定要本行卡吗
  • 企业没有进项票只有成本票
  • 企业员工自行体检流程
  • 商誉减值测试的方法有哪些
  • 非正常损失和非正常损耗的区别
  • 公司增资减资法条
  • linux计划任务crontab
  • 幼儿园资金收支管理财务制度
  • 支付宝流量红包怎么取消
  • 小规模旅游业的会计分录怎么写
  • kcleaner.exe是什么
  • PHP:mcrypt_module_get_algo_key_size()的用法_Mcrypt函数
  • php对象的概念
  • 深度学习实战10-数学公式识别-将图片转换为Latex(img2Latex)
  • 微信php源码
  • php页面跳转实现什么功能
  • unity ik
  • php json数据
  • mac datagrip
  • 公允价值变动损益怎么算出来的
  • 会计实务中的计提是什么意思
  • 加计扣除内容
  • 简易注销公示后怎么操作
  • 股东借款属于什么科目
  • 销售产品用什么词形容
  • 股东可以领取工资吗
  • 劳动法里病假工资怎么算
  • 有限责任公司分类
  • 外贸出口备案需准备什么资料
  • 固定资产后续计量包括哪些内容
  • 残保金如何做会计分录
  • 报销差旅费会计分录退回现金
  • 以银行存款支付固定资产修理费
  • 土地回收补偿费怎么算
  • 保修的产品还收费吗
  • 应收账款客户少付款怎么记账
  • 租车运货产生的费用
  • 公司赠送客户礼品怎么做账
  • 营业账簿如何缴纳税款
  • 试算平衡表的编制方法
  • 需要安装的固定资产有哪些
  • 营销活动费计入成本吗
  • 劳务费可以白条入账吗
  • 固定成本总额包含折旧吗
  • 销售固定资产怎么做账务处理
  • 哪些固定资产不计提折旧
  • 商业企业可将商品分为哪三类
  • sql server的相关技术知识
  • ubuntu 16.04
  • centos6启动不了
  • 进程lsass.exe
  • Win7系统桌面图标变小
  • squid服务器配置
  • linux vmware命令行
  • 升级win10后东西还在吗
  • nodejs支付宝支付
  • opengl 透视投影
  • jQuery中select与datalist制作下拉菜单时的区别浅析
  • gridview用法
  • linux保存
  • linux网络编程有什么用
  • bat批处理执行cmd命令
  • node.js异步编程
  • 对计划单列市税务局不服向谁复议
  • 北京市朝阳区地税
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设