大家好,我是硬核科技创业这闲富,今天给大家带来一个硬核科技,如何自己手搓一个ChatGPT3.5。


内容过于硬核,先说结论,目测在未来6个月内,将会出现私有独立部署的chatgpt版本,甚至装在一个U盘类似的硬件当中,即插即用,toB商业场景巨大,所以我们团队决定挑战手搓一个ChatGPT。



事情起由


这个事情要从2022.02月份说起,当时清华的一个小兄弟,给我介绍了gpt3的模型,聊天对话在此:



当时我们对GPT的能力和商业落地就有了一些探讨。时间过得很快,到了11月份,gpt3.5就快速的 引爆了全世界。

我上一边帖子:https://articles.zsxq.com/id_m35r2smop4q1.html 就在是应运而做的一件事情


前几天这个清华小兄弟又找到我,说准备手搓一个ChatGPT,我猛的一听,觉得不可思议,但是听他介绍下思路:

Facebook开源了LLaMA基础模型,从此产生了很多基于LLaMA微调的模型,Vicuna仅用3周时间,效果达到90%+ ChatGPT水平



谷歌技术报告:

https://www.semianalysis.com/p/google-we-have-no-moat-and-neither


最近这两天,Facebook发布了新工作,只需要用1000条数据,就可以超过GPT-3.5 (DaVinci 003) 的水平

LIMA: Less Is More for Alignment


基础模型具有了足够的潜力,只需要少量高质量数据微调,就能达到目标水平

既然Vicuna使用了ShareGPT的数据,我们可以抓取并进行清洗,筛选所有高质量数据,只要几千条足够

想法很大胆,不过清华就是清华,开搞!


开始行动



为了配合他的训练模型,我继续用ChatGPT套娃,首先要从sharegpt.com 这网站上爬一些其他的语料

数据来源:https://sharegpt.com/sitemap.xml

数据来源2:https://huggingface.co/datasets/philschmid/sharegpt-raw/tree/main/sharegpt_90k_raw_dataset 好心人在关闭搜索之前,把这个给保存下来了。

套娃开始:

简直太丝滑了,gpt3.5对程序员就比较友好了,通过三个小时的工作,这些数据都被整理出来了。提取里边的有用信息格式如下:

{
"props": {
"pageProps": {
"id": "0A5nb3e",
"content": {
"items": [{
"from": "human",
"value": "tha supreme è un'artista italiano contemporaneo (trapper, produttore discografico) che ha rivoluzionato la musica trap in italia, creando pezzi unici nel loro genere. Questo è una sua canzona, intitolata \"b@by nel bed\":\n\nHo una baby nel bed, ho una baby bad\nHo una baby nel bed, è una baby bad\nHo una baby nel mio bed, vorrebbe love\nHo una baby nel bed, ho una baby bad\n\nHo una baby nel bed, ho una baby bad\nHo una baby nel bed, è una baby bad\nHo una baby nel mio bed, vorrebbe love\nHo una baby nel bed, ho una baby bad\n\nSuono Mi poi La\nSwing come Ray Charles\nFumo g nei blunt\nFinché non mi sento up\n\nPoi se m’infami per fama, non so\nCome dirtelo ma me ne frega tipo zero\nNon fotti con me non fotterai me\n(Ho una) baby miss crystal\n\nNei suoi eyes c’ha il mar\nBella già nuda o in tuta nike\nCon le treccine mi fa\nPoi se mi cadi per strada farò\n\nQuello che, no, non ti ha mai fatto ne-nessuno\nSì ti rialzerò, ti rialzerò\n\nHo una baby nel bed, ho una baby bad\nHo una baby nel bed, è una baby bad\nHo una baby nel mio bed, vorrebbe love\nHo una baby nel bed, ho una baby bad\n\nHo una baby nel bed, ho una baby bad\nHo una baby nel bed, è una baby bad\nHo una baby nel mio bed, vorrebbe love\nHo una baby nel bed, ho una baby bad\n\nHo una baby nel bed, ho una baby bad\nHo una baby nel bed, è una baby bad\nHo una baby nel mio bed, vorrebbe love\nHo una baby nel bed, ho una baby bad\n\nScrivi il testo di una canzone nello stile di thasup che parli del fatto che la pizza è più buona del sushi. Il titolo della canzone sarà \"p!zza\"."
}, {
"from": "gpt",
"value": "\u003cdiv class=\"request-:R2d6:-1 markdown prose dark:prose-invert break-words light\"\u003e\u003cp\u003eP!zza, la migliore in città\nP!zza, non c'è niente di più buono\nSushi, sushi non è niente\nP!zza, la scelta giusta per me\u003c/p\u003e\u003cp\u003eHo una p!zza nel forno, calda e saporita\nSushi non mi piace, troppo acquosa\nP!zza con pepperoni, formaggio e olive\nSushi non ci penso neanche, mi fa schifo\u003c/p\u003e\u003cp\u003eSuono Mi poi La\nSwing come Ray Charles\nFumo g nei blunt\nFinché non mi sento up\u003c/p\u003e\u003cp\u003ePoi se m'infami per fama, non so\nCome dirtelo ma me ne frega tipo zero\nNon fotti con me non fotterai me\n(Ho una) p!zza al taglio\u003c/p\u003e\u003cp\u003eNei suoi occhi c'è la verità\nP!zza è il mio amore eterno\nCon il cornicione croccante\nPoi se mi cadi per strada farò\u003c/p\u003e\u003cp\u003eQuello che, no, non ti ha mai fatto nessuno\nSì ti rialzerò, ti rialzerò\u003c/p\u003e\u003cp\u003eP!zza, la migliore in città\nP!zza, non c'è niente di più buono\nSushi, sushi non è niente\nP!zza, la scelta giusta per me\u003c/p\u003e\u003cp\u003eP!zza, la migliore in città\nP!zza, non c'è niente di più buono\nSushi, sushi non è niente\nP!zza, la scelta giusta per me\u003c/p\u003e\u003c/div\u003e"
}],
"avatarUrl": "data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAAAQABAAD/4gIoSUNDX1BST0ZJTEUAAQEAAAIYAAAAAAQwAABtbnRyUkdCIFhZWiAAAAAAAAAAAAAAAABhY3NwAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAQAA9tYAAQAAAADTLQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAlkZXNjAAAA8AAAAHRyWFlaAAABZAAAABRnWFlaAAABeAAAABRiWFlaAAABjAAAABRyVFJDAAABoAAAAChnVFJDAAABoAAAAChiVFJDAAABoAAAACh3dHB0AAAByAAAABRjcHJ0AAAB3AAAADxtbHVjAAAAAAAAAAEAAAAMZW5VUwAAAFgAAAAcAHMAUgBHAEIAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFhZWiAAAAAAAABvogAAOPUAAAOQWFlaIAAAAAAAAGKZAAC3hQAAGNpYWVogAAAAAAAAJKAAAA+EAAC2z3BhcmEAAAAAAAQAAAACZmYAAPKnAAANWQAAE9AAAApbAAAAAAAAAABYWVogAAAAAAAA9tYAAQAAAADTLW1sdWMAAAAAAAAAAQAAAAxlblVTAAAAIAAAABwARwBvAG8AZwBsAGUAIABJAG4AYwAuACAAMgAwADEANv/bAEMAAwICAgICAwICAgMDAwMEBgQEBAQECAYGBQYJCAoKCQgJCQoMDwwKCw4LCQkNEQ0ODxAQERAKDBITEhATDxAQEP/bAEMBAwMDBAMECAQECBALCQsQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEP/AABEIAB4AHgMBIgACEQEDEQH/xAAYAAEAAwEAAAAAAAAAAAAAAAAGAAIDB//EACkQAAICAQMDAwMFAAAAAAAAAAECAwQRAAUSBiExBxNhFCKBI0GRodH/xAAWAQEBAQAAAAAAAAAAAAAAAAABAgj/xAAlEQABAwMCBgMAAAAAAAAAAAABAwQRAAISIUETMVFhcaGx4fH/2gAMAwEAAhEDEQA/AF6oB/urcfnVYElmkSGJDJJIwRFHksTgD8kgfnSu10x03TtXtuSbqK3c24SRWLlSmJaS2EH3JwH6mA+V5Eg9uWOOCctoNb3E47fNaWWcpoEC6de23WiwX51OPzpRt/Rkd3oqfqZ9yddykjsXadIKGWalWeNLMhJ7hlaQ8e+CEbtoxkeMjSs2Vbi0qiMhI8UIOk3F19qZnEwfNZRu0ciuh4spBVh2ZWHhgf2I0+q+olWjudjqWltN+vu8wkdoo9zePbJrLxlWneBRyJPLJTkVyB41z8HBzrcH+tUg6WaXZImKlyzSdxxRI1670zp+ps22bhtL0em9oajs9SKhDHYqpLZ+nCcZE+pKhgXzISQBgv47dxb+zyPsRGNMkKpfkQuTxGcDOB/JydW1NLh2s8jimYJ9/lLZkg0kpWwTz7/ep151/9k="
},
"views": 15,
"comments": []
},
"__N_SSG": true
},
"page": "/c/[id]",
"query": {
"id": "0A5nb3e"
},
"buildId": "mf1hHAmX0bEOFCTF1b7Wa",
"isFallback": false,
"gsp": true,
"scriptLoader": []
}


来留个钩子: 我这边把搞到的数据已经上传到百度网盘,需要的朋友们可以私信获取!


后续 有进度会继续同步大家,感兴趣的小伙伴们,可以加入我们,一起共创!


商业场景


在数据隐私保护的时代,私有化部署自己的chatgpt永远是一个永恒的大需求。

在前边的case中,对于英文的商业公司来说,这是一个很大的可以出海的需求。

当然对于国内这么庞大的需求来说,支持中文的话商业价值更大。

我会和清华的小兄弟继续摸索 私有化手搓ChatGPT这条路。


共创的朋友可以一起来!

Comments on "硬核科技,如何自己手搓一个 ChatGPT" :

Leave a Reply

Your email address will not be published. Required fields are marked *

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源