离开OpenAI待业的Karpathy做了个大模型新项目,Star量一日破千 离开OpenAI待业的Karpathy做了个大模型新项目,Star量一日破千
admin
2024-02-18 18:12:04
0

机器之心报道

编辑:杜伟

没工作也要「卷」。

闲不下来的 Andrej Karpathy 又有了新项目!

过去几天,OpenAI 非常热闹,先有 AI 大牛 Andrej Karpathy 官宣离职,后有视频生成模型 Sora 撼动 AI 圈。

在宣布离开 OpenAI 之后,Karpathy 发推表示「这周可以歇一歇了。」



图源:https://twitter.com/karpathy/status/1757986972512239665

这种无事要做的状态让马斯克都羡慕(I am envious)了。



但是,如果你真的认为 Karpathy 会闲下来,那就有点「too young, too navie」了。

这不,有眼尖的网友发现了 Karpathy 的新项目 ——minbpe,致力于为 LLM 分词中常用的 BPE(Byte Pair Encoding, 字节对编码)算法创建最少、干净以及教育性的代码

仅仅一天的时间,该项目的 GitHub 标星已经达到了 1.2 k。

图源:https://twitter.com/ZainHasan6/status/1758727767204495367



有人 P 了一张图,表示 Karpathy 为大家「烹制了一顿大餐」。



图源:https://twitter.com/andrewcyu/status/1758897928385561069

更有人欢呼,Karpathy is back。

图源:https://twitter.com/fouriergalois/status/1758775281391677477



我们来看一看「minbpe」项目具体讲了些什么。

项目介绍



GitHub 地址:https://github.com/karpathy/minbpe

我们知道,BPE 算法是「字节级」的,在 UTF-8 编码的字符串上运行。该算法通过 GPT-2 论文和 GPT-2 相关的代码在大语言模型(LLM)中得到推广。

现如今,所有现代的 LLM(比如 GPT、Llama、Mistral)都使用 BPE 算法来训练它们的分词器(tokenizer)。

Karpathy 的 minbpe 项目存储库中提供了两个 Tokenizer,它们都可以执行分词器的 3 个主要功能:1)训练 tokenizer 词汇并合并给指定文本,2)从文本编码到 token,3)从 token 解码到文本。

详细的存储库文件分别如下:

minbpe/base.py:实现 Tokenizer 类,是基类。它包含了训练、编码和解码存根、保存 / 加载功能,还有一些常见的实用功能。不过,该类不应直接使用,而是要继承。minbpe/basic.py:实现 BasicTokenizer,这是直接在文本上运行的 BPE 算法的最简单实现。minbpe/regex.py:实现 RegexTokenizer,它通过正则表达式模式进一步拆分输入文本。作为一个预处理阶段,它在分词之前按类别(例如字母、数字、标点符号)拆分输入文本。这确保不会发生跨类别边界的合并。它是在 GPT-2 论文中引入的,并继续在 GPT-4 中使用。minbpe/gpt4.py:实现 GPT4Tokenizer。此类是 RegexTokenizer 的轻量级封装,它精确地复现了 tiktoken(OpenAI 开源分词神器)库中 GPT-4 的分词。封装处理有关恢复 tokenizer 中精确合并的一些细节,并处理一些 1 字节的 token 排列。需要注意,奇偶校验尚未完全完成,没有处理特殊的 token。

脚本 train.py 在输入文本 tests/taylorswift.txt 上训练两个主要的 tokenizer,并将词汇保存到磁盘以进行可视化。Karpathy 称,该脚本在他的 MacBook (M1) 上运行大约需要 25 秒。

Karpathy 还表示,所有文件都非常短且注释详尽,并包含使用示例。如下为 BPE 维基百科文章的复现例子。

from minbpe import BasicTokenizer

tokenizer = BasicTokenizer()text = "aaabdaaabac"

tokenizer.train(text, 256 + 3) # 256 are the byte tokens, then do 3 merges

print(tokenizer.encode(text))# [258, 100, 258, 97, 99]

print(tokenizer.decode([258, 100, 258, 97, 99]))# aaabdaaabac

tokenizer.save("toy")# writes two files: toy.model (for loading) and toy.vocab (for viewing)

此外还提供了如何实现 GPT4Tokenizer,以及它与 tiktoken 的比较。

text = "hello123!!!? (안녕하세요!) "

# tiktoken

import tiktoken

enc = tiktoken.get_encoding("cl100k_base")print(enc.encode(text))# [15339, 4513, 12340, 30, 320, 31495, 230, 75265, 243, 92245, 16715, 57037]

# ours

from minbpe import GPT4Tokenizer

tokenizer = GPT4Tokenizer()print(tokenizer.encode(text))# [15339, 4513, 12340, 30, 320, 31495, 230, 75265, 243, 92245, 16715, 57037]

当然,Karpathy 不满足只推出 GitHub 项目,他表示视频很快就会发布。



相关内容

热门资讯

“摘星脱帽”后连收两个涨停 金... 本报记者 冯雨瑶 7月3日,金科地产集团股份有限公司(以下简称“金科股份”)股价开盘后再度涨停,这是...
三重需求叠加,国产半导体设备企... 记者 郑晨烨 最近几个交易日,股票市场上近期涨势迅猛的科技股群体出现了快速回调。但在产业层面,202...
颈肩腰腿疼得扛不住?博康诊所贾... 现代保健报讯:朔州入了夏,白天热辣辣的,屋里空调一开,冷热交替间,不少人的颈肩腰腿又开始闹别扭了。鄯...
一张“小桌子”何以撬动大消费?... (来源:上海普陀) “太开心了!我是从常州特地来的,一年一次的展会,当然要过来感受一下!”上午10时...
2026四川行|从“四川行”看... 2026中外知名企业四川行投资推介会举行期间,四川重磅推出1.8万亿元投资机会,精选180个重点项目...
每周股票复盘:平安银行(000... 截至2026年7月3日收盘,平安银行(000001)报收于10.29元,较上周的10.23元上涨0....
电商爆款仪器怎么玩?公模现货在... 电商爆款仪器的核心竞争力不是重金投入外观私模,而是极致的供应链测款速度。数据显示,能在5天内完成现货...
起步价2000万的杭州豪宅成交... 界面新闻记者 | 杨冰柯 界面新闻编辑 | 庄键 上半年杭州新房成交2.62万套,总价2000万...
联易融:荣膺ESG可持续发展卓... 6月29日,由格隆汇主办的“中期策略峰会”揭晓“金格奖”年度卓越公司评选榜单,联易融科技集团(下称“...
腾讯、阿里、百度,历史性同台!... 每经编辑:金冥羽,陈俊杰,向江林 记者|郁彪 编辑|金冥羽 陈俊杰向江林 校对|张益铭 这是腾讯、...
3年赚46亿,杨幂喊出一个安徽... 国产零食品牌“溜溜梅”最近上市了。 6月15日,上市首日,溜溜梅的单日涨幅高达193.71%,超过此...
“甘肃银王”被查,“白银龙头”... “甘肃银王”栽了,“白银龙头“一泻千里。 2026年1月29日,盛达资源因为头顶“白银龙头”等热门概...
“霉霉”世纪婚礼耗资过亿!婚礼... (来源:中新文娱) Taylor Swift(霉霉)与美式足球员男友Travis Kelce,于当地...
暗访上海热门黄金回收店,全程录... 暗访上海热门黄金回收店,全程录像记录真实交易过程 为了给大家呈现最真实的黄金回收全流程,我提前准备好...
上海电气与上海交大签署战略合作... 据上海电气消息,7月3日下午,中国科学院院士、上海交通大学(以下简称“上海交大”)党委副书记、校长丁...
原创 警... 2026年上半年,美联储的资产负债表走势走出了和2019年9月高度相似的曲线,口头坚持收紧货币政策、...
半年净利润突破200亿元!券商... 市场迎来了首份券商半年报预告。 7月3日晚间,国泰海通发布2026年半年度业绩预告。2026年上半年...
贵阳对标实时大盘金价回收金项链... 当前黄金回收行业参与主体多样,不同商家的定价标准、服务流程差异较大,不少贵阳用户在处置闲置黄金时,会...
机器人走进生活,风险谁来“抗”... 保险已成为人形机器人规模化落地的关键一环,未来机器人企业将联合头部险企打造覆盖全链路的打包保单,细分...
哪些标准可以判断黄金回收机构的... 近年来随着黄金资产配置需求的提升,不同群体的黄金变现需求也逐渐增多:45-70岁的中老年投资者早年入...