离开OpenAI待业的Karpathy做了个大模型新项目,Star量一日破千 离开OpenAI待业的Karpathy做了个大模型新项目,Star量一日破千
admin
2024-02-18 18:12:04
0

机器之心报道

编辑:杜伟

没工作也要「卷」。

闲不下来的 Andrej Karpathy 又有了新项目!

过去几天,OpenAI 非常热闹,先有 AI 大牛 Andrej Karpathy 官宣离职,后有视频生成模型 Sora 撼动 AI 圈。

在宣布离开 OpenAI 之后,Karpathy 发推表示「这周可以歇一歇了。」



图源:https://twitter.com/karpathy/status/1757986972512239665

这种无事要做的状态让马斯克都羡慕(I am envious)了。



但是,如果你真的认为 Karpathy 会闲下来,那就有点「too young, too navie」了。

这不,有眼尖的网友发现了 Karpathy 的新项目 ——minbpe,致力于为 LLM 分词中常用的 BPE(Byte Pair Encoding, 字节对编码)算法创建最少、干净以及教育性的代码

仅仅一天的时间,该项目的 GitHub 标星已经达到了 1.2 k。

图源:https://twitter.com/ZainHasan6/status/1758727767204495367



有人 P 了一张图,表示 Karpathy 为大家「烹制了一顿大餐」。



图源:https://twitter.com/andrewcyu/status/1758897928385561069

更有人欢呼,Karpathy is back。

图源:https://twitter.com/fouriergalois/status/1758775281391677477



我们来看一看「minbpe」项目具体讲了些什么。

项目介绍



GitHub 地址:https://github.com/karpathy/minbpe

我们知道,BPE 算法是「字节级」的,在 UTF-8 编码的字符串上运行。该算法通过 GPT-2 论文和 GPT-2 相关的代码在大语言模型(LLM)中得到推广。

现如今,所有现代的 LLM(比如 GPT、Llama、Mistral)都使用 BPE 算法来训练它们的分词器(tokenizer)。

Karpathy 的 minbpe 项目存储库中提供了两个 Tokenizer,它们都可以执行分词器的 3 个主要功能:1)训练 tokenizer 词汇并合并给指定文本,2)从文本编码到 token,3)从 token 解码到文本。

详细的存储库文件分别如下:

minbpe/base.py:实现 Tokenizer 类,是基类。它包含了训练、编码和解码存根、保存 / 加载功能,还有一些常见的实用功能。不过,该类不应直接使用,而是要继承。minbpe/basic.py:实现 BasicTokenizer,这是直接在文本上运行的 BPE 算法的最简单实现。minbpe/regex.py:实现 RegexTokenizer,它通过正则表达式模式进一步拆分输入文本。作为一个预处理阶段,它在分词之前按类别(例如字母、数字、标点符号)拆分输入文本。这确保不会发生跨类别边界的合并。它是在 GPT-2 论文中引入的,并继续在 GPT-4 中使用。minbpe/gpt4.py:实现 GPT4Tokenizer。此类是 RegexTokenizer 的轻量级封装,它精确地复现了 tiktoken(OpenAI 开源分词神器)库中 GPT-4 的分词。封装处理有关恢复 tokenizer 中精确合并的一些细节,并处理一些 1 字节的 token 排列。需要注意,奇偶校验尚未完全完成,没有处理特殊的 token。

脚本 train.py 在输入文本 tests/taylorswift.txt 上训练两个主要的 tokenizer,并将词汇保存到磁盘以进行可视化。Karpathy 称,该脚本在他的 MacBook (M1) 上运行大约需要 25 秒。

Karpathy 还表示,所有文件都非常短且注释详尽,并包含使用示例。如下为 BPE 维基百科文章的复现例子。

from minbpe import BasicTokenizer

tokenizer = BasicTokenizer()text = "aaabdaaabac"

tokenizer.train(text, 256 + 3) # 256 are the byte tokens, then do 3 merges

print(tokenizer.encode(text))# [258, 100, 258, 97, 99]

print(tokenizer.decode([258, 100, 258, 97, 99]))# aaabdaaabac

tokenizer.save("toy")# writes two files: toy.model (for loading) and toy.vocab (for viewing)

此外还提供了如何实现 GPT4Tokenizer,以及它与 tiktoken 的比较。

text = "hello123!!!? (안녕하세요!) "

# tiktoken

import tiktoken

enc = tiktoken.get_encoding("cl100k_base")print(enc.encode(text))# [15339, 4513, 12340, 30, 320, 31495, 230, 75265, 243, 92245, 16715, 57037]

# ours

from minbpe import GPT4Tokenizer

tokenizer = GPT4Tokenizer()print(tokenizer.encode(text))# [15339, 4513, 12340, 30, 320, 31495, 230, 75265, 243, 92245, 16715, 57037]

当然,Karpathy 不满足只推出 GitHub 项目,他表示视频很快就会发布。



相关内容

热门资讯

净利润大涨40% 京东物流一季... 快科技5月12日消息,京东物流正式公布2026年第一季度业绩,创下了上市以来一季度最好的利润成绩。 ...
流量时代的图书困局:低价竞争挤... 2025年中国图书零售市场数据显示,线上渠道销售占比已达86.35%。从电商平台到直播带货,“互联网...
增值服务百场助企行(四十二)莱... 近日,为帮助企业破解用工痛点、补齐管理短板,莱州市“易企莱”企业增值服务平台组织举办了“合规用工・共...
沃达丰股价走低:德国业务表现不... 来源:环球市场播报 今年以来,沃达丰集团股价累计涨幅超 17%。 英国电信巨头沃达丰公布财报后股价...
跨界AI产品经理,一个文科生走... / 面面俱到 / “随着生活的推进,我发现生活里只有两种事,一种是我不想干的事,一种是我不睡觉也要干...
法国兴业银行股价下跌3% 每经AI快讯,5月12日,法国兴业银行股价下跌3%。 每日经济新闻 【免责声明】本文仅代表作者本人观...
独家 | 低空经济,重磅收购发... 作者 | 铅笔道 惜文 编辑 | 铅笔道 邹蔚 王方 最近,低空经济赛道,发生一起重磅并购。低空经济...
购房收据挂失登报流程 购房收据挂失登报流程并不复杂,首先需要确认登报的具体要求和所需材料。登报是通过报纸等公开媒体发布声明...
【公告复盘】PCB+CPO+覆... 【A股收盘|沪指跌0.25% 半导体设备、特高压概念股活跃】四大股指今日收盘涨跌不一,沪指跌0.25...
原创 货... 导语:银行板块极致低估值隐含安全边际,且附带估值修复期权。 01 诸神的黄昏 货币基金和黄金,这些曾...
资本“救火”一年后,大润发的调... 出品 | 创业最前线 付艳翠 近期,随着CEO闪电失联与董事会主席“零元救火”的戏剧性一幕接连上演...
59岁浙江前首富直播间跳团舞,... 美特斯邦威曾是80、90后青春记忆里绕不开的符号,那句“不走寻常路”更是响彻街头巷尾。2008年上市...
周琦18+8杰曼三双 北京2-... 【搜狐体育战报】北京时间5月12日CBA季后赛,主场作战的北京北汽以88-73击败广东东阳光,北京首...
汽油价格持续攀升!美国4月CP... 受伊朗战争推动的汽油价格持续攀升,美国4月通胀继续加速。战争影响正在随着能源成本飙升而冲击美国经济。...
老铁流量见顶,快手要靠可灵20... 来源:市场资讯 (来源:野马财经) 可灵年入10亿,仅占快手的0.73%。 作者|刘钦文 编辑|高...
美国4月未季调CPI同比升3.... 美国4月未季调CPI同比升3.8%,前值升3.3%; (本文来自第一财经)
挪威财长:主权财富基金在道德撤... 来源:环球市场播报 当全球最大的挪威规模达2.2万亿美元的主权财富基金因伦理考量出售某公司股份时,...
1300亿,快手可灵酝酿“单飞... 来源:猎云精选,文/韩文静 AI视频生成赛道,从来不缺资本故事。 近日,快手旗下视频生成大模型“可灵...
光模块龙头股价一年涨超990%... 5月12日,光模块龙头中际旭创(300308.SZ)股价大涨,盘中突破1000元,成为继爱美客(30...
小红书或再回购期权,半年回购价... 小红书再传期权回购。近日,有消息称小红书开启了2026年第一轮期权回购,有离职员工爆料称最新的回购价...