离开OpenAI待业的Karpathy做了个大模型新项目,Star量一日破千 离开OpenAI待业的Karpathy做了个大模型新项目,Star量一日破千
admin
2024-02-18 18:12:04
0

机器之心报道

编辑:杜伟

没工作也要「卷」。

闲不下来的 Andrej Karpathy 又有了新项目!

过去几天,OpenAI 非常热闹,先有 AI 大牛 Andrej Karpathy 官宣离职,后有视频生成模型 Sora 撼动 AI 圈。

在宣布离开 OpenAI 之后,Karpathy 发推表示「这周可以歇一歇了。」



图源:https://twitter.com/karpathy/status/1757986972512239665

这种无事要做的状态让马斯克都羡慕(I am envious)了。



但是,如果你真的认为 Karpathy 会闲下来,那就有点「too young, too navie」了。

这不,有眼尖的网友发现了 Karpathy 的新项目 ——minbpe,致力于为 LLM 分词中常用的 BPE(Byte Pair Encoding, 字节对编码)算法创建最少、干净以及教育性的代码

仅仅一天的时间,该项目的 GitHub 标星已经达到了 1.2 k。

图源:https://twitter.com/ZainHasan6/status/1758727767204495367



有人 P 了一张图,表示 Karpathy 为大家「烹制了一顿大餐」。



图源:https://twitter.com/andrewcyu/status/1758897928385561069

更有人欢呼,Karpathy is back。

图源:https://twitter.com/fouriergalois/status/1758775281391677477



我们来看一看「minbpe」项目具体讲了些什么。

项目介绍



GitHub 地址:https://github.com/karpathy/minbpe

我们知道,BPE 算法是「字节级」的,在 UTF-8 编码的字符串上运行。该算法通过 GPT-2 论文和 GPT-2 相关的代码在大语言模型(LLM)中得到推广。

现如今,所有现代的 LLM(比如 GPT、Llama、Mistral)都使用 BPE 算法来训练它们的分词器(tokenizer)。

Karpathy 的 minbpe 项目存储库中提供了两个 Tokenizer,它们都可以执行分词器的 3 个主要功能:1)训练 tokenizer 词汇并合并给指定文本,2)从文本编码到 token,3)从 token 解码到文本。

详细的存储库文件分别如下:

minbpe/base.py:实现 Tokenizer 类,是基类。它包含了训练、编码和解码存根、保存 / 加载功能,还有一些常见的实用功能。不过,该类不应直接使用,而是要继承。minbpe/basic.py:实现 BasicTokenizer,这是直接在文本上运行的 BPE 算法的最简单实现。minbpe/regex.py:实现 RegexTokenizer,它通过正则表达式模式进一步拆分输入文本。作为一个预处理阶段,它在分词之前按类别(例如字母、数字、标点符号)拆分输入文本。这确保不会发生跨类别边界的合并。它是在 GPT-2 论文中引入的,并继续在 GPT-4 中使用。minbpe/gpt4.py:实现 GPT4Tokenizer。此类是 RegexTokenizer 的轻量级封装,它精确地复现了 tiktoken(OpenAI 开源分词神器)库中 GPT-4 的分词。封装处理有关恢复 tokenizer 中精确合并的一些细节,并处理一些 1 字节的 token 排列。需要注意,奇偶校验尚未完全完成,没有处理特殊的 token。

脚本 train.py 在输入文本 tests/taylorswift.txt 上训练两个主要的 tokenizer,并将词汇保存到磁盘以进行可视化。Karpathy 称,该脚本在他的 MacBook (M1) 上运行大约需要 25 秒。

Karpathy 还表示,所有文件都非常短且注释详尽,并包含使用示例。如下为 BPE 维基百科文章的复现例子。

from minbpe import BasicTokenizer

tokenizer = BasicTokenizer()text = "aaabdaaabac"

tokenizer.train(text, 256 + 3) # 256 are the byte tokens, then do 3 merges

print(tokenizer.encode(text))# [258, 100, 258, 97, 99]

print(tokenizer.decode([258, 100, 258, 97, 99]))# aaabdaaabac

tokenizer.save("toy")# writes two files: toy.model (for loading) and toy.vocab (for viewing)

此外还提供了如何实现 GPT4Tokenizer,以及它与 tiktoken 的比较。

text = "hello123!!!? (안녕하세요!) "

# tiktoken

import tiktoken

enc = tiktoken.get_encoding("cl100k_base")print(enc.encode(text))# [15339, 4513, 12340, 30, 320, 31495, 230, 75265, 243, 92245, 16715, 57037]

# ours

from minbpe import GPT4Tokenizer

tokenizer = GPT4Tokenizer()print(tokenizer.encode(text))# [15339, 4513, 12340, 30, 320, 31495, 230, 75265, 243, 92245, 16715, 57037]

当然,Karpathy 不满足只推出 GitHub 项目,他表示视频很快就会发布。



相关内容

热门资讯

综述丨国际金价突破5500美元... 新华社纽约1月28日电 综述|国际金价突破5500美元 再创历史新高 新华社记者徐静 受基本面因素支...
乳腺结节饮食避坑,这些食物少吃... 太原龙城中医医院科普:乳腺结节的形成与内分泌平衡密切相关,而饮食作为影响内分泌的重要因素,对结节的发...
聚焦AI应用,这只特色ETF火... 最近的市场,正在释放一种并不寻常的信号。 不是指数的全面突破,也不是权重板块的集体异动,而是一股来自...
网民票选AI王者,LMAren... 一场AI界的《创造101》火了!LMArena让你盲投选出最强AI,三年从校园项目逆袭,刚刚融1.5...
近40美妆企业IPO激战:上游... “美妆产业 全链逐鹿IPO” 2025年美妆行业资本化的浪潮未歇,2026年开年便呈现密集发力态势:...
OEXN:金银比与历史周期预警 来源:市场资讯 1月28日,在全球资产波动性加剧的背景下,OEXN观察到比特币与白银的价格比率正释放...
数据看盘五家机构集体抢筹泸州老... 沪深股通今日合计成交3972.24亿,其中紫金矿业和宁德时代分居沪股通和深股通个股成交额首位。板块主...
原创 通... 近些年,国内经济一直处于通缩的周期之内。数据显示:2025年居民消费价格涨跌幅为0。这意味着2025...
新春订货会“热”背后的仰韶战略... 2026年开年,白酒行业仍在存量博弈的深水区中艰难前行。渠道信心疲软、消费理性回归、名酒下沉加剧,区...
赛道精准卡位、业绩出色、产品线... 最近几天市场总体震荡上行,走势也比较复杂,多个题材热点交替表现。市场有机会,但也有不确定性,有色资源...
郎酒1月出货同比增长,全年销售... 1月28日,古蔺县召开2026年郎酒高质量发展交流会。会上,郎酒集团董事长汪俊林表示,2026年开局...
刚刚,大面积涨停!午后突然暴涨... 【导读】白酒板块午后集体上攻,贵州茅台涨近9% 中国基金报记者 晨曦 刚刚,白酒股集体暴涨! 1月2...
麦趣尔被申请破产清算 1月28日,麦趣尔发布公告称,公司于近期知悉债权人广州市铭慧机械股份有限公司(以下简称“铭慧机械”)...
金饰克价破1700元,一夜涨9... 黄金价格再度上涨。 1月29日早盘,国际金价现货黄金价格一度冲高至5579.67美元/盎司,再度创下...
起底水贝黄金平台“杰我睿”:资... “超580万元资金无法提现,另有7800克黄金无法提货!”消费者张小茹(化名)心急如焚。 近日,和张...
白酒涨停,科技熄火!帮主收评:... 各位朋友,收盘了。我是帮主郑重。 如果你只看上证指数那0.16%的微涨,可能觉得今天风平浪静。但打开...
互联网医院系统源码如何落地?智... 这两年,医疗数字化的推进速度远超很多人的预期。从线上问诊到互联网医院,从电子病历到智慧医院建设,政策...
多地公布数字人民币最新“成绩单... 2026年伊始,随着新一代数字人民币计量框架、管理体系等正式落地,我国数字人民币试点工作全面迈入2....
发展新能源就是拥抱未来 在世界经济论坛2026年年会上,绿色经济和新能源话题引发热议。其中,一份名为《绿色经济增长的首席执行...
被扣5分+罚40万!北京国安:... 北京时间1月29日,中国足协反赌扫黑专项整治行动新闻发布会,公布了最新的处罚结果。北京国安足球俱乐部...