ChatGPT如何回复犯罪、色情问题?OpenAI首次披露 chatgpt杩濊璇嶆眹鎬庝箞瑙i櫎 chatgpt寮曞彂涔辫薄
admin
2024-05-09 20:12:44
0


作 者丨肖潇

编 辑丨王俊

如果向ChatGPT询问一首版权歌曲的歌词,大概率它会回复“我无法帮到你”,或者提示“回复可能违反我们的政策”。

这并非大模型的天然反应,而是人工安置的护栏,如何设置护栏是所有大模型开发商正在探索的课题。当地时间周三,OpenAI发布了名为Model Spec的规范初稿,首次披露他们如何决定ChatGPT的响应方式。

该初稿设置了三个原则性目标(objectives):协助开发人员和终端用户、造福人类、遵守社会规范和法律。除了目标,OpenAI表示更行之有效的方法是设置规则(rules)和默认行为 (defaults)。

规则(rules)指向一系列硬性规定,包括不提供危险信息、版权作品、隐私、不安全信息等。一个例子是如果用户要求绕过付费墙、查看一篇付费新闻,OpenAI认为大模型的理想回复应当是:抱歉,我无法绕过付费墙。您是否正在寻找关于xxx话题的信息?

不过,从用户的角度来看,被大模型拒绝回答必然有损体验感。OpenAI发现,如果大模型告诉用户这是规则禁止输出的内容,用户可能会感觉被指责,因此大模型最好不要直接拒绝。比如,当用户想要合法的内幕交易时,AI直接回复:“我无法提供有关内幕交易的任何信息,内幕交易是非法和不道德的”可能会让人不快。更理想的方式是笼统解释什么叫合法的内幕交易,而不提供任何具体信息。规范初稿的其他示例中,AI都采用了类似的方式,要么转换用户的恶意提问,要么不做正面回答。

除此之外,公司还建议的默认行为 (defaults) 有避免说教、承认大模型自己的不确定性、帮用户理清问题、不越界提供建议、阻止仇恨回答、提供客观观点。


Model Spec建议的拒绝方式(图源:OpenAI)

有趣的是,这份规范初稿能够看出OpenAI如何为不同事件设定优先级。OpenAI明确指出,开发者的意图是最高法则,如果用户和开发者提供相互冲突的指令,大模型应该优先听从开发者。

确定规范显然并不容易。一个仍然棘手的问题是隐私,OpenAI举的例子是大模型可以提供官员的办公室号码,但应该拒绝提供个人电话。即使一些个人信息可以在网上找到,它们仍然可能是敏感隐私信息——是不是隐私信息还取决于上下文语境。

OpenAI近期已经在奥地利收到了一起隐私投诉,投诉指控ChatGPT会捏造错误的出生日期,出生日期属于欧盟《通用数据保护条例》(GDPR)保护的个人信息。

在接受外媒采访时,OpenAI的产品经理Joanne Jang解释,发布规范初稿是为了获得公众意见。“我们希望可以提供更细致的公开讨论,大模型要不要遵守规范?应该遵守哪些规范?这会让我们政策团队的工作进行得更顺利。”

Joanne Jang用“模型行为”一词形容他们的工作,模型行为指的是大模型如何回复用户的输入,包括回复的语气、内容、长度等。他认为这是一门新生的科学,而Model Spec可以作为一个动态更新的文档,收集各个利益相关方的反馈。

Model Spec目前还在意见征求阶段,不会影响OpenAI已经发布的模型。除了发布规范指南外,本周OpenAI还推出了新的检测工具,可以识别图片是不是由DALL-E 3合成的AI图像,同样旨在保证使用规范。

SFC

本期编辑 黎雨桐 实习生 黄丽鸿

21君荐读

相关内容

热门资讯

怎么回收金项链 南昌本地黄金回... 近年来,随着黄金价格波动,不少持有闲置黄金制品的用户会产生变现需求,其中回收金项链是较为常见的用户需...
两仓同开叮咚买菜进驻淮安 升级... 7月5日,主打“在线菜篮子”的生鲜电商叮咚买菜淮安楚州站、府苑站双站同步开仓运营,标志着叮咚买菜正式...
防范美股泡沫爆破带来的风险外溢 我们先来梳理全球市场,判断哪些市场走势具备前瞻参考价值。 第一是恒生指数,第二是恒生科技指数,这两大...
央视曝光黄金回收“作弊秤”!一... 有消费者投诉在黄金回收交易中遭遇了“违规秤”,造成了不小的经济损失。记者了解到,眼下市场上售价利润最...
单仁:字节全员信背后,AI正在... 01 最近这几天,字节跳动CEO梁汝波的全员信,引起了很多企业家的关注。 表面上看,这只是一个大厂时...
2026麻涌镇企业短视频制作:... 麻涌镇企业短视频制作是以本地制造业与服务业诉求的内容生产与平台运营服务,2026年,这一行业的竞争核...
4nm近售罄、部分8nm接近满... 《科创板日报》7月4日讯据朝鲜日报报道,业内人士称,随着AI半导体需求升温、全球大型科技公司订单增加...
新思考电机冲刺港股:4个月营收... 雷递网 雷建平 7月5日 新思考电机日前更新招股书,准备在港交所上市。 新思考电机最近一次融资是2...
端午只吃粽子就够了吗?上海歧黄... 端午一到,粽叶香、艾草香、咸鸭蛋和家常菜的味道,就把节日气氛拉满了。很多人一提到端午饮食,第一反应就...
整顿AAA评级 记者 蔡越坤 2026年6月以来,在国内某头部评级机构工作的周宇感到压力骤增。 随着6月30日、7月...
原创 必... 很多人一看到“必胜客被卖了”,第一反应就是:这牌子是不是不行了? 可现实偏偏很拧巴。 一边是美国那边...
原创 美... 无视美国制裁,采购伊朗石油,这样的“硬骨头”,放眼世界也只有一个。 为了继续施压伊朗,美国可以说是什...
布米普特拉北京投资基金管理有限... 美国私营部门就业市场在六月份释放出温和降温的信号。根据薪资服务商ADP最新发布的报告,当月企业新增就...
原创 女... 去年底一次聚餐,桌上放着几支口红、一瓶香水,还有一个印着大牌标识的小盒子。有人随手拿起来说,这是代购...
原创 蚂... “灵活用工第一股”来了! 作者|刘俊群 编辑|刘钦文 你在奶茶店、餐厅、商超、酒店里遇到的兼职店员,...
原创 还... 中国与美国这两个大国的任何一个细微动作,似乎都会牵动全球金融市场的神经,引发一连串连锁反应。本就还剩...
从“固定区间”到“动态指数”,... 银行理财产品业绩基准展示方式正迎来新变化。7月5日,北京商报记者梳理发现,包括中邮理财、民生理财、华...
兰格钢铁杭州建材周报(七月第一... 来源:兰格钢铁网 兰格钢铁杭州建材周报(七月第一周) 本周(6.29-7.3)杭州建筑钢材市场现货...
全球存储巨头,拟涨价20% 来源:上海证券报 7月3日,据韩媒ZDNET Korea报道,三星电子正在与客户展开第三季度通用DR...
近视、远视、斜视、弱视,同样是... 听说孩子看不清黑板,很多家长第一反应就是“近视了”,于是直接带去眼镜店配副眼镜应付。但很多朋友不知道...