主页 > 波宝钱包官网 > Tronlink波宝钱包app|Google出AI杀招！回馈强化学习（RLAIF）要逼死人工标记公司？ | 动区动趋-最具影响力的区块链新闻媒体

Tronlink波宝钱包app|Google出AI杀招！回馈强化学习（RLAIF）要逼死人工标记公司？ | 动区动趋-最具影响力的区块链新闻媒体

Tronlink波宝钱包a 波宝钱包官网 2023年09月19日

Google 最近提出了一种用大模型替代人类进行偏好标记的方法，称为 AI 回馈强化学习（RLAIF），这一技术将来真的会逼死那些靠人工「拉框」的资料标记公司吗？本文源自 SinoDAO 举大名耳所着文章，由 Foresight News 整理撰文。（前情提要：监狱囚犯变成AI训练员？芬兰被批剥削劳力）（背景补充：ChatGPT背后的非洲血汗工：判读「暗网残虐内容」、时薪不到 2 美元）

本文目录

资料标记现状
OpenAI 的方式
- 1、人工回馈与强化学习相结合
- 2、多样化、大规模的资料来源渠道
标準化 VS 小作坊

如果说，当下的生成式 AI，是一个正在茁壮成长的孩子，那么源源不断的资料，就是其餵养其生长的食物。

而资料标记，就是製作这一「食物」的过程。然而，这一过程真的很卷，很累人。

进行标记的「标记师」不仅需要反覆地识别出影象中的各种物体、颜色、形状等，有时候甚至需要对资料进行清洗和预处理。

随着 AI 技术的不断进步，人工资料标记的侷限性也日益显现。人工资料标记不仅耗时耗力，而且品质有时难以保障。

为了解决这些问题，Google 最近提出了一种用大模型替代人类进行偏好标记的方法，称为 AI 回馈强化学习（RLAIF）。

研究结果表明，RLAIF 可以在不依赖人类标记的情况下，产生与人类回馈强化学习（RLHF）相当的改进效果，两者的胜率都是 50%。同时，RLAIF 和 RLHF 都优于监督微调（SFT）的基线策略。

这些结果表明，RLAIF 不需要依赖于人工标记，是 RLHF 的可行替代方案。

那么，倘若这一技术将来真的推广、普及，众多还在靠人工「拉框」的资料标记企业，从此是否就真的要被逼上绝路了？

资料标记现状

如果要简单地总结目前中国标记行业的现状，那就是：劳动量大，但效率却不太高，属于费力不讨好的状态。

标记企业被称为 AI 领域的资料工厂，通常集中在东南亚、非洲或是中国的河南、山西、山东等人力资源丰富的地区。

为了控制成本，标记公司的老闆们会在县城里租一块场地，摆上电脑，有订单了就在附近招人兼职来做，没单子就解散休息。简单来说，这个工种有点类似马路边上的临时装修工。

在工位上，系统会随机给「标记师」一组资料，一般包含几个问题和几个回答。之后，「标记师」需要先标记出这个问题属于什么型别，随后给这些回答分别打分并排序。

此前，人们在谈论国产大模型与 GPT-4 等先进大模型的差距时，总结出了中国资料品质不高的原因。

但资料品质为何不高？一部分原因，就出在资料标记的「流水线」上。

目前，中文大模型的资料来源是两类，一类是开源的资料集；一类是通过爬虫爬来的中文网际网路资料。

中文大模型表现不够好的主要原因之一就是网际网路资料品质，比如，专业人士在查询资料的时候一般不会用百度。

因此，在面对一些较为专业、垂直的资料问题，例如医疗、金融等，就要与专业团队合作。

可这时，问题又来了：对于专业团队来说，在资料方面不仅回报週期长，而且先行者很有可能会吃亏。

例如，某家标记团队花了很多钱和时间，做了很多资料，别人可能花很少的钱就可以直接打包买走。

面对这样的「搭便车困境」，中国大模型纷纷陷入了资料虽多，但品质却不高的诡异困境。

既然如此，那目前国外一些较为领先的 AI 企业，如 OpenAI，他们是怎么解决这一问题的？

其实，在资料标记方面，OpenAI 也没有放弃使用廉价的密集劳动来降低成本。

例如，此前就曝出其曾以 2 美元 / 小时的价格，僱佣了大量肯亚劳工进行有毒资讯的标记工作。

但关键的区别，就在于如何解决资料品质和标记效率的问题。

具体来说，OpenAI 在这方面，与中国企业最大的不同，就在于如何降低人工标记的「主观性」、「不稳定性」的影响。

标签：人工智慧 Google ai 資料標記 RLAIF

上一篇：波宝pro钱包app官网下载|赚很大？马斯克拟向所有X(推特)用户收费：打击机器人大军和垃圾邮件 | 动区动趋-最具影响力的区块链新闻媒体

下一篇：波宝钱包ios|想出金就打？JPEX用户「遭黑衣人围殴」：1月起无法提款、叫我去香港面交 | 动区动趋-最具影响力的区块链新闻媒体

主页 > 波宝钱包官网 > Tronlink波宝钱包app|Google出AI杀招！回馈强化学习（RLAIF）要逼死人工标记公司？ | 动区动趋-最具影响力的区块链新闻媒体

Tronlink波宝钱包app|Google出AI杀招！回馈强化学习（RLAIF）要逼死人工标记公司？ | 动区动趋-最具影响力的区块链新闻媒体

资料标记现状

相关文章