视频专区
你的位置:视频专区 > 来综合吧 > 【DOM-024】やりたい放題 10 腾讯把12亿用户, 都造成了免费的"标注民工"。
【DOM-024】やりたい放題 10 腾讯把12亿用户, 都造成了免费的"标注民工"。
发布日期:2024-08-15 07:42    点击次数:64

【DOM-024】やりたい放題 10 腾讯把12亿用户, 都造成了免费的"标注民工"。

转自:中环狙击手【DOM-024】やりたい放題 10

你有莫得思过,当你在网上进行浅近的考证码操作时,其实你仍是不测间成为了别称“标注民工”?

昨天晚上,我在登录QQ邮箱和LOL官网的本领。

发现腾讯的考证码变了。

不再是之前的考证码了,而是造成了一段Prompt加六张AI生成的图。

右下角赫然写着:

图片由混元AI生成。

腾讯,终于把用考证码作念标注的手,伸向了他那12亿的用户。

拿考证码当标注系统,让用户免费标注,其委果邃古期间,就仍是不是什么崭新事了,然则用生成式AI来跟考证码作念商酌,这确乎如故我,所看的头一趟。

先说说考证码这个东西。

这玩意从最初始发明起,其实惟有一个宗旨,等于为了永别机器和东说念主。

简称“CAPTCHA”,全称就贼长了,“CompletelyAutomatedPublicTuringTesttoTellComputersandHumansApart”

翻译过来是,“全自动永别运筹帷幄机和东说念主类的图灵测试”。

你望望,图灵测试。

刚初始,有个斯坦福公益考证码系统,reCAPTCHA。

它最成名的神态,等于用考证码来数字化海量的册本和旧报纸。那本领的Ocr真的不咋地,而况好多年前的书和报纸那糊的真的差强东说念主意。

其时,reCAPTCHA系统会向用户在考证码上,展示两组污蔑的单词,其中前边的一组是运筹帷幄机仍是识别的,另一个是运筹帷幄机难以识别的。

快播伦理电影在线观看

淌若用户正确输入前半部分,那么reCAPTCHA就会假定用户输入的后半部分亦然正确的,然后把录入成果复返至reCAPTCHA的神态主机。

成果复返主机后,主机还会把这个成果再派发给多个用户进行交叉考证,以确保莫得不严防或专诚输错单词的情况。

他们用这个系统,在十几年里,数字化了几千万的册本和报纸。

原本一切都挺好意思好的,然后,Google下场了,他们把reCAPTCHA给收了。

没过多久,就让用户初始识别,google街景中,那些难以识别的门招牌了。。。

这其实,等于后堂堂的让你当标注民工,无偿来给google标注训模子了。

google那本领几亿用户,每天考证码会被调用上千万次。

这或者就好像,让几百万个东说念主每东说念主为给你干5秒钟活儿,然后一分钱都不给同样,你说这是不是仍是,把白嫖玩到极致了。

直到背面,离谱的东西越来越多,你要标注的东西,也越来越多。

比如这些奇奇怪怪非东说念主视角让你选一个bus的相片。

天然最离谱最佳玩的,得数15年的12306,其时开剧本抢票的太多,12306的流量压力委果太大,被逼的开启了神迹级的考证码,传说东说念主类初度正确率仅为8%,得错3次以上的东说念主占比有65%。

这种逆天考证码的题目是这样的。

刘慈欣我不敢打保票,然则范伟我是全认出来了。。

时辰走走停停,一眨眼,来到了2024年。

为了我方家的混元大模子,腾讯也把手,伸向了考证码。

让咱们初始,来作念AI绘制大模子的标注了。

这部分的标注,其实不是啥图片好意思学质料的标注,而是关于图片意会和映射的标注。

粗拙地讲,等于语义意会。

当今作念的,如故最基础最浅近的分类,咱们标起来,如故挺松驰的。毕竟里面都知说念,左上角是鸭子,中间是老虎,左下角是蜜蜂,右下角是赛车。

而那两张白杨树林,其实,你选淘气一个,欧美性爱小说或者选两个,都能过。

比如我这个图:一簇在吊挂花盆在孕育的多肉。

其实你会看到有两张都跟多肉关联,而凭据定语,一簇,更适合左上角第一张图,右上角阿谁其实不是一簇是一堆,然则我选了他,依然能过。

而你思把两个都选,你也都能过。

是以这个标注之心啊,少许都不藏着掖着。

然则确乎这个作念法很有效,比如如故这句Prompt,信得过中枢难点是一簇。

用这种样貌,对举座的语义意会,确乎有相配大的匡助。

而况当今赫然如故初期,给的prompt和图,都相配的浅近,标注的难度也不高,致使一些大厂的标注模子告成机标可能都应答的过来。

然则淌若下一次,是“一只在清朝宫殿里孕育的杜鹃花”呢?

一只、清朝宫殿、杜鹃花。难度告成拉满。

致使另外几个选项给你的也不是各异这样大的动物汽车啥的,给你的都是菊花、杜鹃花、喇叭花、玫瑰花,来吧你就选吧,加油啊标注民工。

要知说念,标注真的很贵的,之前跟国内一家作念AI绘制大模子的公司聊过,才知说念他们标注分为机标和东说念主标,而东说念主地点本钱,或者是数据量的十分之一。

也等于你拿出去3000万的数据,东说念主工标一次,就得300万RMB干出去。

而腾讯12亿用户,每天考证码起码亦然千万的量级,这标注用度,你不错算算这省了些许钱吧。

是以说,大厂在如今还在大数据的期间,上风是真的大。。。

不外这种标注,现时来看如故只可处分语义意会的标注,然则能把这个处分也仍是很给力了,天然好意思学一般,然则语义意会能达到极强,这等于妥妥的国内版Dalle3。

而Dalle3的短板群众细目也明晰,委果太丑了。

而要标好意思学清晰,难度其实就大好多,真的得找懂运筹帷幄、懂好意思学的东说念主来标注。

Midjourney以前其实等于吃了这波红利。

第一波得到用户,而况得到的如故一大波的有好意思学布景的专科用户,然后每次你生图的本领给你生成4张图拼一块的一张整图,你还必须选一张你以为最佳的进行索要或优化。

这等于一种强行的数据标注。

是以Midjourney在如今的好意思学清晰上一骑绝尘,是因为他们在好意思学的标注上,作念的太好了,而别的家思在这块赶上,基本不可能,因为最高质料的那波用户,基本仍是全在Midjourney那了。

而腾讯改日思作念这件事,其委果我看来,还确凿有可能的。

因为你其实看Midjourney的旅途,中枢点就一个:海量的专科用户。

腾讯缺专科用户吗,若何可能会缺,12亿用户合手在手上,用户画像作念的那么皆全,我思把有运筹帷幄师布景的用户挑出来,难吗?少许都不难。

我思给挑出来的这些运筹帷幄师布景的用户推送好意思学标注的考证码,难吗?也不难。

是以啊,当今在我看来,腾讯的考证码标注,才刚刚上前迈了半步,背面的模子空间,还很大。

独一问题等于,腾讯里面有点闭塞,用户画像数据PCG作念QQ的何处细目有,然则混元跟PCG不是一个业绩群,也不知说念能不可拿得到。。。

能拿到的话,那等于王炸。

然则无论若何。

你我都仍是,身在其中了。

10年前【DOM-024】やりたい放題 10,就仍是是了。



上一篇:【DOM-024】やりたい放題 10 讲求:安徽26岁女古道被双胞胎学生杀害,生前伏乞:我错了,放过我吧
下一篇:【AUKG-037】ニューハーフベスト 4時間 2024年7月份范畴以上工业增多值增长5.1%
友情链接:

Powered by 视频专区 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2022 版权所有