加入收藏 | 设为首页 | 会员中心 | 我要投稿 南京站长网 (https://www.025zz.com.cn/)- 自然语言处理、建站、经验、云计算、图像分析!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

OpenAI推出数据伙伴关系降低训练数据偏向西方国家的缺陷

发布时间:2023-11-11 11:00:39 所属栏目:外闻 来源:未知
导读:   根据其在官方网站上发布的公告,该公司计划利用其他机构的资源以拓展其已有的缺失数据集。OpenAI宣布了“数据伙伴关系”(Data Partnerships)计划,旨在与第三方机构合作,
  根据其在官方网站上发布的公告,该公司计划利用其他机构的资源以拓展其已有的缺失数据集。OpenAI宣布了“数据伙伴关系”(Data Partnerships)计划,旨在与第三方机构合作,建立用于人工智能模型训练的公共和私有数据集。该公司在官网中表示,数据合作伙伴关系旨在“让更多组织能够帮助引导人工智能的未来”,并“从更有用的模型中获益”。
 
  “为了最终使(人工智能)安全且有益于全人类,我们希望人工智能模型能够深入理解所有主题、行业、文化和语言,这就需要尽可能广泛的训练数据集。”OpenAI写道,“将你的数据纳入其中可以增加人工智能模型对你所在领域的理解,从而对你更有帮助。”
 
  作为数据合作伙伴计划的一部分,OpenAI将收集“反映全人类社会”且目前不易在线访问的“大规模”数据集。该公司计划在包括图像、音频和视频在内的各种模式下开展工作,不过其特别希望收集能“表达人类意图”的数据(如长篇写作或对话),这些数据将跨越不同的语言、主题和格式。
 
  OpenAI表示,如有必要,它将与组织合作,使用光学字符识别和自动语音识别工具对训练数据进行数字化处理,并在必要时删除敏感或个人信息。
 
  在内测的一开始,可信的OpenAI数据库希望创建具有两种截然不同的类型的数据集:不同之处在于一种是公开的开源数据集,任何人都可以在人工智能模型训练中使用;另一种是私有数据集,用于训练专有的人工智能模型。私有数据集的对象是那些希望数据保密,但又希望OpenAI的模型能够更好地理解其领域的组织。
 
  到目前为止,OpenAI已经与冰岛政府和语言技术公司Mieeind ehf合作,提高了GPT-4的冰岛语能力,并与自由法律项目(一个在美国注册的非营利组织,为法律领域的学术研究提供访问和分析工具)合作,提高了模型对法律文件的理解能力。
 
  “总之,我们正在寻求合作伙伴,帮助我们教会人工智能理解我们的世界,以便最大限度地帮助每个人。”OpenAI写道。
 
  尽管OpenAI这篇博文看起来全然出于对人类利益的考虑,但其中似乎也有明显的商业动机,即以牺牲他人利益为代价来提高OpenAI模型的性能,却不给数据所有者相应的补偿。实际上,近期已经有一些创作者的公开信和诉讼,称OpenAI在未经他们许可或支付报酬的情况下,用其作品训练了许多模型。7月,16人匿名起诉OpenAI及微软公司,认为他们在未经允许的情况下使用并泄露了个人隐私数据,索赔金额高达30亿美元。紧接着,两位全职作者提出,OpenAI未经允许使用了他们的小说训练ChatGPT,构成侵权。“这些文章是我们最好的作品,我们希望它们能被公开出版。”一位匿名作者说。“但是,openai并没有遵守这些规则。”

(编辑:南京站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章