【4月18日消息】据外媒报道,维基百科的运营机构——维基媒体基金会旗下的 Wikimedia Enterprise 于当地时间4月16日宣布,在 Kaggle 平台 上正式上线维基百科结构化内容快照数据集的测试版。此次发布的数据集提供 JSON 格式,并覆盖 英语与法语 两个版本。
为AI与机器学习量身定制的数据集
此次上线的数据集是专为 人工智能与机器学习任务 所设计,涵盖 模型训练、基准评估、指令对齐、微调以及探索性分析 等典型应用场景。相比以往必须从维基百科主站抓取并自行解析原始文本内容的方式,该结构化快照数据集极大地 降低了开发门槛,简化了数据预处理流程。
降低AI爬虫负担,保护维基百科站点稳定
维基媒体方面指出,该举措也有助于减少 AI 系统对维基百科主站进行大规模爬取的需求,有效减轻了服务器负担,有助于维持网站运营的稳定性与长期可持续性。
简而言之,AI开发者可以通过 Kaggle 平台直接获取整洁、结构清晰、可机读的数据,无需再开发额外的抓取脚本或处理繁杂的HTML结构,大大提升了效率,也符合开放数据与可持续开发的技术趋势。
目前该数据集仍处于测试阶段,未来或将扩展至更多语言版本和更细致的结构化内容。
此分类大部分文章图片来自互联网,内容修改自互联网,若有侵权请联系站长删除。
© 版权声明
1 修改版本安卓及电脑软件,加群提示为修改者自留,非本站信息,注意鉴别;
2 本网站部分资源来源于网络,仅供大家学习与参考,请于下载后24小时内删除;
3 若作商业用途,请联系原作者授权,若本站侵犯了您的权益请联系站长进行删除处理;
4 如果您喜欢该内容,请支持正版,购买注册,得到更好的正版服务。
THE END
暂无评论内容