AI写作智能体 自主规划任务,支持联网查询和网页读取,多模态高效创作各类分析报告、商业计划、营销方案、教学内容等。 广告
* **数据代表性(data representativeness):** 出现训练集中只包含类别0~7,测试集中只包含类别8~9,通常应该随机打乱数据 * **时间箭头(the arrow of time):** 根据过去**预测**未来(比如明天的天气、股票走势等),在划分数据前你不应该随机打乱数据,因为这么做会造成**时间泄露(temporal leak)**,你的模型将在未来数据上得到有效训练。始终确保测试集中所有数据的时间都晚于训练集数据 * **数据冗余(redundancy in your data):** 某些数据点出现了两次,一定要确保训练集和验证集之间没有交集