如何对事件序列数据增强

这段代码通过事件序列的平移和叠加来实现数据增强，目的是提高模型对时间特征的建模能力，同时增加数据的鲁棒性。具体增强的过程和原理如下：

1. 数据增强的概念

在时间序列建模中，数据增强是一种增加训练数据多样性的方法。通过对事件序列进行平移、叠加、排序等操作，可以模拟更多的潜在时间序列分布，使模型对不同时间模式和扰动更鲁棒。

one_step_superpose 函数采用了一种特别的增强方式：事件序列平移叠加。

2. 代码是如何增强数据的

2.1 平移事件序列

shift = int(batch / 2)
shift_type = torch.cat((event_type[shift:, :], event_type[:shift, :]), dim=0)
shift_time = torch.cat((event_time[shift:, :], event_time[:shift, :]), dim=0)

操作：将事件序列（事件类型和事件时间）按照批次大小的一半进行平移。
- 前一半序列：event_type[shift:, :] 表示从 shift 到 batch 的部分。
- 后一半序列：event_type[:shift, :] 表示从 0 到 shift 的部分。
- 平移后的序列通过拼接组合：将后一半放到前一半之前，得到 shift_type 和 shift_time。
意义：这种平移操作打乱了原有序列的顺序，增加了数据的多样性。

2.2 原始序列与平移序列叠加

new_type = torch.cat((event_type, shift_type), dim=1)  # batch * (2seq_len)
new_time = torch.cat((event_time, shift_time), dim=1)  # batch * (2seq_len)

操作：将原始序列和经过平移的序列进行拼接（叠加），使每个序列的长度变为原来的两倍。
- 形状从 (batch_size, seq_len) 变为 (batch_size, 2 * seq_len)。
意义：通过叠加，增加了序列中事件的丰富性，使得模型能够看到更多的可能事件组合。

2.3 按时间排序

new_type, new_time = sorting(new_type, new_time)

操作：对叠加后的事件类型和事件时间进行排序，确保事件按照时间升序排列。
- 排序的目的是恢复时间序列的因果关系。
意义：在时间序列建模中，事件的顺序非常重要，因为后续事件的预测依赖于先前事件的时间和类型。

2.4 重新组织事件

new_type, new_time = reorganize(new_type, new_time)

操作：将零值事件（无意义的占位符）移动到序列的末尾。
- 零值事件通常是填充事件，在序列数据中没有实际意义。
- 通过重新组织，可以确保有效事件在序列的开头，便于模型处理。
意义：减少无效事件对模型训练的干扰，提高模型的学习效率。

3. 数据增强的效果

这种增强方法通过平移和叠加，引入了时序数据的扰动和结构多样性：

生成更多样的数据分布：通过叠加原始序列和平移序列，生成了更多的可能序列。
模拟潜在的时间依赖性：排序后生成的新序列仍保留了时间上的顺序性，使模型可以学习事件之间的潜在依赖。
提高模型的鲁棒性：模型在训练时接触到更多种类的序列（原始序列与平移版本的组合），对不同时间模式的适应性更强。
扩增数据集：相当于将原始数据翻倍，减少了模型对有限数据的过拟合风险。

4. 与论文中的增强策略的联系

这段代码与论文中提到的Hawkes过程的随机拼接和叠加直接对应：

随机平移：通过平移操作模拟不同的时间偏移。
叠加增强：通过原始序列和平移序列的叠加生成新的序列。
排序与组织：确保叠加后的序列仍然保留时间因果关系，且具有有效事件的优先性。

这种方法结合了时间序列的特性和事件的时序依赖，既可以提升数据多样性，又不会破坏序列的时间结构。

5. 总结

one_step_superpose 的增强方法通过平移、叠加和排序：

提高了数据的丰富性；
增强了模型对时间相关性的理解；
减少了对有限数据的依赖，增加了训练数据的多样性。

如果有其他数据增强需求，还可以基于这种方法进一步扩展，例如改变平移量或引入其他扰动！

如何对事件序列数据增强

1. 数据增强的概念

2. 代码是如何增强数据的

2.1 平移事件序列

2.2 原始序列与平移序列叠加

2.3 按时间排序

2.4 重新组织事件

3. 数据增强的效果

4. 与论文中的增强策略的联系

5. 总结

评论

发表回复取消回复

更多文章

行业-趋势研究报告

如何对事件序列数据增强

为什么要计算非事件的对数似然？

HCL-正负样本采样方法

如何对事件序列数据增强

1. 数据增强的概念

2. 代码是如何增强数据的

2.1 平移事件序列

2.2 原始序列与平移序列叠加

2.3 按时间排序

2.4 重新组织事件

3. 数据增强的效果

4. 与论文中的增强策略的联系

5. 总结

评论

发表回复 取消回复

更多文章

行业-趋势研究报告

如何对事件序列数据增强

为什么要计算非事件的对数似然？

HCL-正负样本采样方法

发表回复取消回复