分类：未分类

行业-趋势研究报告
问题1：什么数据可以体现行业趋势？

·  需要确定行业目前及未来的发展趋势（如新兴技术、市场需求变化、岗位技能要求等）。

·  研究主要企业的招聘要求、岗位职责、薪资水平等，以量化行业的需求。

·  参考行业报告、政府政策、专业协会指南，确保需求的权威性和前瞻性。

可能需要的数据：

微观数据：
1. 企业概要-标签信息
  - 提供企业规模、类型、行业领域等标签，有助于了解企业需求和行业分布。
2. 企业概要-圈子/技术领域/产品与服务/拓展度
  - 揭示企业在特定技术领域和产品服务的布局，反映行业技术发展趋势。
3. 企业概要-产业布局
  - 显示企业在产业链中的位置和贡献，有助于分析产业内部结构和发展趋势。
4. 企业专利信息
  - 专利数据反映企业的创新活动，是衡量行业创新趋势的重要指标。
5. 产业链基本信息
  - 提供产业链的整体视图，有助于理解产业链的结构和发展状况。
6. 产业节点信息
  - 细化产业链的各个节点，有助于分析产业链的细分领域和关键环节。
7. 地区信息
  - 地区相关的经济和社会数据可以反映区域经济发展和行业分布。
8. 职位信息
  - 职位描述和要求直接反映劳动力市场的需求，是评估专业课程体系匹配度的关键数据。尤其是职位发布的时间，可以通过评价在一段时间内职位发布的数量来量化需求和趋势
9. 产业活跃度分析
  - 通过统计产业的活跃度，可以评估行业的当前发展状况和未来趋势。
10. 产业规模分析
  - 产业规模的变化可以反映行业的增长或衰退趋势。
11. 产业创新力分析
  - 创新力是推动行业发展的关键因素，创新力分析有助于预测行业发展趋势。
12. 产业链投资统计表
  - 投资活动反映资本对行业的关注和信心，是评估行业发展潜力的重要指标。
13. 产业链吸引投资统计表
  - 吸引投资的能力可以反映行业的吸引力和发展前景。
14. 产业链创投资统计表
  - 创业投资活动显示行业的创新和创业活力，是评估行业创新趋势的重要数据。
宏观数据：

行业报告提供行业的历史发展情况和未来趋势，是了解行业发展趋势的重要资料。

社交媒体和新闻报道

反映公众对行业的看法和行业的社会关注度，可以作为行业趋势的参考。

政策信息数据（政策、法规、司法）

政策和法规的变化直接影响行业的发展，是评估行业趋势的重要因素。

产业/行业报告

问题2：岗位如何匹配行业趋势？专业课程体系的匹配度评估？如何建立可量化的评估标准？

·  需要分析当前专业培养方案（课程设置、学时安排、实践环节等）是否涵盖了行业需求的核心技能。

·  评估知识结构是否匹配行业发展趋势（如AI、大数据、绿色能源等前沿技术的加入）。

·  检查实践教学（实习、项目制学习、企业合作等）是否能够有效连接学校与企业。

·  采用哪些指标来衡量匹配度？如就业率、毕业生起薪、用人单位反馈、课程与岗位技能的对应关系等。

·  是否可以建立数据驱动的方法，如文本分析（对比课程大纲和岗位描述）、毕业生跟踪调查等？

需要的数据：
1. 院校信息：提供院校的基本信息，有助于了解不同院校的专业设置和课程体系。
2. 学院基本信息：包括资质、专业、校企合作班、实习培训基地、共建双学位班等信息，有助于评估实践教学环节与行业需求的匹配度。
3. 学科专业信息：涵盖学科专业的编码、名称、级别等，有助于分析某一项专业核心课程（不同专业在同一类别下，都开设相关专业课）是否匹配行业
4. 学校招生信息：包括招生简章、培养方案、教学大纲等，有助于评估当前专业培养方案是否匹配行业发展趋势。
5. 教师基本信息：包括教师的擅长领域、履历、获奖专利、文章等，有助于了解教师团队是否具备行业前沿技术的教学能力。
6. 简历数据-基本信息、教育背景、求职期望：包括学生的基本信息、教育背景、实习经历、项目经验、技能专长、求职期望等，有助于评估知识结构是否匹配行业发展趋势。有助于评估学校是否应该加强某些课程的培训（例如学生专业实际上有开设，但简历上没有体现）
7. 学籍数据：包括学生的学籍信息，有助于进行毕业生跟踪调查，收集毕业生就业数据。
8. 企业信息：提供企业的基本信息，有助于了解行业需求和岗位技能要求。
9. 企业概要-标签信息：包括企业规模、企业类型、行业领域标签等，有助于分析行业发展趋势。
10. 企业概要-圈子/技术领域/产品与服务/拓展度：包括技术领域标签、产品与服务标签等，有助于评估专业课程体系是否包含了行业前沿技术。
11. 职位信息：包括职位名称、职位性质、需求专业、招聘人数、职位类别代码、最低月薪、最高月薪、职位详情等，有助于分析课程与岗位技能的对应关系。
12. 产业活跃度分析、产业规模分析、产业创新力分析：提供产业的活跃度、规模、创新力等指标，有助于评估行业发展趋势。
补充项：学生就业数据 -可用于间接评判行业趋势
2025年3月6日
如何对事件序列数据增强
这段代码通过事件序列的平移和叠加来实现数据增强，目的是提高模型对时间特征的建模能力，同时增加数据的鲁棒性。具体增强的过程和原理如下：

1. 数据增强的概念

在时间序列建模中，数据增强是一种增加训练数据多样性的方法。通过对事件序列进行平移、叠加、排序等操作，可以模拟更多的潜在时间序列分布，使模型对不同时间模式和扰动更鲁棒。

one_step_superpose 函数采用了一种特别的增强方式：事件序列平移叠加。

2. 代码是如何增强数据的

2.1 平移事件序列
```
shift = int(batch / 2)
shift_type = torch.cat((event_type[shift:, :], event_type[:shift, :]), dim=0)
shift_time = torch.cat((event_time[shift:, :], event_time[:shift, :]), dim=0)
```
- 操作：将事件序列（事件类型和事件时间）按照批次大小的一半进行平移。
  - 前一半序列：event_type[shift:, :] 表示从 shift 到 batch 的部分。
  - 后一半序列：event_type[:shift, :] 表示从 0 到 shift 的部分。
  - 平移后的序列通过拼接组合：将后一半放到前一半之前，得到 shift_type 和 shift_time。
- 意义：这种平移操作打乱了原有序列的顺序，增加了数据的多样性。
2.2 原始序列与平移序列叠加
```
new_type = torch.cat((event_type, shift_type), dim=1)  # batch * (2seq_len)
new_time = torch.cat((event_time, shift_time), dim=1)  # batch * (2seq_len)
```
- 操作：将原始序列和经过平移的序列进行拼接（叠加），使每个序列的长度变为原来的两倍。
  - 形状从 (batch_size, seq_len) 变为 (batch_size, 2 * seq_len)。
- 意义：通过叠加，增加了序列中事件的丰富性，使得模型能够看到更多的可能事件组合。
2.3 按时间排序
```
new_type, new_time = sorting(new_type, new_time)
```
- 操作：对叠加后的事件类型和事件时间进行排序，确保事件按照时间升序排列。
  - 排序的目的是恢复时间序列的因果关系。
- 意义：在时间序列建模中，事件的顺序非常重要，因为后续事件的预测依赖于先前事件的时间和类型。
2.4 重新组织事件
```
new_type, new_time = reorganize(new_type, new_time)
```
- 操作：将零值事件（无意义的占位符）移动到序列的末尾。
  - 零值事件通常是填充事件，在序列数据中没有实际意义。
  - 通过重新组织，可以确保有效事件在序列的开头，便于模型处理。
- 意义：减少无效事件对模型训练的干扰，提高模型的学习效率。
3. 数据增强的效果

这种增强方法通过平移和叠加，引入了时序数据的扰动和结构多样性：
1. 生成更多样的数据分布：通过叠加原始序列和平移序列，生成了更多的可能序列。
2. 模拟潜在的时间依赖性：排序后生成的新序列仍保留了时间上的顺序性，使模型可以学习事件之间的潜在依赖。
3. 提高模型的鲁棒性：模型在训练时接触到更多种类的序列（原始序列与平移版本的组合），对不同时间模式的适应性更强。
4. 扩增数据集：相当于将原始数据翻倍，减少了模型对有限数据的过拟合风险。
4. 与论文中的增强策略的联系

这段代码与论文中提到的Hawkes过程的随机拼接和叠加直接对应：
1. 随机平移：通过平移操作模拟不同的时间偏移。
2. 叠加增强：通过原始序列和平移序列的叠加生成新的序列。
3. 排序与组织：确保叠加后的序列仍然保留时间因果关系，且具有有效事件的优先性。
这种方法结合了时间序列的特性和事件的时序依赖，既可以提升数据多样性，又不会破坏序列的时间结构。

5. 总结

one_step_superpose 的增强方法通过平移、叠加和排序：
- 提高了数据的丰富性；
- 增强了模型对时间相关性的理解；
- 减少了对有限数据的依赖，增加了训练数据的多样性。
如果有其他数据增强需求，还可以基于这种方法进一步扩展，例如改变平移量或引入其他扰动！
2025年1月8日
为什么要计算非事件的对数似然？
背景：事件和非事件的建模
- 事件发生：模型预测某些时刻会发生特定类型的事件。
  - 事件的对数似然（event_ll）用于评估模型在正确预测事件上的性能。
- 非事件建模：在没有事件发生的时间区间（非事件区间）中，模型需要正确预测“没有事件发生”的可能性。
  - 非事件对数似然（non_event_ll）用于评估模型对空窗期的预测能力。
在 Hawkes 过程和类似的时间序列建模中，事件发生概率和非事件发生概率需要同时被建模，才能全面描述时间序列。

为什么要计算非事件的对数似然？

2.1 补全概率分布
- 在时间序列建模中，事件发生的概率和非事件发生的概率需要共同描述整个时间过程。
- 如果只考虑事件的对数似然，模型可能会忽视事件之间的空窗期（即非事件的部分），导致预测偏差。
- 非事件的对数似然弥补了这一空白，确保模型能够平衡事件和非事件的预测。
2.2 避免过拟合事件
- 如果只优化事件对数似然，模型可能会倾向于过拟合现有事件，而忽视没有事件的时间段（空窗期）。
- 计算非事件的对数似然，模型需要在空窗期内预测“事件不应该发生”，从而提高模型对真实数据的拟合能力。
2.3 强化时间动态的学习
- 非事件的对数似然依赖于事件发生率（intensity function），即 type_lambda。
  - 高强度：非事件的对数似然会较低（模型认为事件更有可能发生）。
  - 低强度：非事件的对数似然会较高（模型认为事件不太可能发生）。
- 通过优化非事件的对数似然，模型能够更准确地学习时间动态变化，区分事件和非事件的边界。
2.4 对比学习的核心
- 在对比学习中，正样本（事件）和负样本（非事件）需要一起优化。
  - 优化事件对数似然：让模型在事件时刻更自信。
  - 优化非事件对数似然：让模型在非事件时刻更谨慎。
- 非事件对数似然帮助模型更好地区分正负样本。
总结

计算非事件的对数似然有以下意义：
1. 补充事件的对数似然：完整描述时间序列的概率分布。
2. 提升模型鲁棒性：避免模型过拟合事件，增强对非事件区间的预测能力。
3. 强化时间动态的学习：通过优化非事件对数似然，模型能更准确地学习强度函数的变化趋势。
4. 优化生成模型：在对比学习中，正负样本需要共同训练，非事件对数似然优化负样本的学习。
2025年1月8日
HCL-正负样本采样方法

正样本：根据重要性移除事件：

优先移除重要性较低的事件（即不重要的事件）。

使用 significance 参数来决定哪些事件更重要。

在序列中随机选取一部分事件，按比例 ratio_remove 删除？

负样本：显著改变序列，使其与原始序列的特征差异明显。

比如说就和正样本反着来，优先移除正样本不移除的事件？

2025年1月8日
HCL-TPP 训练结果
(1) loglikelihood (对数似然)
- 表示对模型预测的评估，衡量模型输出的概率分布是否与目标标签匹配。
- 数值越大，说明模型预测的概率分布越接近目标分布。
(2) accuracy (准确率)
- accuracy 是分类任务中的一个指标，表示模型预测正确的样本占总样本的比例。
(3) RMSE (均方根误差, Root Mean Squared Error)

数值越小越好，表示模型预测更接近真实值。

(4) elapse (耗时)

阶段的区分
- Training (训练)：
  - 记录模型在训练集上的表现指标，显示模型的学习进度。
- Validating (验证)：
  - 验证集用于模型评估，以检查模型是否过拟合或欠拟合。
- Testing (测试)：
  - 测试集是独立于训练集和验证集的，用来评估模型的最终性能。
上图为MLE+Reg的训练结果

上图为MLE+DA的训练结果,验证集和测试集对数似然为负数，均方误差也比训练集上要差，疑似有一点过拟合。训练集上来看的话表现是比上一种方法要好的

上图为Dis的训练结果，对数似然都是负数，均方误差表现也一般般

上图为HCL+MLE的训练结果，训练集上的均方误差有点高，但到了验证集和测试集就不算高，表现反而变好了

上图为HCLeve+MLE的训练结果，和上面一样，在训练集上表现弱于验证集和测试集

上图为HCLseq+MLE的训练结果和上面一样，在训练集上表现弱于验证集和测试集
2025年1月8日
怎么这么卡怎么这么卡

网络为什么这么卡

2025年1月7日
世界，您好！

欢迎使用 WordPress。这是您的第一篇文章。编辑或删除它，然后开始写作吧！

2025年1月7日

分类： 未分类

宏观数据：

1. 数据增强的概念

2. 代码是如何增强数据的

2.1 平移事件序列

2.2 原始序列与平移序列叠加

2.3 按时间排序

2.4 重新组织事件

3. 数据增强的效果

4. 与论文中的增强策略的联系

5. 总结

背景：事件和非事件的建模

为什么要计算非事件的对数似然？

2.1 补全概率分布

2.2 避免过拟合事件

2.3 强化时间动态的学习

2.4 对比学习的核心

总结

(1) loglikelihood (对数似然)

(2) accuracy (准确率)

(3) RMSE (均方根误差, Root Mean Squared Error)

阶段的区分

分类：未分类