分类: 未分类

  • 行业-趋势研究报告


    问题1:什么数据可以体现行业趋势?

    ·  需要确定行业目前及未来的发展趋势(如新兴技术、市场需求变化、岗位技能要求等)。

    ·  研究主要企业的招聘要求、岗位职责、薪资水平等,以量化行业的需求。

    ·  参考行业报告、政府政策、专业协会指南,确保需求的权威性和前瞻性。

    可能需要的数据:

    微观数据:

    1. 企业概要-标签信息
      • 提供企业规模、类型、行业领域等标签,有助于了解企业需求和行业分布。
    2. 企业概要-圈子/技术领域/产品与服务/拓展度
      • 揭示企业在特定技术领域和产品服务的布局,反映行业技术发展趋势。
    3. 企业概要-产业布局
      • 显示企业在产业链中的位置和贡献,有助于分析产业内部结构和发展趋势。
    4. 企业专利信息
      • 专利数据反映企业的创新活动,是衡量行业创新趋势的重要指标。
    5. 产业链基本信息
      • 提供产业链的整体视图,有助于理解产业链的结构和发展状况。
    6. 产业节点信息
      • 细化产业链的各个节点,有助于分析产业链的细分领域和关键环节。
    7. 地区信息
      • 地区相关的经济和社会数据可以反映区域经济发展和行业分布。
    8. 职位信息
      • 职位描述和要求直接反映劳动力市场的需求,是评估专业课程体系匹配度的关键数据。尤其是职位发布的时间,可以通过评价在一段时间内职位发布的数量来量化需求和趋势
    9. 产业活跃度分析
      • 通过统计产业的活跃度,可以评估行业的当前发展状况和未来趋势。
    10. 产业规模分析
      • 产业规模的变化可以反映行业的增长或衰退趋势。
    11. 产业创新力分析
      • 创新力是推动行业发展的关键因素,创新力分析有助于预测行业发展趋势。
    12. 产业链投资统计表
      • 投资活动反映资本对行业的关注和信心,是评估行业发展潜力的重要指标。
    13. 产业链吸引投资统计表
      • 吸引投资的能力可以反映行业的吸引力和发展前景。
    14. 产业链创投资统计表
      • 创业投资活动显示行业的创新和创业活力,是评估行业创新趋势的重要数据。

    宏观数据:

    行业报告提供行业的历史发展情况和未来趋势,是了解行业发展趋势的重要资料。

    社交媒体和新闻报道

    反映公众对行业的看法和行业的社会关注度,可以作为行业趋势的参考。

    政策信息数据(政策、法规、司法)

    政策和法规的变化直接影响行业的发展,是评估行业趋势的重要因素。

    产业/行业报告

    问题2:岗位如何匹配行业趋势?专业课程体系的匹配度评估?如何建立可量化的评估标准?
     

    ·  需要分析当前专业培养方案(课程设置、学时安排、实践环节等)是否涵盖了行业需求的核心技能。

    ·  评估知识结构是否匹配行业发展趋势(如AI、大数据、绿色能源等前沿技术的加入)。

    ·  检查实践教学(实习、项目制学习、企业合作等)是否能够有效连接学校与企业。

    ·  采用哪些指标来衡量匹配度?如就业率、毕业生起薪、用人单位反馈、课程与岗位技能的对应关系等。

    ·  是否可以建立数据驱动的方法,如文本分析(对比课程大纲和岗位描述)、毕业生跟踪调查等?

    需要的数据:

    1. 院校信息:提供院校的基本信息,有助于了解不同院校的专业设置和课程体系。
    2. 学院基本信息:包括资质、专业、校企合作班、实习培训基地、共建双学位班等信息,有助于评估实践教学环节与行业需求的匹配度。
    3. 学科专业信息:涵盖学科专业的编码、名称、级别等,有助于分析某一项专业核心课程(不同专业在同一类别下,都开设相关专业课)是否匹配行业
    4. 学校招生信息:包括招生简章、培养方案、教学大纲等,有助于评估当前专业培养方案是否匹配行业发展趋势。
    5. 教师基本信息:包括教师的擅长领域、履历、获奖专利、文章等,有助于了解教师团队是否具备行业前沿技术的教学能力。
    6. 简历数据-基本信息、教育背景、求职期望:包括学生的基本信息、教育背景、实习经历、项目经验、技能专长、求职期望等,有助于评估知识结构是否匹配行业发展趋势。有助于评估学校是否应该加强某些课程的培训(例如学生专业实际上有开设,但简历上没有体现)
    7. 学籍数据:包括学生的学籍信息,有助于进行毕业生跟踪调查,收集毕业生就业数据。
    8. 企业信息:提供企业的基本信息,有助于了解行业需求和岗位技能要求。
    9. 企业概要-标签信息:包括企业规模、企业类型、行业领域标签等,有助于分析行业发展趋势。
    10. 企业概要-圈子/技术领域/产品与服务/拓展度:包括技术领域标签、产品与服务标签等,有助于评估专业课程体系是否包含了行业前沿技术。
    11. 职位信息:包括职位名称、职位性质、需求专业、招聘人数、职位类别代码、最低月薪、最高月薪、职位详情等,有助于分析课程与岗位技能的对应关系。
    12. 产业活跃度分析、产业规模分析、产业创新力分析:提供产业的活跃度、规模、创新力等指标,有助于评估行业发展趋势。

    补充项:学生就业数据 -可用于间接评判行业趋势

  • 如何对事件序列数据增强

    这段代码通过事件序列的平移和叠加来实现数据增强,目的是提高模型对时间特征的建模能力,同时增加数据的鲁棒性。具体增强的过程和原理如下:


    1. 数据增强的概念

    在时间序列建模中,数据增强是一种增加训练数据多样性的方法。通过对事件序列进行平移、叠加、排序等操作,可以模拟更多的潜在时间序列分布,使模型对不同时间模式和扰动更鲁棒。

    one_step_superpose 函数采用了一种特别的增强方式:事件序列平移叠加


    2. 代码是如何增强数据的

    2.1 平移事件序列

    shift = int(batch / 2)
    shift_type = torch.cat((event_type[shift:, :], event_type[:shift, :]), dim=0)
    shift_time = torch.cat((event_time[shift:, :], event_time[:shift, :]), dim=0)
    
    • 操作:将事件序列(事件类型和事件时间)按照批次大小的一半进行平移。
      • 前一半序列event_type[shift:, :] 表示从 shiftbatch 的部分。
      • 后一半序列event_type[:shift, :] 表示从 0 到 shift 的部分。
      • 平移后的序列通过拼接组合:将后一半放到前一半之前,得到 shift_typeshift_time
    • 意义:这种平移操作打乱了原有序列的顺序,增加了数据的多样性。

    2.2 原始序列与平移序列叠加

    new_type = torch.cat((event_type, shift_type), dim=1)  # batch * (2seq_len)
    new_time = torch.cat((event_time, shift_time), dim=1)  # batch * (2seq_len)
    
    • 操作:将原始序列和经过平移的序列进行拼接(叠加),使每个序列的长度变为原来的两倍。
      • 形状从 (batch_size, seq_len) 变为 (batch_size, 2 * seq_len)
    • 意义:通过叠加,增加了序列中事件的丰富性,使得模型能够看到更多的可能事件组合。

    2.3 按时间排序

    new_type, new_time = sorting(new_type, new_time)
    
    • 操作:对叠加后的事件类型和事件时间进行排序,确保事件按照时间升序排列。
      • 排序的目的是恢复时间序列的因果关系。
    • 意义:在时间序列建模中,事件的顺序非常重要,因为后续事件的预测依赖于先前事件的时间和类型。

    2.4 重新组织事件

    new_type, new_time = reorganize(new_type, new_time)
    
    • 操作:将零值事件(无意义的占位符)移动到序列的末尾。
      • 零值事件通常是填充事件,在序列数据中没有实际意义。
      • 通过重新组织,可以确保有效事件在序列的开头,便于模型处理。
    • 意义:减少无效事件对模型训练的干扰,提高模型的学习效率。

    3. 数据增强的效果

    这种增强方法通过平移和叠加,引入了时序数据的扰动结构多样性

    1. 生成更多样的数据分布:通过叠加原始序列和平移序列,生成了更多的可能序列。
    2. 模拟潜在的时间依赖性:排序后生成的新序列仍保留了时间上的顺序性,使模型可以学习事件之间的潜在依赖。
    3. 提高模型的鲁棒性:模型在训练时接触到更多种类的序列(原始序列与平移版本的组合),对不同时间模式的适应性更强。
    4. 扩增数据集:相当于将原始数据翻倍,减少了模型对有限数据的过拟合风险。

    4. 与论文中的增强策略的联系

    这段代码与论文中提到的Hawkes过程的随机拼接和叠加直接对应:

    1. 随机平移:通过平移操作模拟不同的时间偏移。
    2. 叠加增强:通过原始序列和平移序列的叠加生成新的序列。
    3. 排序与组织:确保叠加后的序列仍然保留时间因果关系,且具有有效事件的优先性。

    这种方法结合了时间序列的特性和事件的时序依赖,既可以提升数据多样性,又不会破坏序列的时间结构。


    5. 总结

    one_step_superpose 的增强方法通过 平移叠加排序

    • 提高了数据的丰富性;
    • 增强了模型对时间相关性的理解;
    • 减少了对有限数据的依赖,增加了训练数据的多样性。

    如果有其他数据增强需求,还可以基于这种方法进一步扩展,例如改变平移量或引入其他扰动!

  • 为什么要计算非事件的对数似然?

    背景:事件和非事件的建模

    • 事件发生:模型预测某些时刻会发生特定类型的事件。
      • 事件的对数似然(event_ll)用于评估模型在正确预测事件上的性能。
    • 非事件建模:在没有事件发生的时间区间(非事件区间)中,模型需要正确预测“没有事件发生”的可能性。
      • 非事件对数似然(non_event_ll)用于评估模型对空窗期的预测能力。

    在 Hawkes 过程和类似的时间序列建模中,事件发生概率和非事件发生概率需要同时被建模,才能全面描述时间序列。

    为什么要计算非事件的对数似然?

    2.1 补全概率分布

    • 在时间序列建模中,事件发生的概率和非事件发生的概率需要共同描述整个时间过程。
    • 如果只考虑事件的对数似然,模型可能会忽视事件之间的空窗期(即非事件的部分),导致预测偏差。
    • 非事件的对数似然弥补了这一空白,确保模型能够平衡事件和非事件的预测。

    2.2 避免过拟合事件

    • 如果只优化事件对数似然,模型可能会倾向于过拟合现有事件,而忽视没有事件的时间段(空窗期)。
    • 计算非事件的对数似然,模型需要在空窗期内预测“事件不应该发生”,从而提高模型对真实数据的拟合能力。

    2.3 强化时间动态的学习

    • 非事件的对数似然依赖于事件发生率(intensity function),即 type_lambda
      • 高强度:非事件的对数似然会较低(模型认为事件更有可能发生)。
      • 低强度:非事件的对数似然会较高(模型认为事件不太可能发生)。
    • 通过优化非事件的对数似然,模型能够更准确地学习时间动态变化,区分事件和非事件的边界。

    2.4 对比学习的核心

    • 在对比学习中,正样本(事件)和负样本(非事件)需要一起优化。
      • 优化事件对数似然:让模型在事件时刻更自信。
      • 优化非事件对数似然:让模型在非事件时刻更谨慎。
    • 非事件对数似然帮助模型更好地区分正负样本。

    总结

    计算非事件的对数似然有以下意义:

    1. 补充事件的对数似然:完整描述时间序列的概率分布。
    2. 提升模型鲁棒性:避免模型过拟合事件,增强对非事件区间的预测能力。
    3. 强化时间动态的学习:通过优化非事件对数似然,模型能更准确地学习强度函数的变化趋势。
    4. 优化生成模型:在对比学习中,正负样本需要共同训练,非事件对数似然优化负样本的学习。
  • HCL-正负样本采样方法

    正样本:根据重要性移除事件

    优先移除重要性较低的事件(即不重要的事件)。

    使用 significance 参数来决定哪些事件更重要。

    在序列中随机选取一部分事件,按比例 ratio_remove 删除?

    负样本:显著改变序列,使其与原始序列的特征差异明显。

    比如说就和正样本反着来,优先移除正样本不移除的事件?

  • HCL-TPP 训练结果

    (1) loglikelihood (对数似然)

    • 表示对模型预测的评估,衡量模型输出的概率分布是否与目标标签匹配。
    • 数值越大,说明模型预测的概率分布越接近目标分布。

    (2) accuracy (准确率)

    • accuracy 是分类任务中的一个指标,表示模型预测正确的样本占总样本的比例。

    (3) RMSE (均方根误差, Root Mean Squared Error)

    数值越小越好,表示模型预测更接近真实值。

    (4) elapse (耗时)

    阶段的区分

    • Training (训练)
      • 记录模型在训练集上的表现指标,显示模型的学习进度。
    • Validating (验证)
      • 验证集用于模型评估,以检查模型是否过拟合或欠拟合。
    • Testing (测试)
      • 测试集是独立于训练集和验证集的,用来评估模型的最终性能。

    上图为MLE+Reg的训练结果

    上图为MLE+DA的训练结果,验证集和测试集对数似然为负数,均方误差也比训练集上要差,疑似有一点过拟合。训练集上来看的话表现是比上一种方法要好的

    上图为Dis的训练结果,对数似然都是负数,均方误差表现也一般般

    上图为HCL+MLE的训练结果,训练集上的均方误差有点高,但到了验证集和测试集就不算高,表现反而变好了

    上图为HCLeve+MLE的训练结果,和上面一样,在训练集上表现弱于验证集和测试集

    上图为HCLseq+MLE的训练结果和上面一样,在训练集上表现弱于验证集和测试集

  • 世界,您好!

    欢迎使用 WordPress。这是您的第一篇文章。编辑或删除它,然后开始写作吧!