近年来,随着人工智能技术的进展,NLP自然语言领域取得了巨大的进步。许多大语言模型(Large Language Models ,LLMs)被训练应用于自然语言处理领域,用于研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。大语言模型的训练需要构建一个高质量、多样化的大语言模型数据集,这需要将网页数据采集并处理后得到大量高质量的文本信息作为模型的输入,用于大语言模型进行训练。然而,现有的数据采集技术存在诸多问题,比如对复杂站点进行采集时,无法获取完整链接;容易过量下载,造成对方网站崩溃;对下载页面不进行内容质量分析和推断,造成重复下载或低质下载、影响数据采集的效率。
因此,在大量网页数据获取的过程中,如何快速、精准、安全、高效地采集互联网数据变得至关重要。该发明为克服上述的不足之处,提供一种快速、精确、安全高效的广度数据采集的方法和系统,择优下载高质量网页,提高下载效率。
该发明的有益效果在于:
1、发现尽可能多的网页链接,并且在下载过程中控制每个网站的访问数量,减少对网站的流量冲击;
2、对已经下载的内容进行分析,对未下载的连接进行质量推断,通过择优下载分配额度的方式,减少低质量网页下载和重复下载,提高数据质量及下载效率,减少在数据采集过程中网络资源的消耗;
3、采用单独的信息回灌队列,保证网页元信息库修改操作的原子性和稳定性。通过本发明,能在有限资源情况下,尽可能的获取更多高质量的网页文本信息,并减少对网站的冲击,实现快速、精准、安全、高效地采集互联网数据。
(以上部分数据来源:中国专利审查信息查询网)