最新公开|DeepSeek新专利公布：减少数据采集时网络资源消耗-深圳市多智汇新知识产权代理事务所_深圳知识产权_深圳专利申请

最新公开|DeepSeek新专利公布：减少数据采集时网络资源消耗

国家知识产权局于2025年04月01日公布了DeepSeek（全称：杭州深度求索人工智能基础技术研究有限公司）申请的一项名为“一种广度数据采集的方法及其系统“，公布号CN119739917A，申请日期为2024年12月06日的发明专利。

根据摘要显示：本发明涉及数据采集领域，尤其涉及一种广度数据采集的方法及其系统，包括：建立网页元信息库；确定每日调度单元下载配额及当日下载总额度；从网页元信息库中选取相应数量的链接，分配下载额度；下载过程控制；下载文本进行后处理及数据清洗后进入回灌队列，通过信息回灌实现网页元信息库更新。本发明的有益效果在于：发现尽可能多的网页链接，并减少对网站的流量冲击；对已经下载的内容进行分析，对未下载的连接进行质量推断，通过择优下载分配额度的方式，减少低质量网页下载和重复下载，提高数据质量及下载效率，减少在数据采集过程中网络资源的消耗；采用单独的信息回灌队列，保证网页元信息库修改操作的原子性和稳定性。

近年来，随着人工智能技术的进展，NLP自然语言领域取得了巨大的进步。许多大语言模型(Large Language Models ,LLMs)被训练应用于自然语言处理领域，用于研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。大语言模型的训练需要构建一个高质量、多样化的大语言模型数据集，这需要将网页数据采集并处理后得到大量高质量的文本信息作为模型的输入，用于大语言模型进行训练。然而，现有的数据采集技术存在诸多问题，比如对复杂站点进行采集时，无法获取完整链接；容易过量下载，造成对方网站崩溃；对下载页面不进行内容质量分析和推断，造成重复下载或低质下载、影响数据采集的效率。

因此，在大量网页数据获取的过程中，如何快速、精准、安全、高效地采集互联网数据变得至关重要。该发明为克服上述的不足之处，提供一种快速、精确、安全高效的广度数据采集的方法和系统，择优下载高质量网页，提高下载效率。

该发明的有益效果在于：

1、发现尽可能多的网页链接，并且在下载过程中控制每个网站的访问数量，减少对网站的流量冲击；

2、对已经下载的内容进行分析，对未下载的连接进行质量推断，通过择优下载分配额度的方式，减少低质量网页下载和重复下载，提高数据质量及下载效率，减少在数据采集过程中网络资源的消耗；

3、采用单独的信息回灌队列，保证网页元信息库修改操作的原子性和稳定性。通过本发明，能在有限资源情况下，尽可能的获取更多高质量的网页文本信息，并减少对网站的冲击，实现快速、精准、安全、高效地采集互联网数据。

（以上部分数据来源：中国专利审查信息查询网）

返回上一页

客服电话：0755-86705415