llms.txt生成
本软件服务用于根据网站页面的连接(a标记)生成AI人工智能大模型可读的文档(Markdown格式),
llms.txt是AI人工智能大模型在训练或推理阶段获取网站主题内容和URL的重要索引文档,
llms.txt标准由(官方网站:https://llmstxt.org/)Jeremy Howard等创立和制定,llms.txt是一个Markdown(md格式)的网站基础简洁内容结构文档。
llms.txt主要用于AI大模型训练阶段获得网站相关数据集;
llms.txt在AI大模型推理阶段用于生成推理上下文,以让AI大模型可以从llms.txt中的内容回答。
llms.txt生成方式
本软件提供多种方式生成llms.txt文件。
一种是基于您的网站的页面连接自动抓取(页面中的a标签,注不含通过Javascript生成的连接),通过分析页面的相互连接页面,形成网址列表,然后生成llms.txt。
llms.txt中网址的标题即为网页原来的标题,简要描述则为页面中的“Description”元数据(Meta标记),
如果页面不存在Description标记,则系统会自动提取页面中的article标签中的部分内容或页面中p(段落)标记的部分内容作为简要描述。
通过指定的URL列表(必须为同站内的连接)或网站地图列表(sitemap.xml或sitemap.txt)生成llms.txt。
你可以根据要生的llms.txt的网站具体情况选择其一,每次的每个任务,只能选择其中一种方式。
llms.txt背景(该内容译自https://llmstxt.org/)
大型语言模型越来越依赖网站信息,但面临一个关键限制:上下文窗口太小,无法完整处理大多数网站内容。将包含导航、广告和JavaScript的复杂HTML页面转换为LLM友好的纯文本既困难又不精确。
尽管网站同时服务于人类读者和LLM,但后者更受益于在单一、易访问位置汇总的简洁、专家级信息。这对于开发环境等用例尤为重要,因为在这些场景中,LLM需要快速访问编程文档和API。
llms.txt文件的格式是什么样的?
llms.txt 文件比较特别,因为它使用 Markdown 来组织信息,而不是传统的结构化格式如 XML。之所以这样设计,是因为我们预期这些文件会被许多语言模型和代理程序读取。不过,llms.txt 文件中的信息遵循特定的格式,并且可以使用标准的程序化工具进行解析。
llms.txt 文件规范适用于位于网站根路径 /llms.txt(或可选的子路径)中的文件。遵循此规范的文件包含以下部分,以 Markdown 格式按特定顺序排列:
- 一个 H1 标题,标明项目或网站的名称。这是唯一必需的部分。
- 一个块引用,包含项目简要说明,包含理解文件其余部分所需的关键信息。
- 零个或多个 Markdown 部分(如段落、列表等),类型不限(除了标题),用于提供关于项目的更详细信息以及如何解释提供的文件。
- 零个或多个由 H2 标题分隔的 Markdown 部分,包含“文件列表”,列出进一步详细信息的 URL。
- 每个“文件列表”是一个 Markdown 列表,包含一个必需的 Markdown 超链接 [名称](URL),然后可选地跟一个冒号和关于该文件的说明。
以下是一个示例:
# Title
> Optional description goes here
Optional details go here
## Section name
- [Link title](https://link_url): Optional link details
## Optional
- [Link title](https://link_url)
请注意,其中“Optional”部分具有特殊含义——如果包含该部分,当需要较短上下文时,可以跳过其中提供的 URL。使用它来提供次要信息,这些信息通常可以被跳过。
llms.txt如何生成和创建?
llms.txt对于大多数情况下,llms.txt文件可以手动编写并上传到网站根目录。
llms.txt也可以使用类似于sitemap.xml(网站地图)的生成方式,通过程序从网站的一个入口,自动抓取网站中的连接(a标签),然后自动提取页面的标题、META信息中的Description,然后自动组织出llms.txt。
llms.txt是否是AI大模型语料优化?
llms.txt给人一种误解,即会被错误地解读为AI大模型语料库优化来源,这也导致了一种传统的SEO优化的误解,把llms.txt作为了AI优化,显然存在误解。
llms.txt可以简单理解为网站的内容的简洁版,它可以被大多数AI大模型在训练和生成推理时使用,
但显然它并不是AI大模型训练的语料来源,即训练大模型的企业是否采纳llms.txt完全取决AI大模型训练企业的规划,不会因为网站有了llms.txt,他们在训练时就一定会采纳。
部分AI大模型可以在推理中使用llms.txt内容,比如在使用Deepseek生成时,可以把llms.txt上传到对话中,这样在对话时,
AI就会从llms.txt中选择和组织语言,实现网站内容相关的回答和对话,这种形式,常见的支持附件的推理对话中均可适用。
但需要注意提供的llms.txt不应该超过大模型支持的输入上下文大小。
计费标准
本软件服务按每个任务按次单独计费,每个任务按实际生成的网址数分段计算软件服务费用。其中基础服务费为每个任务10元。
1-10(含10)网址范围内,价格均为10元。
10-100,超过10个网址后,在10个网址以上,100个网址以内(含100个网址,即在10到100个网址,每个网址0.4元);
100+,超过100个网址后,超过部分每个网址计费为0.3元。
实际计费价格,以生成后的系统计算的价格为准。由于本服务需要按生成的网址计算费用,因此本服务可以先生成结果后,再按实际网址数计算费用,付费后即可下载生成结果(即下载llms.txt需要付费后才可下载)。。
一个任务的计费计算举例(以10以内为10元,10-100部分为每个网址0.4元,100+的部分每个网址0.3元):
网址数为 3: 10 元。
网址数为 9: 10 元。
网址数为 12: 10 元 + (12 - 10) * 0.4 = 10.8 元。
网址数为 20: 10 元 + (20 - 10) * 0.4 = 14 元。
网址数为 110: 10 元 + 90 * 0.4 + (110-100) * 0.3 = 49 元。
llms.txt生成服务内容
按提交的任务参数生成llms.txt,其中llms.txt中的连接标题为网页标题,可选的简要描述为网页听META元数据“Description”,元数据如果不存在则按任务设置的方式从网页的BODY中载取(注意内容不进行任何加工和处理)。
截取内容时不保证文本段的顺序和连续性(script、style、head、nav、foot、footer等标记会先进行删除处理)
不提供llms.txt相关使用咨询
本软件只是按您提交的网站和相关连接(或网页中发现的连接)生成llms.txt,不为llms.txt的任何用法、用途(包括但不限于llms.txt如何使用、是否作为训练数据、AI大模型推理上下文、作用大小、用途大小、有效性等。)负责。
您的义务
本服务在生成时必须连续读取您的网站的内容,您必须保证网站具有可访问性(包括但不限于:不得限速、不得限制请求数、不得封禁本服务的请求等),
特别提示,本服务在生成过程中会消耗您的网站相关资源(包括但不限于:您的服务器带宽、服务器计算资源等),
一切涉及到访问您的网站所需条件、资源、费用、因此导致的后果等由您完全负责。
是否有免费试用体验?
有。对同一个来源(任何可识别的对象包括但不限于:相同IP地址、浏览器、相同邮箱账号、相同手机号码等均识别为同一来源)llms.txt生成软件服务提供 1 个免费任务,该任务生成的网址数不超过3个。
使用限制
为了保证本服务的可用性,每个可识别的用户(包括但不限于相同IP、相同账号等),最多只有 2 个已经生成但未下单付费的任务,超过后系统将禁止您提交新的任务。
一个网站是否只能生成一个llms.txt?
不是,一个网站您可以按需按不同任务方式生成多个llms.txt(比如不同的产品相关的页面生成不同的llms.txt),每个任务单独计费,
每个llms.txt都可以指定需要生成的网址列表(指定同网站内的网址),特别提示http和https访问协议不同,网址也不同,请自行做好区分。
该服务购买后是否提供退款?
不提供。本服务为先生成,后下单付款,然后付款后下载结果。在您付款前本服务已经完成其所有义务和责任,所需带宽、计算资源、软件服务等已经实际产生,因此一旦下单购买,则不提供退款。
购买生成记录保留多久?
购买后,生成的结果文件(llms.txt等)本服务的服务器上最长保留 30 天,超过后,不再可下载。所以如果您下单购买结果后,请尽快下载。
解析HTML是什么?
即以GET方式打开网址的源文件(服务器响应的原始内容),使用javascript异步加载的内容则无法用于解析和进一步处理。
任务生成后是否允许重新生成?
同一个任务只能生成一次,不可以重新生成。若网站有更新,请重新提交任务,新任务重新计费。