网站转markdown
本软件服务用于根据网站页面的连接(a标记)生成AI人工智能大模型可读的文档(Markdown格式),
markdown格式的网页是AI人工智能大模型在训练或推理阶段获取网站主题内容和URL的重要索引文档。
markdown格式的语料主要为网页或网站提供简洁版、文本版的内容,其与HTML相比,具有格式简洁、主体内容清晰,是一种易于被AI大模型算法理解和解析的格式。
markdown格式(即常见的.md类型的文本文件)现已经广泛应用于API、软件docs、Github软件介绍和资料分发、AI人工智能大模型语料库、AI人工智能微信语料库、AI人工智能推理上下文资料。
网站转markdown方式
本软件提供多种网址来源方式生成markdown格式的网页文件。
一种是基于您的网站的页面连接自动抓取(页面中的a标签,注不含通过Javascript生成的连接),通过分析页面的相互连接页面,形成网址列表,然后生成markdown格式的网页。
markdown格式通过把HTML页面的HTML源程序按一定的规则转化为markdown格式。每个网页(包括网址请求参数,Query)会生成一个独立的md文件,每本软件按每一个生成的URL(区分http/https、不同的Query参数为不同的页面)计费。
通过指定的URL列表(必须为同站内的连接)或网站地图列表(sitemap.xml或sitemap.txt)生成markdown格式的网页。
你可以根据要生的markdown格式的网页的网站具体情况选择其一,每次的每个任务,只能选择其中一种方式。
markdown格式的网页文件的格式是什么样的?
以下是一个示例:
# h1
文本内容
## h2
- [连接]:连接文本
## h2
- [连接]:连接文本
普通段落
markdown格式的网页如何生成和创建?
markdown格式的网页对于大多数情况下,markdown格式的网页文件可以手动编写并上传到网站根目录。
markdown格式的网页也可以使用类似于sitemap.xml(网站地图)的生成方式,通过程序从网站的一个入口,自动抓取网站中的连接(a标签),然后把网页的内容自动转换成markdown格式的网页。
markdown格式的网页是否是AI大模型语料优化?
markdown格式是AI大模型可识别的语料格式,特别是训练时,AI数据集管理团队可以通过markdown提炼有用的数据,因为网站的网页转成markdown格式是把网站数据用于自主AI大模型训练的必要条件。
markdown格式的网页可以简单理解为网站的内容的简洁版,它可以被大多数AI大模型在训练(一般是自主训练和微调)和生成推理时使用。
对于公共大模型训练是否采集您的网页、markdown内容,则由AI大模型训练公司决定。
计费标准
本软件服务按每个任务按次单独计费,每个任务按实际生成的唯一网址数(包括协议、主机名、路径、资源名、请求参数,合起来唯一)分段计算软件服务费用。其中基础服务费为每个任务25元。
1-10(含10)网址范围内,价格均为25元。
10-100,超过10个网址后,在10个网址以上,100个网址以内(含100个网址,即在10到100个网址,每个网址1.5元);
100+,超过100个网址后,超过部分每个网址计费为1元。
实际计费价格,以生成后的系统计算的价格为准。由于本服务需要按生成的网址计算费用,因此本服务可以先生成结果后,再按实际网址数计算费用,付费后即可下载生成结果(即下载markdown格式的网页需要付费后才可下载)。。
一个任务的计费计算举例(以10以内为25元,10-100部分为每个网址1.5元,100+的部分每个网址1.0元):
网址数为 3: 25 元。
网址数为 9: 25 元。
网址数为 12: 25 元 + (12 - 10) * 1.5 = 28 元。
网址数为 20: 25 元 + (20 - 10) * 1.5 = 40 元。
网址数为 110: 25 元 + 90 * 1.5 + (110-100) * 1 = 170 元。
网站转markdown服务内容
按提交的任务参数生成markdown格式的网页,本生成服务只按网页的源文件的结构重新组织成markdown格式,因网页的内容由javascript异步加载和生成,则无法生成异步加载的内容到markdown,请务必在使用本服务前确保自己的网页需要生成markdown的内容不存在异步加载情况。
不提供markdown格式的网页相关使用咨询
本软件只是按您提交的网站和相关连接(或网页中发现的连接)生成markdown格式的网页,不为markdown格式的网页的任何用法、用途(包括但不限于markdown格式的网页如何使用、是否作为训练数据、AI大模型推理上下文、作用大小、用途大小、有效性等。)负责。
您的义务
本服务在生成时必须连续读取您的网站的内容,您必须保证网站具有可访问性(包括但不限于:不得限速、不得限制请求数、不得封禁本服务的请求等),
特别提示,本服务在生成过程中会消耗您的网站相关资源(包括但不限于:您的服务器带宽、服务器计算资源等),
一切涉及到访问您的网站所需条件、资源、费用、因此导致的后果等由您完全负责。
是否有免费试用体验?
有。对同一个来源(任何可识别的对象包括但不限于:相同IP地址、浏览器、相同邮箱账号、相同手机号码等均识别为同一来源)网站转markdown软件服务提供 1 个免费任务,该任务生成的网址数不超过3个。
使用限制
为了保证本服务的可用性,每个可识别的用户(包括但不限于相同IP、相同账号等),最多只有 2 个已经生成但未下单付费的任务,超过后系统将禁止您提交新的任务。
该服务购买后是否提供退款?
不提供。本服务为先生成,后下单付款,然后付款后下载结果。在您付款前本服务已经完成其所有义务和责任,所需带宽、计算资源、软件服务等已经实际产生,因此一旦下单购买,则不提供退款。
购买生成记录保留多久?
购买后,生成的结果文件(markdown格式的网页等)本服务的服务器上最长保留 30 天,超过后,不再可下载。所以如果您下单购买结果后,请尽快下载。
处理的HTML是什么?
即以GET方式打开网址的源文件(服务器响应的原始内容),使用javascript异步加载的内容则无法用于解析和进一步处理。
什么是唯一的URL(网址)?
一个网址包括以下5部分:协议(http或https)、主机名(即网站的域名,比如:www.google.com)、路径(网址资源路径,比如:/init-cn/)、资源名称(比如:index.html)、请求参数(即Query,比如:product=chrome&lang=zh-cn)。
唯一的网址即该5部分共同唯一确定的一个URL。
任务生成后是否允许重新生成?
同一个任务只能生成一次,不可以重新生成。若网站有更新,请重新提交任务,新任务重新计费。