任务助手

网页转Markdown格式

本软件工具需要登录才可以上传!点击登录!

《网页转Markdown格式》服务条款与功能说明

网站转markdown

本软件服务用于根据网站页面的连接(a标记)生成AI人工智能大模型可读的文档(Markdown格式), markdown格式的网页是AI人工智能大模型在训练或推理阶段获取网站主题内容和URL的重要索引文档。 markdown格式的语料主要为网页或网站提供简洁版、文本版的内容,其与HTML相比,具有格式简洁、主体内容清晰,是一种易于被AI大模型算法理解和解析的格式。 markdown格式(即常见的.md类型的文本文件)现已经广泛应用于API、软件docs、Github软件介绍和资料分发、AI人工智能大模型语料库、AI人工智能微信语料库、AI人工智能推理上下文资料。

网站转markdown方式

本软件提供多种网址来源方式生成markdown格式的网页文件。 一种是基于您的网站的页面连接自动抓取(页面中的a标签,注不含通过Javascript生成的连接),通过分析页面的相互连接页面,形成网址列表,然后生成markdown格式的网页。 markdown格式通过把HTML页面的HTML源程序按一定的规则转化为markdown格式。每个网页(包括网址请求参数,Query)会生成一个独立的md文件,每本软件按每一个生成的URL(区分http/https、不同的Query参数为不同的页面)计费。

通过指定的URL列表(必须为同站内的连接)或网站地图列表(sitemap.xml或sitemap.txt)生成markdown格式的网页。
你可以根据要生的markdown格式的网页的网站具体情况选择其一,每次的每个任务,只能选择其中一种方式。

markdown格式的网页文件的格式是什么样的?

以下是一个示例:

# h1

文本内容

## h2

- [连接]:连接文本

## h2

- [连接]:连接文本

普通段落

markdown格式的网页如何生成和创建?

markdown格式的网页对于大多数情况下,markdown格式的网页文件可以手动编写并上传到网站根目录。

markdown格式的网页也可以使用类似于sitemap.xml(网站地图)的生成方式,通过程序从网站的一个入口,自动抓取网站中的连接(a标签),然后把网页的内容自动转换成markdown格式的网页。

markdown格式的网页是否是AI大模型语料优化?

markdown格式是AI大模型可识别的语料格式,特别是训练时,AI数据集管理团队可以通过markdown提炼有用的数据,因为网站的网页转成markdown格式是把网站数据用于自主AI大模型训练的必要条件。

markdown格式的网页可以简单理解为网站的内容的简洁版,它可以被大多数AI大模型在训练(一般是自主训练和微调)和生成推理时使用。 对于公共大模型训练是否采集您的网页、markdown内容,则由AI大模型训练公司决定。

计费标准

本软件服务按每个任务按次单独计费,每个任务按实际生成的唯一网址数(包括协议、主机名、路径、资源名、请求参数,合起来唯一)分段计算软件服务费用。其中基础服务费为每个任务25元1-10(含10)网址范围内,价格均为25元10-100,超过10个网址后,在10个网址以上,100个网址以内(含100个网址,即在10到100个网址,每个网址1.5元); 100+,超过100个网址后,超过部分每个网址计费为1元。 实际计费价格,以生成后的系统计算的价格为准。由于本服务需要按生成的网址计算费用,因此本服务可以先生成结果后,再按实际网址数计算费用,付费后即可下载生成结果(即下载markdown格式的网页需要付费后才可下载)。

一个任务的计费计算举例(以10以内为25元,10-100部分为每个网址1.5元,100+的部分每个网址1.0元):
网址数为 325 元。
网址数为 925 元。
网址数为 12: 25 元 + (12 - 10) * 1.5 = 28 元。
网址数为 20: 25 元 + (20 - 10) * 1.5 = 40 元。
网址数为 110: 25 元 + 90 * 1.5 + (110-100) * 1 = 170 元。

网站转markdown服务内容

按提交的任务参数生成markdown格式的网页,本生成服务只按网页的源文件的结构重新组织成markdown格式,因网页的内容由javascript异步加载和生成,则无法生成异步加载的内容到markdown,请务必在使用本服务前确保自己的网页需要生成markdown的内容不存在异步加载情况。

不提供markdown格式的网页相关使用咨询

本软件只是按您提交的网站和相关连接(或网页中发现的连接)生成markdown格式的网页,不为markdown格式的网页的任何用法、用途(包括但不限于markdown格式的网页如何使用、是否作为训练数据、AI大模型推理上下文、作用大小、用途大小、有效性等。)负责。

您的义务

本服务在生成时必须连续读取您的网站的内容,您必须保证网站具有可访问性(包括但不限于:不得限速、不得限制请求数、不得封禁本服务的请求等), 特别提示,本服务在生成过程中会消耗您的网站相关资源(包括但不限于:您的服务器带宽、服务器计算资源等), 一切涉及到访问您的网站所需条件、资源、费用、因此导致的后果等由您完全负责。

是否有免费试用体验?

有。对同一个来源(任何可识别的对象包括但不限于:相同IP地址、浏览器、相同邮箱账号、相同手机号码等均识别为同一来源)网站转markdown软件服务提供 1 个免费任务,该任务生成的网址数不超过3个。

使用限制

为了保证本服务的可用性,每个可识别的用户(包括但不限于相同IP、相同账号等),最多只有 2 个已经生成但未下单付费的任务,超过后系统将禁止您提交新的任务。

该服务购买后是否提供退款?

不提供。本服务为先生成,后下单付款,然后付款后下载结果。在您付款前本服务已经完成其所有义务和责任,所需带宽、计算资源、软件服务等已经实际产生,因此一旦下单购买,则不提供退款。

购买生成记录保留多久?

购买后,生成的结果文件(markdown格式的网页等)本服务的服务器上最长保留 30 天,超过后,不再可下载。所以如果您下单购买结果后,请尽快下载。

处理的HTML是什么?

即以GET方式打开网址的源文件(服务器响应的原始内容),使用javascript异步加载的内容则无法用于解析和进一步处理。

什么是唯一的URL(网址)?

一个网址包括以下5部分:协议(http或https)、主机名(即网站的域名,比如:www.google.com)、路径(网址资源路径,比如:/init-cn/)、资源名称(比如:index.html)、请求参数(即Query,比如:product=chrome&lang=zh-cn)。 唯一的网址即该5部分共同唯一确定的一个URL。

任务生成后是否允许重新生成?

同一个任务只能生成一次,不可以重新生成。若网站有更新,请重新提交任务,新任务重新计费。

点我咨询