词元之母TOK.MOM - 平台充值汇率 1:1 即 1 人民币充值到账 1 美元,支持一个 Key 调用近 600+ 海内外模型,限时特价模型低至 1 折,欢迎上岸!
01-爬虫2.0-添加分类功能.json<head> SEO 相关标签与正文区域内容docId)并在 Pinecone 中“先删后写”,实现去重与增量更新http://49.51.248.71:11235/crawl建议:将所有密钥迁移到 n8n 凭证管理中,避免硬编码在节点参数内。
When chat message received(Chat Trigger)chatInput(通常为 sitemap 或入口 URL)。HTTP Request1 + XML1chatInput 指向的 XML(sitemap),解析为可遍历结构。Switch2chatInput 内容判断站点(关键字包含 网站一的关键词 或 网站二的关键词),分流到对应分支。Filter1 / Code2 / 统一split-out接受名称1urlset.url 中筛选目标 URL 集合;id 与 Pinecone 索引名 vector;{ urls, id, vector }。Split Out1(fieldToSplitOut = urls)+ Limit1(控制本次最大处理数)+ Loop Over Items1(batchSize=3)HTTP Request7(POST 到爬虫服务 /crawl){ results: [{ url, html }] }。Wait(可控节流)HTML1(extractHtmlContent)results[0].html 提取:head:完整 <head> 片段content:#website-content 选择器对应的正文区域Code1<img>)name{ data, url, name }Build Doc Fingerprint1docId(字符串)HTTP Request5(Pinecone 删除旧向量)POST /vectors/delete,以 filter { doc_id: docId } 全量删除旧版本向量;onError: continueRegularOutput,删除失败不中断,便于幂等与覆盖写入。AI Agent1(Google Gemini Chat Model1 作为子模型)Search Google Drive for File-nearstream1 → If1 → Create file from text1name + .txt);Convert to File / Default Data Loader1 / Recursive Character Text Splitter1Embeddings Google Gemini1 → Pinecone Vector Store1vector 值),同时附带元数据(product_name、product_url 等)。网站一 主线的镜像流程在另一分支( Switch/Filter/统一split-out接受名称等)中同理存在。
Switch / Switch2 中的 contains 条件(nearstream / nearhub)Filter / Filter1 里 productsName、domain、各类路径前缀判定(blog/solutions/help-center/compare 等)HTTP Request6/7 的 url(/crawl API)HTML/HTML1 的 dataPropertyName 与 extractionValues(#website-content)AI Agent/AI Agent1 的 text(结构化规范、语言、FAQ 输出等)Search Google Drive for File-* 与 Create file from text* 里父目录 ID(分站点)Code2 / 统一split-out接受名称1 里输出的 vector;以及向量写入节点 Pinecone Vector Store*Limit*(maxItems)、Loop Over Items*(batchSize)、Wait/Wait1(秒数)https://example.com/sitemap.xml).txt 文件;在 Pinecone 控制台查看向量写入结果。HTTP Request4/5 设为 onError: continue,删除失败不影响后续写入(方便覆盖式更新)Wait/Wait1 与 Loop Over Items* 的 batchSize 控制并发与频率Continue On Fail + 分支吸收),并在日志中记录失败样本docId 的旧版本向量会残留,先删可确保索引数据一致(去重+增量)。If* 分支中补充 Update File 逻辑。HTML/HTML1 的 CSS 选择器(#website-content)是否适配该站点;或扩展解析规则。Switch* 中新增分支,并为分支配置专属 id(Drive 目录)与 vector(Pinecone 索引)。