]> git.immae.eu Git - github/Chocobozzz/PeerTube.git/blobdiff - server/lib/activitypub/crawl.ts
Fix user subscription follows count
[github/Chocobozzz/PeerTube.git] / server / lib / activitypub / crawl.ts
index 1b9b14c2e55177657a655e1de9a81143ebcec39f..336129b822013a0e3e01786069d6923005d1de27 100644 (file)
@@ -1,40 +1,58 @@
-import { ACTIVITY_PUB, JOB_REQUEST_TIMEOUT } from '../../initializers'
-import { doRequest } from '../../helpers/requests'
-import { logger } from '../../helpers/logger'
-import * as Bluebird from 'bluebird'
+import Bluebird from 'bluebird'
+import { URL } from 'url'
+import { retryTransactionWrapper } from '@server/helpers/database-utils'
 import { ActivityPubOrderedCollection } from '../../../shared/models/activitypub'
+import { logger } from '../../helpers/logger'
+import { doJSONRequest } from '../../helpers/requests'
+import { ACTIVITY_PUB, WEBSERVER } from '../../initializers/constants'
 
-async function crawlCollectionPage <T> (uri: string, handler: (items: T[]) => Promise<any> | Bluebird<any>) {
-  logger.info('Crawling ActivityPub data on %s.', uri)
+type HandlerFunction<T> = (items: T[]) => (Promise<any> | Bluebird<any>)
+type CleanerFunction = (startedDate: Date) => Promise<any>
 
-  const options = {
-    method: 'GET',
-    uri,
-    json: true,
-    activityPub: true,
-    timeout: JOB_REQUEST_TIMEOUT
-  }
+async function crawlCollectionPage <T> (argUrl: string, handler: HandlerFunction<T>, cleaner?: CleanerFunction) {
+  let url = argUrl
+
+  logger.info('Crawling ActivityPub data on %s.', url)
+
+  const options = { activityPub: true }
+
+  const startDate = new Date()
 
-  const response = await doRequest<ActivityPubOrderedCollection<T>>(options)
+  const response = await doJSONRequest<ActivityPubOrderedCollection<T>>(url, options)
   const firstBody = response.body
 
-  let limit = ACTIVITY_PUB.FETCH_PAGE_LIMIT
+  const limit = ACTIVITY_PUB.FETCH_PAGE_LIMIT
   let i = 0
   let nextLink = firstBody.first
   while (nextLink && i < limit) {
-    options.uri = nextLink
+    let body: any
+
+    if (typeof nextLink === 'string') {
+      // Don't crawl ourselves
+      const remoteHost = new URL(nextLink).host
+      if (remoteHost === WEBSERVER.HOST) continue
+
+      url = nextLink
+
+      const res = await doJSONRequest<ActivityPubOrderedCollection<T>>(url, options)
+      body = res.body
+    } else {
+      // nextLink is already the object we want
+      body = nextLink
+    }
 
-    const { body } = await doRequest<ActivityPubOrderedCollection<T>>(options)
     nextLink = body.next
     i++
 
     if (Array.isArray(body.orderedItems)) {
       const items = body.orderedItems
-      logger.info('Processing %i ActivityPub items for %s.', items.length, options.uri)
+      logger.info('Processing %i ActivityPub items for %s.', items.length, url)
 
       await handler(items)
     }
   }
+
+  if (cleaner) await retryTransactionWrapper(cleaner, startDate)
 }
 
 export {